【C# 代码小知识】画蛇添足的编码前缀

2020 年 2 月 18 日
笔记

我们都知道，文件有不同的编码，例如我们常用的中文编码有：UTF8、GK2312 等。

Windows 操作系统中，新建的文件会在起始部分加入几个字符的前缀，来识别编码。

例如，新建文本文件，写入单词 Hello，另存为 UTF8。Hello 占 5 个字节，但文本大小却是 8 个字节。（win7 系统下还是这样的，win10 已经去掉了编码前缀，所以 win10 下文件大小依然是 5 个字节。看来微软自己也改变了。）

我们用 StreamWriter 来生成文件。

using (StreamWriter sw = new StreamWriter("a.txt"))  {      sw.Write("Hello");  // 5 字节  }    using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))  {      sw.Write("Hello");  // 8 字节  }

诡异的事情发生了，StreamWriter 的默认编码是 UTF8，都是用的 UTF8 编码，怎么文件的大小会不一样呢？

UTF8Encoding 有两个私有属性：emitUTF8Identifier 和 isThrowException，初始化时由构造函数传入。

emitUTF8Identifier 表示是否添加编码前缀
isThrowException 表示遇到编码错误时是否报错

由此可见，是否添加编码前缀，是可以控制的。

Encoding 中 UTF8 定义如下，添加编码前缀。

public static Encoding UTF8 {      get {          if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);          return utf8Encoding;      }  }

而 StreamWriter 中使用的默认编码，emitUTF8Identifier=false：

internal static Encoding UTF8NoBOM {      get {          if (_UTF8NoBOM == null) {              UTF8Encoding noBOM = new UTF8Encoding(false, true);              _UTF8NoBOM = noBOM;          }          return _UTF8NoBOM;      }  }

这就是开头的代码中两个文件大小不一样的原因了。

【C# 代码小知识】画蛇添足的编码前缀

VirMach 便宜 VPS

QNews

【C# 代码小知识】画蛇添足的编码前缀

分享此文：

Related Posts

[.NET大牛之路 007] 详解 .NET 程序集

推荐系统实践 0x09 基于图的模型

Android：手把手带你了解实用的Android Jetpack

如何在 RunAs 启动的软件传入带空格的路径带空格参数

VirMach 便宜 VPS

QNews

热门搜寻