.Net中字符串不变性与相等判断的特殊场景

  • 2022 年 4 月 21 日
  • 筆記

今天写bug的时候帮同事解决了一个有趣的问题,可能很多人都会答错。分享给大家。

问题

请看以下例子,并回答问题。

var s1 = "12";
var s2 = "12";

//序列化方式1
var o3 = Newtonsoft.Json.JsonConvert.DeserializeObject<string>(Newtonsoft.Json.JsonConvert.SerializeObject(s1));
//序列化方式2
MemoryStream stream = new MemoryStream();
System.Runtime.Serialization.Formatters.Binary.BinaryFormatter bf = new System.Runtime.Serialization.Formatters.Binary.BinaryFormatter();
bf.Serialize(stream, s1);
stream.Seek(0, SeekOrigin.Begin);
var o4 = bf.Deserialize(stream);

//====分割线===================================================

var e1 = object.ReferenceEquals(s1, s2);

var e2 = o4 == s1;

var e3 = s1.Equals(o4);

var e4 = o3 == o4;

Console.ReadKey();

请回答分割线后e1, e2, e3, e4 值为true还是false。

人人都知道在.Net中字符串是享元模式的经典范例。字符串具有不变性。(至少在托管层,事实上可以在非托管层修改字符串的值),但你真的能回答对上面的问题么?


答案


e1 = true;
e2 = false;
e3 = true;
e4 = false;

要了解这个问题首先可以看下字符串在内存中的布局。

如何在visual studio中查看变量的内存布局

在VS中可以非常方便的查看托管或非托管变量的内存值。方法如下。

  • 依次在调试模式下打开 调试 -> 窗口 -> 内存 -> 内存1(1~4均可) 打开内存对话框。
  • 在地址栏中输入变量名即可。

字符串变量在内存中的布局

在.Net中字符串是以UTF-16格式在内存中保存的。在本例中s1的内存如下。

00 00 00 00 00 00 00 00 98 d6 fc e5 fb 7f 00 00 02 00 00 00 31 00 32 00

这里可能与你拿到的结果不一样。你可能并没有前8位0x00,因为我把对象头带上了。下面依次解释各段含义。

  • 00 00 00 00 00 00 00 00 最开始的8比特是对象头。其中,在64位下,高4位为0,低4位为一个不为0的数(这里由于并没有执行lock或Gethashcode操作,所以这里为0,感兴趣的自行实验.)
  • 98 d6 fc e5 fb 7f 00 00对象的MethodTable,根据类型而不同,对象的引用指向的位置。
  • 02 00 00 00 字符串长度,这里是2。
  • 31 00 32 00 字符串数组* char,注意都是小端模式。

拿以上s1 s2 o3 o4分别实验可以发现他们的内存一模一样,其中s1 s2直接就是同一块内存地址,但剩下的内存地址都不一样

比较与解答

  1. e1 = true; 通过内存看合情合理,毕竟都同一块内存了。

  2. e2 = false; 这里如果用的VS的版本比较高的话,也能看出来。因为这里VS会提示:

    可能非有意的引用比较。

    既然是引用比较,内存地址都不一样,肯定是false了。但是如果vs版本不高的话则迷惑性就较大了,其实这里做的是ReferenceEquals的比较。

  3. e3 = true; 这里问题出在.Net代码里。字符串类型Equals方法被重载了。

        // Determines whether two strings match.
        public override bool Equals([NotNullWhen(true)] object? obj)
        {
            if (object.ReferenceEquals(this, obj))
                return true;

            if (!(obj is string str))
                return false;

            if (this.Length != str.Length)
                return false;

            return EqualsHelper(this, str);
        }

EqualsHelper方法最终则调用如下。(在.Net 6下)

        // Optimized byte-based SequenceEquals. The "length" parameter for this one is declared a nuint rather than int as we also use it for types other than byte
        // where the length can exceed 2Gb once scaled by sizeof(T).
        public static unsafe bool SequenceEqual(ref byte first, ref byte second, nuint length)

由于实现过于复杂(.Net framework 4.5.2下则较简单,直接按长度比较char,有兴趣的自行查阅),这里就不贴具体实现了。我们很容易看出这里比较的目的是比较两段内存是否相等,显然为true

  1. e4 = false;这里是为了比较不同序列化方式的影响,和e2类似,结果显然是true

结论

虽然.Net中字符串是享元模式创建的,但并不能保证同一字符串在内存里只有一份。比如序列化情况等例外情况。如果读者知道其他情况也可以告诉我,提前说声感谢