漢字字元特徵提取器，提取發音特徵、字形特徵用做深度學習的特徵

在深度學習中，很多場合需要提取漢字的特徵（發音特徵、字形特徵）。本項目提供了一個通用的字元特徵提取框架，並內建了 拼音、字形（四角編碼）和 部首拆解 的特徵。

特徵提取器

拼音特徵提取器：提取漢字的拼音作為特徵，發音相似的字在編碼上應該相似。示例：胡 -> hú，福 -> fú
字形（四角編碼）提取器：提取中文的外形作為特徵，相似的漢字在編碼上應該相近。示例：門 -> 37001，閂 -> 37101
部首拆解提取器：提取漢字的偏旁部首拆解作為特徵，相似的漢字在編碼上應該相近。示例：閂 -> ['門', '一']，閆 -> ['門', '三']

AI項目體驗地址 https://loveai.tech

from hanzi_char_featurizer import Featurizor  featurizor = Featurizor()  result = featurizor.featurize('明天')

print(result)

輸出

([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],

('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),

('0', '4'))