漢字字元特徵提取器 ,提取發音特徵、字形特徵用做深度學習的特徵
- 2019 年 10 月 28 日
- 筆記
拼音
、字形
(四角編碼) 和 部首拆解
的特徵。
特徵提取器
- 拼音特徵提取器:提取漢字的拼音作為特徵,發音相似的字在編碼上應該相似。示例:
胡
->hú
,福
->fú
- 字形(四角編碼)提取器:提取中文的外形作為特徵,相似的漢字在編碼上應該相近。示例:
門
->37001
,閂
->37101
- 部首拆解提取器:提取漢字的偏旁部首拆解作為特徵,相似的漢字在編碼上應該相近。示例:
閂
->['門', '一']
,閆
->['門', '三']
AI項目體驗地址 https://loveai.tech
使用
from hanzi_char_featurizer import Featurizor featurizor = Featurizor() result = featurizor.featurize('明天')
print(result)
輸出
([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],
('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),
('0', '4'))
結構解析

輸出到 TensorFlow 作為 Tensor

