汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征
- 2019 年 10 月 28 日
- 筆記
拼音
、字形
(四角编码) 和 部首拆解
的特征。
特征提取器
- 拼音特征提取器:提取汉字的拼音作为特征,发音相似的字在编码上应该相似。示例:
胡
->hú
,福
->fú
- 字形(四角编码)提取器:提取中文的外形作为特征,相似的汉字在编码上应该相近。示例:
门
->37001
,闩
->37101
- 部首拆解提取器:提取汉字的偏旁部首拆解作为特征,相似的汉字在编码上应该相近。示例:
闩
->['门', '一']
,闫
->['门', '三']
AI项目体验地址 https://loveai.tech
使用
from hanzi_char_featurizer import Featurizor featurizor = Featurizor() result = featurizor.featurize('明天')
print(result)
输出
([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],
('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),
('0', '4'))
结构解析

输出到 TensorFlow 作为 Tensor

