漢字字元特徵提取器 ,提取發音特徵、字形特徵用做深度學習的特徵

  • 2019 年 10 月 28 日
  • 筆記

在深度學習中,很多場合需要提取漢字的特徵(發音特徵、字形特徵)。本項目提供了一個通用的字元特徵提取框架,並內建了 拼音字形(四角編碼) 和 部首拆解 的特徵。

特徵提取器

  • 拼音特徵提取器:提取漢字的拼音作為特徵,發音相似的字在編碼上應該相似。示例: -> ->
  • 字形(四角編碼)提取器:提取中文的外形作為特徵,相似的漢字在編碼上應該相近。示例: -> 37001 -> 37101
  • 部首拆解提取器:提取漢字的偏旁部首拆解作為特徵,相似的漢字在編碼上應該相近。示例: -> ['門', '一'] -> ['門', '三']

AI項目體驗地址 https://loveai.tech

使用

from hanzi_char_featurizer import Featurizor  featurizor = Featurizor()  result = featurizor.featurize('明天')

print(result)

輸出

([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],

('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),

('0', '4'))

結構解析

輸出到 TensorFlow 作為 Tensor