有时候我们希望计算两个汉字的相似度,比如文本的 OCR 等场景。用于识别纠正。
引入 maven
com.github.houbb nlp-hanzi-similar 1.3.0
java 实现
【资料图】
double rate1 = HanziSimilarHelper.similar("末", "未");
返回对应的相似度:
0.9629629629629629
找到相似的汉字,有很多有趣的场景。
List list = HanziSimilarHelper.similarList("爱");Assert.assertEquals("[爰, 爯, 受, 爭, 妥, 憂, 李, 爳, 叐, 雙]", list.toString());
为了便于大家学习,上述代码已开源
https://github.com/houbb/nlp-hanzi-similar
在线体验
NLP 中文形近字相似度计算思路
中文形近字相似度算法实现,为汉字 NLP 尽一点绵薄之力
当代中国最贵的汉字是什么?
NLP 开源形近字算法补完计划(完结篇)
NLP 开源形近字算法之形近字列表(番外篇)
开源项目在线化 中文繁简体转换/敏感词/拼音/分词/汉字相似度/markdown 目录
X 关闭
Copyright © 2015-2032 华西珠宝网版权所有 备案号:京ICP备2022016840号-35 联系邮箱: 920 891 263@qq.com