word中文分词

    xiaoxiao2021-03-25  174

    word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene、Solr、ElasticSearch插件。

    1.案例一,自定义分词;

    2.分词,保留分用词和不保留分用词

    2.计算相似度;

    3.词频统计

    4.拆词和组词

    5.同义词标注

    6.词性标注

    7.做反义标注

    8.拼音标注

    源代码参考百度网盘分词文件夹

    https://github.com/ysc/word

    转载请注明原文地址: https://ju.6miu.com/read-13506.html

    最新回复(0)