1、 jieba 分词 github地址:
https://github.com/fxsjy/jieba
“结巴”分词,可以说是 GitHub 最受欢迎的分词工具,支持自定义词典,支持多种分词模式,立志成为 Py7 P z a $thon 中最好的中文分词组件。

2. pkuseg 分词 github地址:
https://github.com/lancopku/pL s Tkuseg-# K * h =python
pkuseg 的特点是支持多种不同的分词领域,新闻、网络、医药、v旅游等领域的分词训练模型,相比于其他分词工具,不但可以自由的选择不同模型,而且可以提供更高的分词准确率。

3. FoolNLTK 分词 github地6 = } Y址:
https://github.com/rockyzhengwu/FoolNLTK
FoolNLTK 分词是基于BiLSTM模型训练而来的,支持用户自定义词典,有人说它是K i v J H ` \ O y最准确的开源中文分词,不知道你有没有尝试过呢?

4. THULAC github地址:
https://github.com/thunf 1 [ P ylp/THULAC-Python
THULAC由清华大学自然语言处理与社会人文计算实验室,研制推出的具有词性标注功能的中文词法分析工具包。能分析出某个词是名词还是动词或者形容词。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值= F P V ! ] U x可达到92.x 3 G ! \ S9%,与该数_ f i U #据集上最好方法效果相当。速度较快。

跟同事聊起分词工具,他们很多人在用的还是结巴分词,配合用户自定义D 6 O . B X词典,解决常见的网络词语。你在用哪个工具呢Q . *?
郑重声明:本站所收录作品、热点评论等信息部分来源互联网,目的只是为了系统归纳学习和传递资讯所有作品版权归原创作者所有,与本站立场无关,如不慎侵犯了你的权益,请联系我们邮箱:908164873@qq.com/电话:187-8421-3206,我们将做删除处理!