分享一个简单易懂、不需要语料库的分词程序~

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 3461 天前的主题，其中的信息可能已经有所发展或是发生改变。

先上地址
https://github.com/Moonshile/ChineseWordSegmentation

原理参考的是这篇神文，通俗易懂，作者不愧是中文系出身的！

好吧，我承认是想顺便求几个Star，真是还干净着呢。。

觉得有必要贴一下使用方法，非常简单~

from wordseg import WordSegment
doc = u'十四是十四四十是四十，十四不是四十，四十不是十四'
ws = WordSegment(doc, max_word_len=2, min_aggregation=1, min_entropy=0.5)
ws.segSentence(doc)

分词结果为

十四 是 十四 四十 是 四十 ， 十四 不是 四十 ， 四十 不是 十四

第 1 条附言 · 2015-07-17 14:45:11 +08:00

再注明一下，我纯粹是觉得这个算法简单好玩，特此分享学习的~
不幸的是，这个分享确实可能对真正是需要分词的人造成误导（话说真需要的人肯定早就自己查到成熟的开源分词了吧），且总有傲慢而玻璃心的人喜欢抛出问题却不解决问题，这里特此解决一下，分享两个成熟的分词服务。

1. Pullword： http://www.pullword.com/ （@dtdnqsb 推荐）

2. 结巴分词： https://github.com/fxsjy/jieba

语料库

分词

易懂

18 条回复 • 2018-08-13 00:02:06 +08:00

schezukNewTos

2015-07-16 19:39:05 +08:00

善哉。
不过『本课程』之类的词组怎么解决的？
『是个』这样的搭配是怎么处理的？
偶见词语在一句话中连续出现该怎样应对？

moonshile

2015-07-16 19:46:54 +08:00

@schezukNewTos 这些都要看情况，具体来说是要看被分词的对象。
如果被分词的是一篇介绍一门课程的文章，而“本课程”出现足够多次，那么“本课程”就视为一个词语；否则，如果只是一篇泛泛介绍各门课程的文章，那么就会分成“本”和“课程”两个词。
具体了解的话可以看看我给的那篇参考文章，很好懂的～