最近我们分享了一些关于分词的事情,对于琳琅满目的分词工具,我们到底该选择哪个呢?
这里有一个Java开源项目 cws_evaluation
,对中文分词做了评比,但有几点不足:(1). 只有java版本,但是机器学习主要是基于python的 (2).效果指标为行完美率和字完美率,该指标不妥,特别是句子越长,越无意义,(3). 每种分词工具评测的算法太多了,这里仅评比了默认的分词算法。 ...
阅读全文