用MeCab打造一套实用的中文分词系统
来源:易贤网 阅读:888 次 日期:2015-04-03 11:22:15
温馨提示:易贤网小编为您整理了“用MeCab打造一套实用的中文分词系统”,方便广大网友查阅!

虽然是愚人节,但是这个不是愚人节玩笑,最近花了一些时间在MeCab身上,越发喜欢这个来自岛国的开源分词系统,今天花了一些时间训练了一个更适用的模型和词典,打包提供给大家使用,因为数据和词典涉及到一些版权问题,所以打包文件里只是mecab用于发布的二进制词典和模型文件,目前在mac os和linux ubuntu系统下测试无误,其他系统请自行测试使用:

链接: 密码: 8udf

了解和安装mecab请参考:

日文分词器 Mecab 文档

用MeCab打造一套实用的中文分词系统

使用前请按上述文档安装mecab,下载这个中文分词模型和词典之后解压,解压后得到一个mecab-chinese-data目录,执行:

mecab -d mecab-chinese-data

扬帆远东做与中国合作的先行

扬帆v,*,*,*,*,*,扬帆,*,*

远东ns,*,*,*,*,*,远东,*,*

做v,*,*,*,*,*,做,*,*

与p,*,*,*,*,*,与,*,*

中国ns,*,*,*,*,*,中国,*,*

合作v,*,*,*,*,*,合作,*,*

的u,*,*,*,*,*,的,*,*

先行vn,*,*,*,*,*,先行,*,*

EOS

上述第二列提供了词性标注结果。

如果想得到单行的分词结果,可以这样执行:

mecab -d ./mecab-chinese-data/ -O wakati

扬帆远东做与中国合作的先行

扬帆 远东 做 与 中国 合作 的 先行

如果想直接对文件分词,可以这样执行:

mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT

具体可以参考上述两个文档,另外我在mac下测试了一下中文维基百科语料的切分速度,大概700多M的语料,不到90秒切分完毕,大概7M/s的切分速度完全达到了工业届的使用标准。另外Mecab还支持Nbest输出,多种输出格式,全切分模式,系统词典和用户词典定制等等,同时通过SWIG提供了perl, ruby, python, java的调用接口,非常方便。

以下是在backoff2005 人民日报语料库上的测试结果:

=== SUMMARY:

=== TOTAL INSERTIONS:3803

=== TOTAL DELETIONS:1981

=== TOTAL SUBSTITUTIONS:5004

=== TOTAL NCHANGE:10788

=== TOTAL TRUE WORD COUNT:104372

=== TOTAL TEST WORD COUNT:106194

=== TOTAL TRUE WORDS RECALL:0.933

=== TOTAL TEST WORDS PRECISION:0.917

=== F MEASURE:0.925

=== OOV Rate:0.058

=== OOV Recall Rate:0.482

=== IV Recall Rate:0.961

###pku_test.result380319815004107881043721061940.9330.9170.9250.0580.4820.961

召回率93.3%,准确率91.7%, F值为92.5%, 虽然还没有一个单纯针对这个测试语料比赛的分词结果好,但是测试了一些其他语料后觉得这个版本完全可以作为一个基准版本使用,另外mecab也提供了用户定制词典接口,方便用户按自己的需求定制使用。

更多信息请查看IT技术专栏

更多信息请查看技术文章
由于各方面情况的不断调整与变化,易贤网提供的所有考试信息和咨询回复仅供参考,敬请考生以权威部门公布的正式信息和咨询为准!
关于我们 | 联系我们 | 人才招聘 | 网站声明 | 网站帮助 | 非正式的简要咨询 | 简要咨询须知 | 加入群交流 | 手机站点 | 投诉建议
工业和信息化部备案号:滇ICP备2023014141号-1 云南省教育厅备案号:云教ICP备0901021 滇公网安备53010202001879号 人力资源服务许可证:(云)人服证字(2023)第0102001523号
云南网警备案专用图标
联系电话:0871-65317125(9:00—18:00) 获取招聘考试信息及咨询关注公众号:hfpxwx
咨询QQ:526150442(9:00—18:00)版权所有:易贤网
云南网警报警专用图标