高性能中文分词-friso
2013-06-25 16:09:50 阿炯

本站赞助商链接,请多关照。 friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。采用C/C++开发并在 Apache license 2.0协议下授权;完全基于模块化设计和实现,可以很方便的植入其他程序中。

源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为13.5M。

特点
1、只支持UTF-8编码。
2、mmseg四种过滤算法,分词准确率达到了98.41%。
3、支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4、词库使用了friso的Java版本jcseg的简化词库。
5、支持中英混合词的识别。例如:c语言,IC卡。
7、很好的英文支持,电子邮件,网址,小数,分数,百分数。
8、支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9、自动英文圆角/半角,大写/小写转换。
10、自动同义词追加, 同义词匹配. (需要在friso.ini中开启friso.add_syn选项)
11、自动停止词过滤。(需要在friso.ini中开启friso.clr_stw选项)
12、提供friso.ini配置文件, 可以配置自定义分词. 如何配置friso

分词速度
测试环境:2.8GHZ/2G/Ubuntu
简单模式:3.8M/秒  
复杂模式:1.8M/秒

最新版本:1.2
1. 修复了一处在WinNT系统中会导致英文的切分结果无法获取bug. 之前忘记在WinNT系统中测试了.
2. 提供了linux和WinNT共享库文件, 尤其是WinNT系统, 使用vc编译很不方便, 方便直接对friso接口进行调用.
3. 提供了cygwin的Makefile - Makefile.cygwin, 在cygwin下请使用该Makefile来编译friso.
4. 重新整合了jcseg的词库, 加入了些许新词.
5. 加入了CHANGES文档,在README文档中加入了测试配置说明.

项目主页:https://code.google.com/p/friso/