开源免费的简易中文分词系统SCWS – PHP版
By admin
- One minute read - 146 wordsSCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。
这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词 之间用空格分开,所以如何准确而又快速的分词一直是中文分词的攻关难点。
SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。
[推荐]首个搭载 SCWS 分词系统的中小型站内全文检索解决方案 – FTPHP!
以下为本人在win03平台下,php5.2.5+apache2.2.11平台下推荐的方法,特别的简单,用的是gbk的字库的
1.首先从 http://www.ftphp.com/scws/download.php 下载相关压缩包 .
php_scws.dll (1.1.1)
php_scws.dll 是由 ben 移植用于 Windows 平台下的 PHP 动态扩展库,请根据您使用的 php 版本下载,编译环境均为:VC6 x86 Thread Safe。
[ For PHP-4.4.x (20KB)] [ For PHP-5.2.x (20KB)] [ For PHP-5.3.x (20KB)] [ 详细安装说明] [ PHP扩展-API 文档]
XDB 词典文件
XDB 格式的词典文件,可用于 SCWS-1.x.x 和 PSCWS4,不可用于 PSCWS23。
此为通用词典文件,定制词典或其它服务请查看 服务支持 页面。
[ 简体中文 (GBK) (3.84MB, 28万词, 2010/03/19更新)]
[ 简体中文 (UTF-8) (3.9MB, 28万词, 2010/03/19更新)]
[ 繁 体中文(UTF-8) (1.21MB, 10万词)]
PSCWS23
纯 PHP 开发的 SCWS 第二版和第三版,仅支持 GBK 字符集,速度较快,推荐在全 PHP 环境中使用,已含专用 xdb 词典一部。
[立即下载: pscws23-20081221.tar.bz2 (2.79MB)] [ 说明文档]
规则集文件
SCWS 及 PSCWS4 通用的规则集文件,用于识别人名、地名、数字年代等。内含简体GBK、繁体UTF8、简体UTF8三个文件。
一般不需要单独下载,随 scws 一起发布的源码包中已经包含这些文件。
[立即下载: scws-rules-all.zip (6.67KB)]
2.将下面下载的几个压缩文件解压,将scws_1.1.1_win32_php-5.2.x.zip包里的php_scws.dll文件放在d:/php/ext目录里,注意这个地方需要根据你自己的php的环境来存放.
3.在d:/php目录里新建 scws/etc文件夹, 将规则集文件 cws-rules-all.zip 里的ini文件放在这里,我用的时候有三个的,再将解压后的词典件dict.xdb也放在这里.
4.修改c:/windows/php.ini文件,在配置文件的最后面添加:
[scws]
extension = php_scws.dll
scws.default.charset = gbk
scws.default.fpath = “d:/php/scws/etc”
这三行,重启apache即可.可以通过查看phpino信息,来查看是否启用了scws扩展.
以上配置基本完成了,特别的简单的吧,呵呵!
如果需要查看演示的话只需要将从网站上下载的演示包放在一个站点的根目录里就可以了.如http://www.ftphp.com/scws/demo/v4.php,我下的v4版本里的演示和官方网站上的演示有些出入的,你要以通过 http://www.ftphp.com/scws/demo/v4.php?source 来复制一下php代码,保存到本地文件即可了.
以下为本人的用的配置信息,点击下载 scws配置,记得将最后的的_.txt去掉,实际上是一个rar的压缩包的.