Archive for February, 2009

linux下的一些命令

列出已连接的网络连机状态
netstat -tun
列出网络连接的服务名称
netstat -tulp
如结果:
udp 1904 0 60.173.11.133:7971 202.102.192.68:53 ESTABLISHED 14465/php-cgi
php-cgi即服务名称
grep 使用正则时要用引号
如locate openssl |grep ‘/openssl$’
本地文件同步
rsync -av ./a ./b
从远程同步文件
rsync -av -e ssh root@sub.com:/tmp/a_ ~/tmp/b/
同步文件到远程
rsync -av ~/tmp/b -e ssh root@sub.com:/tmp/a_

支持分词的中文搜索引擎sphinx

Sphinx是一个很不错支持utf-8中文的全文检索引擎。Sphinx是基于pthon开发的,并为PHP,Python,Perl,Ruby等提供api接口。结合mmseg进行中文分词,就能对中文进行很好的支持。
Sphinx工作时开启一个后台服务,内网中其他机器也能进行检索服务。当服务器压力大时完全可以专门使用一个服务器来运行检索服务。
Sphinx的特性

高速索引 (在新款CPU上,近10 MB/秒);
高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);
高可用性 (单CPU上最大可支持100 GB的文本,100M文档);
提供良好的相关性排名
支持分布式搜索;
提供文档摘要生成;
提供从MySQL内部的插件式存储引擎上搜索
supports boolean, phrase, and word proximity queries;
支持每个文档多个全文检索域(默认最大32个);
支持每个文档多属性;
支持断词;
支持单字节编码与UTF-8编码;
supports English stemming, Russian stemming, and Soundex for morphology;
支持MySQ(MyISAM和InnoDB 表都支持);
支持PostgreSQL.

支持

支持中文分词的sphinx完整安装介绍请参考http://tech.techweb.com.cn/thread-313023-1-1.html
Sphinx速成指南(中文版本) http://dev.cgfinal.com/sphinx/sphinx.html
官方文档(英文) http://www.sphinxsearch.com/docs/current.html