Python可以使用的全文检索方案还是有几个的,其中比较流行的有Xapian(豆瓣在用)和Pylucene。
但对于中文而言,除全文索引引擎外,中分分词也是个麻烦事。Pylucene移植自lucene,因此很自然的支持中文分词。Xapian就没这么幸运了。虽然也有些简单的方法让Xapian支持中文分词,但效果也都好不到哪去。经过斟酌之后最后还是确定使用PyLucene。
以前在Linux下安装软件基本上都是apt-get。不过共享主机就没这么方便了。在pylucene的网站上找了半天也没找到可以匹配的二进制包,于是决定手动编译pylucene。
去看了下编译说明,似乎还比较简单,只要简单的修改Makefile就可以。可以是有个比较大的问题,服务器上没有gcj,还得先安装个gcj。
去down了个pylucene推荐版本gcc进行编译。被那个host参数整了半天(设置得不对),后来去掉–host后将gcc编译成功。编译费时1小时?
Pylucene的编译倒挺快,不过目录结构和Makefile中定义的目录结构似乎有些不太一样。手动将相关文件复制到对应目录后运行sample,查看运行结果。
IndexFiles.py ./ 可以看到成功索引了一个文件PlainText.txt
SearchFiles.py 输入查询条件Plain,可以看到成功的查询出了一条记录
到这里pylucene就已经可以正常工作了,过些天等有空就去将国学阅读网的全文索引给做。
标签
37signals android chinese calendar dj-scaffold django django-tagging django create_app dpress E63 Highrise java lbforum lbplayer pystardict python reST reStructuredText springside springside2vik stardict timeline twitter unladen swallow whoosh wordpress yahoo widgets 三清山 二手数码控 产品设计 农历 团队 宇宙 成都 手机 摄影 新都桥 物理 稻城 翻译 老照片 读书笔记 音乐 黑客与画家 黑莓 黑莓8320分类目录
- vicalloy的YY (2)
- vicalloy的庄家 (52)
- vicalloy的思考 (10)
- vicalloy的自言自语 (4)
- 产品设计思考 (5)
- 岁月的痕迹 (7)
- 无责任乱评 (21)
- 编程 (68)
- 读书 (6)
- 路过 (14)
- 软件推荐 (7)
- 鸡毛蒜皮 (8)
近期评论
- vicalloy 发表在《webfaction服务器升级,迁到新服务器了》
- Ken 发表在《webfaction服务器升级,迁到新服务器了》
- 乡下大哥 发表在《2012,新年期望》
- vicalloy 发表在《timeline项目前期准备工作》
- wwq0327 发表在《timeline项目前期准备工作》
联系我
License
http://haoluobo.com is licensed by vicalloy under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License.
相册