Python可以使用的全文检索方案还是有几个的,其中比较流行的有Xapian(豆瓣在用)和Pylucene。
但对于中文而言,除全文索引引擎外,中分分词也是个麻烦事。Pylucene移植自lucene,因此很自然的支持中文分词。Xapian就没这么幸运了。虽然也有些简单的方法让Xapian支持中文分词,但效果也都好不到哪去。经过斟酌之后最后还是确定使用PyLucene。
以前在Linux下安装软件基本上都是apt-get。不过共享主机就没这么方便了。在pylucene的网站上找了半天也没找到可以匹配的二进制包,于是决定手动编译pylucene。
去看了下编译说明,似乎还比较简单,只要简单的修改Makefile就可以。可以是有个比较大的问题,服务器上没有gcj,还得先安装个gcj。
去down了个pylucene推荐版本gcc进行编译。被那个host参数整了半天(设置得不对),后来去掉–host后将gcc编译成功。编译费时1小时?
Pylucene的编译倒挺快,不过目录结构和Makefile中定义的目录结构似乎有些不太一样。手动将相关文件复制到对应目录后运行sample,查看运行结果。
IndexFiles.py ./ 可以看到成功索引了一个文件PlainText.txt
SearchFiles.py 输入查询条件Plain,可以看到成功的查询出了一条记录
到这里pylucene就已经可以正常工作了,过些天等有空就去将国学阅读网的全文索引给做。
标签
37signals android chinese calendar dj-scaffold django django-tagging django create_app dpress E63 Highrise java jstnote LBForum lbplayer pystardict python reST reStructuredText SAE springside springside2vik stardict timeline twitter whoosh wordpress yahoo widgets 三清山 二手数码控 产品设计 农历 团队 手机 摄影 新都桥 物理 稻城 管理 老照片 读书笔记 音乐 黄山 黑客与画家 黑莓 黑莓8320分类目录
- vicalloy的YY (3)
- vicalloy的庄家 (57)
- vicalloy的思考 (12)
- vicalloy的自言自语 (4)
- 产品设计思考 (5)
- 岁月的痕迹 (10)
- 无责任乱评 (22)
- 编程 (72)
- 读书 (7)
- 路过 (15)
- 软件推荐 (9)
- 鸡毛蒜皮 (8)
近期评论
- 乡下大哥 发表在《管理者到底是干什么的》
- 乡下大哥 发表在《关于生命体(生物?)的一些随想》
- vicalloy 发表在《我的博客史》
- 乡下大哥 发表在《free youself》
- dzck 发表在《我的博客史》
联系我
文章归档
- 2012 年五月
- 2012 年四月
- 2012 年三月
- 2012 年二月
- 2012 年一月
- 2011 年十二月
- 2011 年十一月
- 2011 年十月
- 2011 年九月
- 2011 年八月
- 2011 年七月
- 2011 年六月
- 2011 年五月
- 2011 年三月
- 2011 年二月
- 2010 年十二月
- 2010 年十一月
- 2010 年十月
- 2010 年九月
- 2010 年八月
- 2010 年六月
- 2010 年五月
- 2010 年四月
- 2010 年二月
- 2010 年一月
- 2009 年十二月
- 2009 年十一月
- 2009 年八月
- 2009 年六月
- 2009 年五月
- 2009 年四月
- 2009 年三月
- 2009 年一月
- 2008 年十二月
- 2008 年十一月
- 2008 年九月
- 2008 年八月
- 2008 年七月
- 2008 年六月
- 2008 年五月
- 2008 年四月
- 2008 年二月
- 2008 年一月
- 2007 年十二月
- 2007 年十一月
- 2007 年十月
- 2007 年九月
- 2007 年八月
- 2007 年三月
- 2007 年二月
- 2007 年一月
- 2006 年十二月
- 2006 年十一月
- 2006 年十月
- 2006 年九月
- 2006 年六月
- 2006 年五月
- 2006 年四月
- 2006 年三月
- 2006 年二月
- 2006 年一月
- 2005 年十二月
- 2005 年十一月
- 2005 年十月
- 2005 年九月
- 2005 年八月
License
http://haoluobo.com is licensed by vicalloy under a Creative Commons Attribution-Noncommercial-Share Alike 3.0 United States License.
相册