pylucene编译成功

    Python可以使用的全文检索方案还是有几个的，其中比较流行的有Xapian（豆瓣在用）和Pylucene。
    但对于中文而言，除全文索引引擎外，中分分词也是个麻烦事。Pylucene移植自lucene，因此很自然的支持中文分词。Xapian就没这么幸运了。虽然也有些简单的方法让Xapian支持中文分词，但效果也都好不到哪去。经过斟酌之后最后还是确定使用PyLucene。
以前在Linux下安装软件基本上都是apt-get。不过共享主机就没这么方便了。在pylucene的网站上找了半天也没找到可以匹配的二进制包，于是决定手动编译pylucene。
    去看了下编译说明，似乎还比较简单，只要简单的修改Makefile就可以。可以是有个比较大的问题，服务器上没有gcj，还得先安装个gcj。
    去down了个pylucene推荐版本gcc进行编译。被那个host参数整了半天（设置得不对），后来去掉–host后将gcc编译成功。编译费时1小时？
    Pylucene的编译倒挺快，不过目录结构和Makefile中定义的目录结构似乎有些不太一样。手动将相关文件复制到对应目录后运行sample，查看运行结果。
    IndexFiles.py ./    可以看到成功索引了一个文件PlainText.txt
    SearchFiles.py     输入查询条件Plain，可以看到成功的查询出了一条记录
    到这里pylucene就已经可以正常工作了，过些天等有空就去将国学阅读网的全文索引给做。

天地一沙鸥

to be continue….

归档