「纯python的全文搜索组件Whoosh」的评论

评论者：简单的快乐

简单的快乐 — Wed, 17 Oct 2012 02:40:11 +0000

其实可以用whoosh的自带的N-grams
http://packages.python.org/Whoosh/ngrams.html

评论者：vicalloy

vicalloy — Fri, 12 Oct 2012 00:59:17 +0000

回复给简单的快乐。这样分词主要是出于使用方便的考虑，通常情况下效果还可以。如果希望得到比较高的分词质量还是得用专门的分词组件。

评论者：简单的快乐

简单的快乐 — Thu, 11 Oct 2012 07:50:30 +0000

这样的建立中文索引的话，分割成一个个的字，没有分词功能，搜索出来的结果大打折扣了

评论者：python.cn(news, jobs)

python.cn(news, jobs) — Wed, 15 Jun 2011 09:30:59 +0000

@vicalloy 我转发和分享给其他同学了。

评论者：vicalloy

vicalloy — Mon, 05 Jul 2010 01:53:49 +0000

回复给 zjm1126。

我给出的则个正则表达式是按照字分词，
比如”你们好”会分成
你/们/好
文章中只要包含了你/们/好这三个字都会搜索出来（比如：“你的们都好啊”会被认为匹配）。
为了避免这个情况，你可以给要搜索的文字加个双引号。
比如 u'”你们好”‘

评论者：zjm1126

zjm1126 — Sat, 03 Jul 2010 19:15:57 +0000

hi 博主你好：
小弟现在也在弄whoosh，现在遇到的困难是没办法中文分词而且whoosh给的例子查找一个中文比如“哈” 就会出错 ,借用你的例子提示根本没有 find 方法总之还请仁兄帮帮忙我的例子在这 http://omploader.org/vNHRyMg/example.rar
由于我不知道你能否给我回复还请发邮件通知我
谢谢

评论者：vicalloy

vicalloy — Mon, 17 May 2010 12:21:57 +0000

回复给 jttqzbc。

Whoosh的分词是基于正则表达式的，所以只需要写出合适的正则表达式就可以正确分词。
下面是一些例子，可能有不完善的地方，需要继续完善完善。
#测试分词
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
from whoosh.analysis import RegexAnalyzer
rex = RegexAnalyzer(ur”([\u4e00-\u9fa5])|(\w+(\.?\w+)*)”)
print [token.text for token in rex(u”hi 中 000 中文测试中文 there 3.141 big-time under_score”)]
#一个完整的演示
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
from whoosh.index import create_in
from whoosh.fields import *
from whoosh.analysis import RegexAnalyzer
analyzer = RegexAnalyzer(ur”([\u4e00-\u9fa5])|(\w+(\.?\w+)*)”)
schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT(stored=True, analyzer=analyzer))
ix = create_in(“indexdir”, schema)
writer = ix.writer()
writer.add_document(title=u”First document”, path=u”/a”,
content=u”This is the first document we’ve added!”)
writer.add_document(title=u”Second document”, path=u”/b”,
content=u”The second one 你中文测试中文 is even more interesting!”)
writer.commit()
searcher = ix.searcher()
results = searcher.find(“content”, u”first”)
print results[0]
results = searcher.find(“content”, u”你”)
print results[0]
results = searcher.find(“content”, u”测试”)
print results[0]

评论者：jttqzbc

jttqzbc — Sun, 16 May 2010 05:17:00 +0000

请问haystack+whoosh对中文的支持怎么样？
我试验了一下，对于因为这样一个一个词用空格（符号）隔开的，他是可以检索的。但是对于像中文这样一个词一个词是直接连接在一起的（比如：“心理学与生活”），那么检索“心理学”或者“生活”就无法检索到结果。请问这个东西有办法解决吗？