V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
cheerzeng
V2EX  ›  Python

whoosh 全文 搜索

  •  
  •   cheerzeng · 2015-10-21 11:49:17 +08:00 · 2501 次点击
    这是一个创建于 3115 天前的主题,其中的信息可能已经有所发展或是发生改变。
    在做一个全文搜索的工具,用到 whoosh, 但是对于短语的搜索,不是很明白要怎么用, 请大神指教一下。
    我看到的例子是:
    http://whoosh.readthedocs.org/en/latest/quickstart.html

    >>> from whoosh.index import create_in
    >>> from whoosh.fields import *
    >>> schema = Schema(title=TEXT(stored=True), path=ID(stored=True), content=TEXT)
    >>> ix = create_in("indexdir", schema)
    >>> writer = ix.writer()
    >>> writer.add_document(title=u"First document", path=u"/a",
    ... content=u"This is the first document we've added!")
    >>> writer.add_document(title=u"Second document", path=u"/b",
    ... content=u"The second one is even more interesting!")
    >>> writer.commit()
    >>> from whoosh.qparser import QueryParser
    >>> with ix.searcher() as searcher:
    ... query = QueryParser("content", ix.schema).parse("first")
    ... results = searcher.search(query)
    ... results[0]

    我用了这样的代码, 但是之后发现 parse("first") 里面跟的这个会被拆分成若干个独立的 word, 所以如果我用 parse("first man to buy a apple") 这样会找到各个字段对应的, 而不是这一条短语。

    然后我看到了 QueryParser 里面,是有这个 parameter 的,不知道是不是可以达到我的目的,但是我不知道要怎么拿来用:
    phraseclass – the query class to use for phrases. The default is whoosh.query.Phrase.


    class whoosh.query.Phrase(fieldname, words, slop=1, boost=1.0, char_ranges=None)

    Matches documents containing a given phrase.
    1 条回复    2015-10-22 16:03:05 +08:00
    fire5
        1
    fire5  
       2015-10-22 16:03:05 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   832 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:34 · PVG 06:34 · LAX 15:34 · JFK 18:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.