V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
F0ur
V2EX  ›  PHP

关于PHP搜索引擎和中文分词的解决方案的咨询

  •  1
     
  •   F0ur · 2013-09-22 01:00:04 +08:00 · 6826 次点击
    这是一个创建于 4065 天前的主题,其中的信息可能已经有所发展或是发生改变。
    需要选择一个搜索引擎+中文分词的方案
    查了一些资料,目前有3个方案
    1.coreseek
    基于sphinx+LibMMSeg
    我唯一担心的是因为coreseek长期不更新,最新版用的还是sphinx 2.0.2 dev,会不会有什么问题

    2.sphinx for chinese
    基于sphinx+xdict
    一样长期不更新,最新版用的sphinx 2.1.0 dev, 社区中关于分词系统也指出了一些不足

    3.xunsearch
    基于xapian+scws
    更新稳定,但是无从下手,指南写的还是有些问题,当然,我还没去重点研究

    因为我对这方面知识了解的不多,只能根据需求找到这3个解决方案,也无法着重做个对比或者选择
    所以请懂行的大大们指点一下我,或者有更好的选择方案
    先感谢下所有回复的诸位了
    9 条回复    2014-09-10 09:56:38 +08:00
    liuxurong
        1
    liuxurong  
       2013-09-22 01:32:18 +08:00 via iPad
    用 v2ex 方案就可以了
    ted05
        2
    ted05  
       2013-09-22 06:42:44 +08:00
    信息检索这个挺难的,最近在学用java是怎么实现的。。。
    angelface
        3
    angelface  
       2013-09-22 06:48:58 +08:00 via iPhone
    还是看你的需求,如果你只是做个站内搜索,google就挺好,如果你要对搜索结果进行控制,那就上面的三种随便选一个,然后深入研究
    f489753
        4
    f489753  
       2013-09-22 08:09:10 +08:00
    目前在用sphinx,不过感觉xunsearch有前途。
    当然也可以搞java方案嘛,lucene、slor之类也可以接上。
    felix021
        5
    felix021  
       2013-09-22 09:49:59 +08:00
    小站的话xunsearch就很够用了,文档写得很全啊,有啥问题?

    不过xunsearch的速度是硬伤,太慢了,千万级的数据量可能hold不住的感觉。
    F0ur
        6
    F0ur  
    OP
       2013-09-22 10:41:36 +08:00
    @liuxurong v2ex方案是什么
    @angelface google搜索还是不能满足需求,可能带有facet功能
    @f489753 lucene、slor的话也可以考虑~我再去研究研究
    @felix021 我也是觉得小站xunsearch够了,但是是商业站后期数据量肯定会上去的,所以想找个完全的解决方案
    hfcorriez
        7
    hfcorriez  
       2013-09-22 10:47:53 +08:00   ❤️ 1
    可以试试ElasticSearch
    Yuansir
        8
    Yuansir  
       2013-09-22 13:02:45 +08:00   ❤️ 1
    xunsearch 和 sphinx+coreseek 都用过,推荐xunsearch吧,文档齐全,性能不错,功能也强大,坑比较少,比较容易配置和使用
    flyingxu
        9
    flyingxu  
       2014-09-10 09:56:38 +08:00
    @felix021 速度有多伤?能实现类似stackoverflow提问题时及时搜索类似问题吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1777 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:43 · PVG 00:43 · LAX 08:43 · JFK 11:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.