V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
iugo
V2EX  ›  程序员

百度真的懂中文吗? 这分词是怎么做的?

  •  
  •   iugo ·
    iugo · 2015-09-30 18:33:04 +08:00 · 5425 次点击
    这是一个创建于 3135 天前的主题,其中的信息可能已经有所发展或是发生改变。

    搜索 "你好".

    百度搜索 你好 的结果 截图

    第一个结果:

    出身比你好的人更努力...

    这不是小时候听到的关于造句的笑话吗? 如 "课本: 上课本来就无聊".

    第三个结果:
    来自百度知道, 标题为 "你好你好...", 可是里面的内容却是 -- 请看图中的答案...

    P.S. 平常较少用百度, 现在要更少用百度了.

    第 1 条附言  ·  2015-10-01 12:22:32 +08:00
    我不是某某黑,只是普通用户。什么服务适合我,能满足我的需求我就使用什么服务。我只是说说我遇到的实际情况。

    搜索结果中有个别不符结果我可以接受,可是把不符合搜索关键词的结果排在第一位我就难以接受了。

    我认为中文的分词非常重要,如何分很大程度上取决于上下文,对语境进行分析。希望百度能在搜索上继续努力吧。别把心思全部放在广告上呀!
    37 条回复    2015-10-02 18:43:24 +08:00
    simonzhao
        1
    simonzhao  
       2015-09-30 18:41:56 +08:00
    你这太片面了,不能说明什么问题。
    qdwang
        2
    qdwang  
       2015-09-30 18:42:59 +08:00 via Android
    用 google 试试看
    yhxx
        3
    yhxx  
       2015-09-30 18:43:16 +08:00
    我家门前有条小河很难过
    d7101120120
        4
    d7101120120  
       2015-09-30 18:50:42 +08:00
    搜索技术性英文那才叫一个= =
    jacy
        5
    jacy  
       2015-09-30 18:51:25 +08:00
    shengyu
        6
    shengyu  
       2015-09-30 18:53:31 +08:00 via Android
    搜索引擎从来不懂中文 英文,只懂概率论
    watzds
        7
    watzds  
       2015-09-30 18:59:54 +08:00 via Android
    Google 出来什么。。。表姐,你好野
    neo1218
        8
    neo1218  
       2015-09-30 19:04:39 +08:00
    neo1218
        9
    neo1218  
       2015-09-30 19:07:41 +08:00
    zhicheng
        10
    zhicheng  
       2015-09-30 19:14:31 +08:00 via Android
    这是个暂停词吧?
    Daddy
        11
    Daddy  
       2015-09-30 19:23:05 +08:00
    LZ 啊,你应该搜索“您好”,这个才是正确的表达用词。

    然后,百度的结果第一个是百度图片,图片第一张是露 B 照片~~ 哈哈
    Justrover
        12
    Justrover  
       2015-09-30 19:32:52 +08:00
    百度就是个渣,连谷鸽一根脚毛都比不上
    windfarer
        13
    windfarer  
       2015-09-30 19:38:36 +08:00 via Android
    百度更懂广告
    aiyaa
        14
    aiyaa  
       2015-09-30 19:42:53 +08:00
    确实感觉太片面了
    xrui
        15
    xrui  
       2015-09-30 19:45:09 +08:00 via Android
    有一次我做语文字音题,想搜一下“按捺不住”的读音。结果你猜出来啥了
    xfspace
        16
    xfspace  
       2015-09-30 19:51:21 +08:00 via iPad
    百度更懂人民币。
    zjqzxc
        17
    zjqzxc  
       2015-09-30 20:16:10 +08:00   ❤️ 3
    虽然这个结果我无法反驳,但是我还是想说两句。

    首先,汉藏语系一个突出特点就是,词与词之间没有明显的界限。而我们最熟悉的拉丁语系词与词之间是有空格作为分界的,所以“关键词索引”上,拉丁语系就比汉藏语系要容易。(其它语系我也不熟悉)
    汉语的分词,目前采取的常见分词方法有:正向最大匹配,逆向最大匹配,最少切分,双向最大匹配。以上各方法对于一句正常的话来说,分词成功率一般都在 90%以上,所以如果以上结合来制作搜索引擎,在大多数情况下都是可以忍受的。

    但是,以上各个分词的目的都是把一句话分成尽量少的分片数,这个原则是存在问题但不严重的。例如一句话:“你好漂亮”;根据以上任何一个分词方法分词的结果几乎都是:你好 /漂亮。实际上这句话的分词情况应该是:你 /好 /漂亮。“好”是副词,用来修饰后面的形容成“漂亮”。所以,这句话是极有可能被“你好”给搜出来的。

    再来一个但是:如果分词词典足够庞大以至于可以不用管什么副词形容词动词等词性,完全可以把“好漂亮”作为一个索引项。这样在逆向最大匹配算法下即可得到正确的分词结果(不能算正确吧,“你 /好漂亮”其实并不正确,但已经可以正确理解这句话了)。如果按照这种分词方法,如果我搜索“漂亮”,那这句话就不会被检索到。实际上这句话和“漂亮”还是有很大的关联性的。

    综上所述:线代搜索引擎为了尽可能索引全面,会结合使用以上各种分词方法,并根据根据尽可能大的字典进行分词。(严谨点说,“词典”并不是固定的。现代搜索引擎可以根据大量文章内容自动学习出新出现的词汇以弥补手动定义词典不能很快更新的问题)

    但是(我又有来但是了),这样一来检索准确性就下来了。以上楼主举例是因为句法没有分析导致的。我再举一例:在宝石学中对宝石的光泽区分比较严格,例如对玻璃光泽的描述除了玻璃光泽之外,常用的还有弱玻璃光泽(光泽明显弱于玻璃光泽,但又不到油脂光泽)。我搜索玻璃光泽时当然不想让弱玻璃光泽出现(因为他们看起来真的真的大不一样),可是依照目前的理论,这一问题还比较难以解决搜索命中率的问题。(并不倾向于认为弱玻璃光泽的弱是副词,此处可能更类似于 A-与 B+这种感觉。)


    希望楼主能够理解 /谅解,并期待包括楼主在内的任何人能够提出更加完善的中文分词索引理论,包括句法分析理论。(其实现在句法分析已经有人在做了)


    最后的最后:之前有一个段子:家事问百度,国事问谷歌,房事问天涯。百度什么的,搜搜娱乐八卦就好了,学术(包括技术)上的事儿想办法问谷歌去。
    int64ago
        18
    int64ago  
       2015-09-30 20:44:47 +08:00 via Android
    @zjqzxc 百度被黑很多时候不是搜索,全家桶也占了很大比重。。所以,大家都破罐子破摔了,我很多时候也是不分青红皂白黑百度。不过偶尔有些小事,还是觉得百度某些方面确实努力了

    比如,今天我打电话的时候找不到纸笔,就打开百度搜索框记一个订单号,然后百度不但区分出了只是快递单号,还知道是哪家快递

    https://dn-getlink.qbox.me/qc0ybyl1eb3xr.png

    当然,这并没啥技术含量,只是偶尔眼前一亮

    最后,我还是百度一生黑 :-)
    megabits
        19
    megabits  
       2015-09-30 20:59:16 +08:00   ❤️ 1
    从来不信任搜索引擎的分词,提高 搜索 效率 的 重要 一点 就是自己 分词。
    CYKun
        20
    CYKun  
       2015-09-30 21:25:27 +08:00
    @zjqzxc 补充一点,搜索引擎在分词的时候一般会使用全分词来提高命中率,比如“你好漂亮”一句,一个词典中带“好漂亮”这个词的分词器,用全分词模式会分成 你好 /你 /好 /好漂亮 /漂亮。不过这样会降低准确率,也是无奈。

    不知道现在语义识别发展的怎么样了,能不能在搜索引擎上用到
    rainy3636
        21
    rainy3636  
       2015-09-30 21:28:08 +08:00
    说百度更懂中文的就是扯蛋
    hljjhb
        22
    hljjhb  
       2015-09-30 21:36:18 +08:00
    @neo1218

    表姐,你好野! 23333
    xdy0322
        23
    xdy0322  
       2015-09-30 21:44:08 +08:00 via iPhone
    @watzds 还是很喜欢 DO 姐的
    jugelizi
        24
    jugelizi  
       2015-09-30 22:10:20 +08:00
    php7 windows
    然而结果 windows7 php
    ilililili
        25
    ilililili  
       2015-09-30 23:52:42 +08:00
    你好野 是广东话吧
    popok
        26
    popok  
       2015-09-30 23:57:49 +08:00
    @qdwang

    哈哈,也不错啊
    aprikyblue
        27
    aprikyblue  
       2015-10-01 00:22:14 +08:00
    从来都是自己用空格分开关键字
    DiffView
        28
    DiffView  
       2015-10-01 00:34:54 +08:00
    安奈不住现在搜也是一团乱
    Rice
        29
    Rice  
       2015-10-01 00:40:08 +08:00
    表姐,你好野!
    vikeria
        30
    vikeria  
       2015-10-01 08:02:15 +08:00 via Android
    百度全家桶,这酸爽简直不敢相信
    iugo
        31
    iugo  
    OP
       2015-10-01 12:09:45 +08:00
    @simonzhao 窥斑见豹。
    cppgohan
        32
    cppgohan  
       2015-10-01 14:18:29 +08:00
    百度原来这么爱腾讯! 毁三观啊
    asahi
        33
    asahi  
       2015-10-01 16:04:58 +08:00
    百度搜索 qq 音乐 ,官网到第 9 个才出现,我还觉得奇怪拿 google 试了一下, google 就好好的把官网列在第一位,这也能叫搜索引擎?
    glchaos
        34
    glchaos  
       2015-10-01 21:29:18 +08:00
    是认为干预的吧
    thought
        35
    thought  
       2015-10-01 23:13:47 +08:00 via iPhone
    傻逼,谷歌的分词技术是买的国内人开发的,不是自己搞的。
    Slienc7
        36
    Slienc7  
       2015-10-01 23:26:02 +08:00
    明顯第一個搜索結果是内嵌推廣,衹不過百毒沒有明確標出而已。
    xieyu33333
        37
    xieyu33333  
       2015-10-02 18:43:24 +08:00
    Google 搜索你好,前几条都是《表姐,你好嘢!》这个电影
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1383 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:05 · PVG 01:05 · LAX 10:05 · JFK 13:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.