V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ygger
V2EX  ›  问与答

一个基于自然语言处理的反查重系统

  •  1
     
  •   ygger · 2018-03-11 01:10:56 +08:00 · 3224 次点击
    这是一个创建于 2451 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前有相似的应用落地吗? 即可以实现将一句(一段)话换通过自然语言处理的方式替换成另外一句,且核心意思不能变。 目前所了解到的多是用同义词替换来实现,实际效果并不理想。 如果想实现的话,难点在哪里? 请教

    11 条回复    2018-03-12 07:42:25 +08:00
    wdlth
        1
    wdlth  
       2018-03-11 02:17:21 +08:00
    查重算法本身就很奇葩,是按照连续的字符数,就算换了位置,因为数据源的数量太大了,也有可能与另外的文章相似。
    vegito2002
        2
    vegito2002  
       2018-03-11 02:21:46 +08:00
    如果你是说想要达到类似人一样的重述效果, 没有. 现在 AI 火热, 搞得不少人都太低估 NLP 的难度了.

    真的想要反查重, 还是要具体看看你的查重算法本身是怎么实现的, 然后反向规避. 实际上现在的查重算法大部分也都不高端, 并不是基于 NLP 层面的比较.
    guog
        3
    guog  
       2018-03-11 02:40:30 +08:00 via Android
    有功夫做反查重何不花时间好好写🌚
    Xs0ul
        4
    Xs0ul  
       2018-03-11 03:06:05 +08:00 via Android
    翻译成别的语言再翻回来吧
    takato
        5
    takato  
       2018-03-11 03:14:33 +08:00
    愚见,难点就在于一开始不知道从哪开始。。。
    murmur
        6
    murmur  
       2018-03-11 08:03:26 +08:00   ❤️ 1
    我其实想说的是吧 连自己重新组织文字的能力都没有就别念研究生了
    fengdra
        7
    fengdra  
       2018-03-11 10:48:54 +08:00 via Android
    这种叫做 paraphrase。难点在于没有大量的平行语料
    8e47e42
        8
    8e47e42  
       2018-03-11 12:40:51 +08:00
    有这空,不如直接自己写来的快。
    以及 turnitin 目前不是在开发语言风格监测系统吗,这种玩法写出来的妥妥会被检测出来。
    最后,影子写手再厉害总是会遇上傻逼客户,对于有这种需求的客户你不能对其智商抱有太大希望。。有的是客户把代写付款收据一起交上去直接被开除的。
    ygger
        9
    ygger  
    OP
       2018-03-11 16:01:27 +08:00
    @murmur 我毕业了,只是想开发一个这样的系统,赚点钱
    ygger
        10
    ygger  
    OP
       2018-03-11 16:02:04 +08:00
    @guog 给需要的人提供服务,赚钱
    uuuu
        11
    uuuu  
       2018-03-12 07:42:25 +08:00 via Android
    楼主 赶快开始 这样我就可以开发一个基于自然语言处理的反反查重系统了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1901 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:24 · PVG 00:24 · LAX 08:24 · JFK 11:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.