V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
woshipanghu
V2EX  ›  程序员

看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

  •  1
     
  •   woshipanghu · 2023-03-27 14:13:03 +08:00 · 17246 次点击
    这是一个创建于 636 天前的主题,其中的信息可能已经有所发展或是发生改变。

    中文优质开源的语料库信息太少

    如果觉得少不能去把国外的英文语料库翻译成中文

    然后再训练

    是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

    120 条回复    2023-04-07 09:34:28 +08:00
    1  2  
    YUCOAT
        1
    YUCOAT  
       2023-03-27 14:21:47 +08:00
    我认为不可行,因为我觉得翻译的工作量太大了
    shyangs
        2
    shyangs  
       2023-03-27 14:24:50 +08:00   ❤️ 1
    可以,建議把履歷投百度試試。
    worldqiuzhi
        3
    worldqiuzhi  
       2023-03-27 14:26:35 +08:00   ❤️ 12
    有没有可能人家已经做出来了很厉害的中文,chatgpt 中文已经很厉害了 很复杂的中文语法逻辑都能理解
    woshipanghu
        4
    woshipanghu  
    OP
       2023-03-27 14:43:21 +08:00
    @YUCOAT 现在机器翻译还是很准的
    woshipanghu
        5
    woshipanghu  
    OP
       2023-03-27 14:44:50 +08:00
    @shyangs 好的 马上过去教他们写代码
    @worldqiuzhi 也是 做不好的一个理由而已
    lithiumii
        6
    lithiumii  
       2023-03-27 14:54:04 +08:00 via Android
    虽然少,但是做搜索引擎的公司不会缺。话说回来,以前搜狗有个 SogouT ,寄硬盘就能拷一份过来,现在没了。
    huijian222
        7
    huijian222  
       2023-03-27 15:04:53 +08:00   ❤️ 1
    现在都是做的 ChatGPT 的蒸馏,想要什么语料直接和 ChatGPT 交互一下就有了。。
    8355
        8
    8355  
       2023-03-27 15:18:30 +08:00   ❤️ 23
    很多国内能发展起来的都是海外成熟的商业模式然后国内照搬同样的模式仿照开发然后取得的商业上成功,也通常是这种模式资本才愿意投钱做。
    国内的资本巨头最不喜欢干的事就是单纯为爱发电好几年看不到头的项目,格局上还是稍微差点意思,微软一朝翻身也就是押宝这一个,从 github 到 Office ,chatgpt 这种项目往大了说对人类的发展都是起到关键性的作用,但国内资本只想赚钱。。。。。
    seres
        9
    seres  
       2023-03-27 15:28:53 +08:00   ❤️ 1
    有些英文涉政的内容翻译成中文就违规了。。
    janus77
        10
    janus77  
       2023-03-27 15:41:11 +08:00
    现代中文已经对机器来说越来越难识别了,各种新名词就连人都不一定全懂。
    不过如果刨去现代的流行名词,只谈中文基本的表达,那其实不难的,chatGPT 也可以理解一些文章甚至能帮你润色、能模仿某个人的语气编段子,注意我说的这些都是中文的情况。他能做的很好,而且是在中文数据相对匮乏的情况下(我相信他训练的材料里中文材料肯定没有简中网络的材料这么庞大),他能做的这么好,足以说明并不难。
    Hancock
        11
    Hancock  
       2023-03-27 15:51:04 +08:00
    腾讯在这个领域拥有更丰富的资源,包括公众号+知乎+小红书+大众点评+reddit+搜狗,前几年投资的文娱传媒板块要收获成果了
    Jetsru
        12
    Jetsru  
       2023-03-27 15:54:51 +08:00 via Android   ❤️ 1
    CHATGPT 的中文语料也就占不到千分之二,汉语能力不也挺出色的吗...大语言模型自己能摸清楚各种语言的共性。https://github.com/openai/gpt-3/tree/master/dataset_statistics
    ufan0
        13
    ufan0  
       2023-03-27 15:59:29 +08:00   ❤️ 2
    吴军老师的书和得到课程中,多次提到了相关内容,可以看看。

    我学习到的主要观点是:问题并不是出在中文上。

    此外上述回帖提到的一些问题也同样出现在各种语言中。
    yuanxin1999
        14
    yuanxin1999  
       2023-03-27 16:10:51 +08:00
    还有就是中文是组词的,会有:
    武汉市长江大桥分词:武汉市\长江大桥和武汉市长\江大桥两种语境
    介绍一下武汉市长江大桥,这个句子就很难分析
    xingye163
        15
    xingye163  
       2023-03-27 16:12:21 +08:00
    在 AI 产业中,有一个环节叫上游数据处理环节,这些环节是有专门公司负责的,不是网上搜索资料来学习的,因此并不会说存在语种的问题,中国也有好几家做这个的大型公司的,清洗数据,格式数据,标记数据,投喂数据,都是流程化的。
    terrysnake
        16
    terrysnake  
       2023-03-27 16:48:40 +08:00
    现在有个观点说 GPT3.5 和 4 披露少的原因是语料可能有侵权
    NoOneNoBody
        17
    NoOneNoBody  
       2023-03-27 16:54:35 +08:00
    英翻中?我扔两个成语看你的 AI 怎么回应

    如果说“其中一个原因”,那当然是对的,但说主因,就不是语料这么简单,还是语法和文化区别
    中国人很多,但同时汉语和 AI 都精通的就很少,放到世界与英语相比就少之又少

    纯文字、正统汉语文法还好,一扯上口语就复杂了,个人感觉汉语口语跟文字语法相差比较大,还有地域问题
    “中国女排大败美国女排”,“中国女排大胜美国女排”

    别说 AI 了,连“24 口交换机”、“java”……都未解决呢

    按 @yuanxin1999 #14 思路再举个例子
    “乒乓球拍卖多少钱”,99%汉语交流者都会理解主语是“乒乓球拍”,谓语是“卖”,但“乒乓球”+“拍卖”呢
    Pin
        18
    Pin  
       2023-03-27 16:59:52 +08:00   ❤️ 1
    @NoOneNoBody “中国女排大败美国女排”,“中国女排大胜美国女排” 试过了,翻译的没什么问题啊
    LaurelHarmon
        19
    LaurelHarmon  
       2023-03-27 17:01:26 +08:00 via Android   ❤️ 1
    @NoOneNoBody 你的例子放 chatgpt 里试试不就行了,所有可能情况人家都给出了,这还只是 3.5
    maggch97
        20
    maggch97  
       2023-03-27 17:01:42 +08:00 via Android   ❤️ 1
    @yuanxin1999 大模型要是连这种歧义都处理不了就不是大模型了。现在根本不需要做分词这种中间任务了。
    maggch97
        21
    maggch97  
       2023-03-27 17:02:57 +08:00 via Android
    不要脑补技术好不好,看一点科普文也不至于误解这么深
    woshipanghu
        22
    woshipanghu  
    OP
       2023-03-27 17:06:26 +08:00
    @NoOneNoBody 英翻中 也没什么难度 现在做到 99%的准确率肯定有的 准确率甚至更高
    LaurelHarmon
        23
    LaurelHarmon  
       2023-03-27 17:07:36 +08:00 via Android   ❤️ 8
    跟语料没关系,跟背后的很多东西有关系。
    中国并不缺少聪明人,也不缺钱。
    但是纵观 NLP 这黄金十年,没有一个革命性技术是在中国大陆诞生的,是的,没有一个。
    中国研究者擅长跟随,刷榜,不擅长探索,开创。
    HeyWeGo
        24
    HeyWeGo  
       2023-03-27 17:18:21 +08:00
    从国内外的 app 思路就能看出,国内资本发展更像资本注意会干出的事。哪哪都是贷款入口!别的国家的,实在是太太恶心了
    Admstor
        25
    Admstor  
       2023-03-27 17:20:59 +08:00
    笑死了

    隐私侵犯如此剧烈的土地,跟我说缺少语料库...你自己想想这合理吗?

    承认一下公司短视
    承认一下技术落后
    没那么难
    NoOneNoBody
        26
    NoOneNoBody  
       2023-03-27 17:21:32 +08:00
    @LaurelHarmon #19
    没帐号,也没多大兴趣
    我不喜欢别人帮我选择一个,虽然多数情况下省时省成本,我更多喜欢自己选择并验证一次(能力范围内)
    maggch97
        27
    maggch97  
       2023-03-27 17:22:26 +08:00 via Android
    gpt 的中文和英文的准确率论文里面都有,而且是一个非常简单直观的图标。
    maggch97
        28
    maggch97  
       2023-03-27 17:23:30 +08:00 via Android   ❤️ 1
    @NoOneNoBody 虽然说评论厨子不需要会做菜,但起码得吃过厨子做的菜吧
    NoOneNoBody
        29
    NoOneNoBody  
       2023-03-27 17:26:50 +08:00
    @woshipanghu #22
    这个?你理解错了?我不是说英翻中不准,而是英语语料没有汉语特有的东西,例如汉语成语

    @Pin #18
    OP 原文说的是 英语语料翻译成中文再训练,不是 中翻英
    Chad0000
        30
    Chad0000  
       2023-03-27 17:28:17 +08:00 via iPhone
    @Admstor #25
    李某宏:我谁说我们落后了?我们离 ChatGPT 只有一两个🈷️的距离而已。
    iamwho
        31
    iamwho  
       2023-03-27 17:30:38 +08:00
    @NoOneNoBody

    几乎任何语言都会有出现歧义的情况,当你把一些英语或是其它语言中具有歧义的文本扔到 ChatGPT 一样会出现仅针对特定释义的回答,但是你对它进行纠正,它也是能够理解的。所以,很明显国内 AI 发展不起来是因为前瞻性不足和人才缺失。
    NoOneNoBody
        32
    NoOneNoBody  
       2023-03-27 17:32:00 +08:00
    @maggch97 #28
    chatgpt != AI
    我只是对 chatgpt 没兴趣,不是对 AI 没兴趣,我大学的毕设(上世纪)就是聚类分析(化工分析方面)
    Admstor
        33
    Admstor  
       2023-03-27 17:34:50 +08:00
    @NoOneNoBody 英语也有俚语和成语,只不过英文的成语并不是中文这种缩写的表达方式
    但依然符合"字面意思多与其实际想表达的意思不同"以及较为正式

    每个语音都有自己的特殊的地方
    不要把汉语的特殊认为"难以理解"或者"高人一等"
    maggch97
        34
    maggch97  
       2023-03-27 17:38:20 +08:00 via Android
    @NoOneNoBody 你理解的那套 AI 早就已经是时代的眼泪了。。。
    NoOneNoBody
        35
    NoOneNoBody  
       2023-03-27 17:38:37 +08:00
    @iamwho #31
    同意

    但我有个疑问,OP 说的是 AI ,为何好几楼回复我的都是说 chatgpt ?
    chatgpt 只是 AI 及分支 语言 AI 的一个表现,不是全部
    churchmice
        36
    churchmice  
       2023-03-27 17:47:45 +08:00
    @worldqiuzhi 一把把把手把住
    老五对老四说,老三的老二老大了
    你试试这些能理解吗?
    sampeng
        37
    sampeng  
       2023-03-27 17:47:52 +08:00 via iPhone
    最大的卡脖子居然没说,在这扯技术…
    哪来的 gpu 算例啊…
    binfengxy
        38
    binfengxy  
       2023-03-27 17:48:22 +08:00
    多家外资企业运维经验。海外的架构搬到国内要脱一层皮,同理国内的架构出海也是要脱皮换骨

    这些中小外资企业,只要一个模式能跑好,很简单就可以把用户扩展到全世界。大陆这种,老板们要出海要有其他“出海方案”(代价)了,基本等于重做
    muntoya
        39
    muntoya  
       2023-03-27 17:51:44 +08:00   ❤️ 1
    @sampeng #37 我感觉最大的卡脖子是中国政|府的百变政策规定
    NoOneNoBody
        40
    NoOneNoBody  
       2023-03-27 17:52:16 +08:00
    @maggch97 #34
    这就看怎么理解了,你去翻我在其他帖子的回复,我不认为 AI 是一蹴而就的东西,是要几代人数十年甚至上百年的累积
    我一直持这个观点,我能做到一个因子的合理量化就算有贡献了
    其实过去的半个世纪,大概每十年 AI 就会“热”一阵子,大部分的成果都不是那么彰显的,step by step

    我从事聚类分析(非主业)二十多年了,也曾从旁协助过一些搞 AI 的小项目,但我没有直接参与,时间精力能力都不足以让我承担些什么
    yvescheung
        41
    yvescheung  
       2023-03-27 18:00:33 +08:00
    这不能解释 openai 的中文为啥发展出来了
    rrfeng
        42
    rrfeng  
       2023-03-27 18:04:06 +08:00 via Android
    gigo
    worldqiuzhi
        43
    worldqiuzhi  
       2023-03-27 18:07:37 +08:00
    @churchmice 我觉得这个回复的没什么毛病 不比正常人理解差 ---这个句子包含了很多重复的词汇,可能使其在一定程度上变得含糊不清。不过,根据句子的结构和词汇,我们可以尝试分析出几种可能的语义:

    老五正在抓住某个把手(一把把把手把住),然后他对老四提到老三的老二已经变老了。在这个解释中,"老二"可能指老三的次子或者某种次要的东西。

    另一种可能是句子描述了老五通过某种方式控制了某个把手(一把把把手把住),随后他告诉老四,老三的老二变得非常重要或有影响力了(老大了)。在这个解释中,"老大"可能表示变得重要或有影响力。

    第三种可能是句子中的“老二老大了”可以理解为老三的老二变得更加年长或成熟。在这种情况下,老五可能在告诉老四这个事实,同时手上还在紧握着把手。

    这个句子的确存在多种潜在的语义解释,取决于我们如何理解其中的词汇和句子结构。
    NoOneNoBody
        44
    NoOneNoBody  
       2023-03-27 18:09:08 +08:00
    @Admstor #33
    不知道最后一句是怎么推导出来的,说的是我么?

    要不我从头说一下
    OP 说的是“国外的英文语料库翻译成中文,然后再训练”,我觉得这么做不足够
    我也没有认为汉语难以理解,起码我就汉语就比英语好吧
    我只是觉得汉语需要做的工作更多,例如"server",汉语 AI 就需要理解“服务器”和“伺服器”两个词(自然人理解其一就够了)
    又如,汉语不像英语用空格自然分词,分词就是一个必须工作,英语分词简单很多吧
    诸如此类琐碎但看似又不能直接看到成果的工作,就需要有人默默奉献,目前参与的人不多
    我说的是这个
    lambdaq
        45
    lambdaq  
       2023-03-27 18:10:39 +08:00   ❤️ 1
    gpt-3 通过区区 30w 篇文章就掌握了汉语。。。。

    /t/917704

    @woshipanghu @YUCOAT @worldqiuzhi @janus77
    daliusu
        46
    daliusu  
       2023-03-27 18:15:03 +08:00   ❤️ 3
    楼上那些纠结一些成员和容易混乱的句子的,是真的低估 ai 和其他语言了,每个语言都会有这种东西,这压根就不是问题好吗?
    一把把把手把住 是什么意思?

    “一把把把手把住”这个词语似乎没有确切的规定定义,并且没有语境的情况下无法确定其含义。但从字面上来看,可能是描述某个人或者几个人用手抓住某个物件、物体,也可能是某人在抓住自己的手或者手腕。

    需要结合具体的语境来理解该词语的具体含义。

    中国女排大败美国女排,中国女排是赢了还是输了

    "中国女排大败美国女排"的意思是中国女排在比赛中失利(输掉比赛),因此中国女排没有赢,而是输了。

    这是 chatgpt3.5 没经任何调教和 prompt 的回答,这个回答基本已经理解到这句话的意思了,这很难吗?
    国内 AI 不行压根就不是因为中文、或者中文环境多特殊。根本我认为还是在商业环境上
    maggch97
        47
    maggch97  
       2023-03-27 18:34:14 +08:00   ❤️ 3
    质疑之前起码先尝试一下。鉴于有人懒得尝试 GPT ,我直接给 GPT4 的结果,看完之后还会觉得 AI 处理不了所谓的歧义吗?

    Q: 中国女排大败美国女排,中国女排大胜美国女排。这两个表达含义是一样的吗?

    GPT4:
    是的,这两个表达的含义是一样的。无论是说“中国女排大败美国女排”还是“中国女排大胜美国女排”,都表示在这场比赛中,中国女排战胜了美国女排,并且获得了显著的优势。换句话说,这两个表述都表示中国女排在这场比赛中取得了胜利。

    Q: 为什么两句话,一个胜,一个败。完全相反的字却能表达相同的意思?
    GPT4:
    这是因为这两句话在描述同一场比赛的结果,只是从不同的角度来表达。在这个语境中,“胜”和“败”是相对的概念。

    当我们说“中国女排大胜美国女排”时,我们关注的是中国女排的胜利,突出了中国女排的优势和表现。而在说“中国女排大败美国女排”时,我们关注的是美国女排的失利,突出了美国女排在比赛中的劣势和表现。虽然这两个表述中用了相反的词汇(胜 /败),但它们实际上都在描述同一个比赛结果:中国女排战胜了美国女排。因此,它们所表达的意思是相同的。

    Q:很多人认为 AI 很难处理这样可能存在歧义的句子,你是怎么做到能准确理解的?
    GPT4:
    作为一个基于 GPT-4 架构的 AI 模型,我们通过大量的训练数据和强大的模型能力来理解和处理可能存在歧义的句子。以下是一些关键因素,帮助 AI 准确理解这类句子:

    上下文理解:AI 模型会根据句子的上下文信息来推断歧义词汇的真实含义。这有助于消除歧义,提高准确性。

    语言模式识别:在训练过程中,AI 模型学习了大量的语言模式和结构,这使得它能够根据类似的句子结构和用法来推测歧义词汇的意义。

    语义关联:AI 模型能够识别句子中的语义关联,这有助于理解不同词汇之间的关系,从而准确解析句子。

    概率推理:AI 模型会根据训练数据中观察到的概率分布来预测歧义词汇的含义。这有助于 AI 在多种可能的解释之间进行权衡,从而得出最合理的解释。
    NoOneNoBody
        48
    NoOneNoBody  
       2023-03-27 18:36:19 +08:00
    @daliusu #48
    https://www.sohu.com/a/226925741_157164
    2018 年的

    我不是想一棍子抡死,我觉得上面不少楼层都提到一些方面,各自可能都是小问题,但共同影响就构成了一个复杂局面
    来句不同时代的老话:革命尚未成功,同志仍须努力
    有后来者继续投入就好,将来还是有希望的
    min
        49
    min  
       2023-03-27 18:37:35 +08:00   ❤️ 2
    请相信通过概率论可以大概率准确地描述这个世界:

    Model: GPT-4


    "乒乓球拍卖多少钱“ 这句话怎么理解?
    这句话是中文,翻译成英语是 "How much does a table tennis racket cost?"。这句话的意思是询问一只乒乓球拍的价格。乒乓球拍是乒乓球运动中用来击打乒乓球的运动器材。价格因品牌、质量、材料等因素而有所不同。




    有没有可能这句中文可以有其他的含义?
    在大多数情况下,这句话的意思是询问乒乓球拍的价格。然而,在某些情况下,根据上下文,这句话可能有其他含义。

    如果是在一个拍卖会上,这句话可以理解为 "How much did the table tennis racket sell for at the auction?"(乒乓球拍在拍卖会上卖了多少钱?)。此时,这句话的重点是询问拍卖会上乒乓球拍的成交价格。

    在口语中,有时候人们会使用双关语或者玩笑。如果这句话出现在一个幽默的语境中,可以理解为 "What's the cost of a table tennis racket? (but implying something else)"(乒乓球拍卖多少钱?(但暗示其他含义))。这种情况下,可能在开玩笑或者寻求另外一层意思。

    然而,在大多数情况下,这句话通常是在询问乒乓球拍的价格。要确切地理解这句话的意思,需要根据具体的上下文进行判断。
    TWorldIsNButThis
        50
    TWorldIsNButThis  
       2023-03-27 18:38:43 +08:00 via iPhone
    感觉有皇帝的金锄头内味儿了
    多模态的强大何止限于某种自然语言
    LaurelHarmon
        51
    LaurelHarmon  
       2023-03-27 19:37:03 +08:00   ❤️ 16
    某些被时代抛弃的人真可悲,无知且固执,都啥年代了,还在说什么分词断句、中文没空格、一词多义,坐井观天的人以往自己一直看得很远,殊不知外面的世界已经大变了。
    shyangs
        52
    shyangs  
       2023-03-27 20:00:46 +08:00   ❤️ 3
    你們問中文歧義句要問原創的啊。

    非原創的歧義句。ChatGPT 可能已經學習過了。

    我來提供一歧義句問題。 「台南麻豆鱷魚王小河姓什麼?」





    先鋪墊第一個問題,避免 ChatGPT 逃避問題。第二個問題問原創歧義句。

    結果,ChatGPT 兩個問題都在胡說八道。
    katoyu
        53
    katoyu  
       2023-03-27 20:05:05 +08:00
    中国 AI 发展不起来的唯一原因就是有一个小学生当道,这种满脑子斗争的智商要 AI 干嘛?中国只要有人工就可以了。关于智能能监控才会用。
    tairan2006
        54
    tairan2006  
       2023-03-27 20:18:03 +08:00 via Android
    GPT 的中文不能说好,但是它胡说八道的功底挺好的。
    churchmice
        55
    churchmice  
       2023-03-27 20:21:36 +08:00
    @LaurelHarmon 那你也要看到很多弄潮儿死在最前头
    啥东西出来都激动不已,看看去年的元宇宙,还有吹了那么久的 AR/VR,还有各路自动驾驶
    seres
        56
    seres  
       2023-03-27 20:31:20 +08:00
    @katoyu 这可不兴谈啊,小心人没了
    aloxaf
        57
    aloxaf  
       2023-03-27 20:33:52 +08:00
    @8355 #8 毕竟有墙拦着,不创新也不会被外面的企业弄死
    rpman
        58
    rpman  
       2023-03-27 21:50:29 +08:00   ❤️ 1
    因为在 OpenAI 烧钱烧出 ChatGPT 之前没人看好这条技术路线。比如深度学习遗老乐昆:
    https://twitter.com/ylecun/status/1640122342570336267

    既然有人证实了路能走,那自然会有很多 following up 了。
    各种盐碱地评论家我建议歇一下。
    Ne
        59
    Ne  
       2023-03-27 22:16:20 +08:00   ❤️ 1
    翻译成中文不是难题,主要是那也不能说、这些也不能说,禁词一大堆。自己都说不清楚,再过多少年也不会进步
    mikewang
        60
    mikewang  
       2023-03-27 22:23:20 +08:00   ❤️ 1

    evan9527
        61
    evan9527  
       2023-03-27 22:28:39 +08:00
    我觉得发展的瓶颈主要是不能说。
    Calen
        62
    Calen  
       2023-03-27 22:30:12 +08:00
    看到很多杠精都在说中文有多复杂,难道非得钻着牛角尖搞 AI 吗,不能先从人话开始搞?最根本的原因是,有钱人都在忙着做微贷。
    Microi
        63
    Microi  
       2023-03-27 22:35:54 +08:00   ❤️ 1
    不要怪公司短视,换了你上去,你会在这边的环境下全力投入一个以年为单位的项目吗?
    我想起一个视频:
    俞敏洪揶揄马云说,教育是永远的行业,一百年后教育还在,但阿里巴巴不一定在。
    马云回击说,教育一定在,但新东方不一定在。
    结果十年还没到,教育行业没了,哈哈。
    levelworm
        64
    levelworm  
       2023-03-27 22:38:28 +08:00 via Android
    @8355 用爱发电只能希望企业能够重视起来了,华为我觉得似乎还是不错的。
    huijiewei
        65
    huijiewei  
       2023-03-27 23:47:45 +08:00
    我没用过,也懒得用,但是我觉得就是这样的。啊啊啊啊
    misslita
        66
    misslita  
       2023-03-28 02:03:00 +08:00 via Android
    数据集真的是大问题,看看百度自己都在用英文数据集训练好像是一家非盈利公司整理的图片数据集,国内有没有一家专门做这些的感觉前景不是很大吗,这么多人想做但是都没有靠谱的数据🐶openai 是真的牛去那找的中文数据
    Rrobinvip
        67
    Rrobinvip  
       2023-03-28 04:29:59 +08:00
    训练 gpt3.5 这种模型不仅仅需要的是数据集。时间和显卡也是很重要的。论文“ Measuring the Carbon Intensity of AI in Cloud Instances”是和微软合作完成的,其中提到用 256 块 a100 训练一个 6b 参数的 nlp transform 模型需要 60 天。可想而知训练 gpt3.5 的时间绝对不会短。我印象中在另外一篇有微软参与的论文中看到过相关 gpt3.5 的训练细节,但我记不清了。由此可见这东西是一个既费时又费钱的东西。
    cassyfar
        68
    cassyfar  
       2023-03-28 06:08:57 +08:00   ❤️ 1
    @mikewang 没毛病 1 ) bus and mouse 2 ) crane
    cassyfar
        69
    cassyfar  
       2023-03-28 06:10:32 +08:00   ❤️ 4
    优秀人才都润国外去了,看看 FLAG 里多少国人做 ML 的,北美院校多少华人教授搞 AI 。还是那句话,你就是霍金来,也要站起来敬酒。
    DFC
        70
    DFC  
       2023-03-28 06:26:28 +08:00 via iPhone
    无恒产者无恒心
    dayeye2006199
        71
    dayeye2006199  
       2023-03-28 07:21:18 +08:00
    @NoOneNoBody 现在的模型都可以不分词,可以字符进去一个一个喂。注意力机制,可以让模型根据上下文搞明白这些歧义的句子意思式什么。你说没上下文,人都搞不明白,那就别指望机器了。
    alne
        72
    alne  
       2023-03-28 08:56:09 +08:00
    @worldqiuzhi 有没有可能用英文训练出来不用特定调整就能识别大部分语言?并且这个准确度还是非常高的?
    有没有可能进行针对性微调后这个准确度会变得非常可用?

    现在的大模型最缺的就是数据了
    DAPTX4869
        73
    DAPTX4869  
       2023-03-28 08:56:54 +08:00
    我觉得是 AI 会搞不懂 nm, fa, xswl 这种乱七八糟的玩意....
    encro
        74
    encro  
       2023-03-28 09:21:52 +08:00   ❤️ 1
    你说对了,

    中文匮乏的根源却在有质量可信的资源几乎没有。

    比如某百科和百 x 号里面有什么值得看的内容?这些本应是权威的网站,结果成了公关运作的!

    比如某 ys 网里面的新闻是能信的?里面大多数新闻没有具名公司,来源于网络。这本来也应该真的新闻,结果也真假难辩!

    某乎都在抖机灵!

    相对国外:维基百科,github ,stackoverflow ,等各行个也顶级刊物。。。。

    国内可以看的是曾经的 cnblogs ,SegmentFault ,掘金,你看我加上了曾经。。。后来因为不赚钱、评论不能说话、自我阉割、商业化各种因素吧,搜索引擎都不愿意给流量了。
    CaptainD
        75
    CaptainD  
       2023-03-28 09:30:07 +08:00
    数据质量应该是个决定性因素,国内的数据不开放且质量差,缺乏像 wiki 这种整理数据周期发布的,也因为审核等原因缺乏高质量数据
    sunyang
        76
    sunyang  
       2023-03-28 09:36:07 +08:00   ❤️ 2
    要感谢审查,创造好多莫名其妙毫无逻辑相关的语料。同样是 AI 你琢磨自动审核都搞不定的语料库,其他 AI 能搞定?
    ql562482472
        77
    ql562482472  
       2023-03-28 09:48:27 +08:00
    人一生接触的无非也就是 10 亿个 token 或者*2 看起来语料库的大小与 gpt 并无关联:

    https://www.yuque.com/3dinternet/gpt/gtc2
    yesicoo
        78
    yesicoo  
       2023-03-28 09:51:11 +08:00
    @encro 说起 cnblogs 这个小站正在被百度恶意爬数据 也不知道是不是用来训练。不让爬就降权,就是你说的不愿意给流量。百度这个毒瘤倒了,中文环境应该会干净一点吧... 应该吧...
    tusik
        79
    tusik  
       2023-03-28 09:52:27 +08:00
    @maggch97
    @daliusu
    你们两个答案都相反
    maggch97
        80
    maggch97  
       2023-03-28 09:54:15 +08:00 via Android
    @tusik 因为一个是 gpt4 一个是 gpt3.5
    hackersee
        81
    hackersee  
       2023-03-28 10:02:51 +08:00
    都在谈特殊语句歧义问题,实际上让一个普通人听到一句“乒乓球拍卖多少钱”,“一把把把手把住”,“武汉市长江大桥分词” 第一感觉就是通常意思,为什么需要纠结歧义想法,若 AI 真的是一个人,那它的想法和普通人一样,首先给定的就是最常见的意境。其他语境里的理解,交给语境就行,仍然是技术理解问题。就好像一句话中如果颠倒了几个字,但普通人仍然能读懂语义一样,而 AI 可能就理解错了,一切都可以技术理解。只是没人钻研罢了。

    根本上就是普通语句理解 + 语境理解技术。国内只钻最简单的语句拆词理解,语境不想涉及因为技术难度大。
    PEALFK
        82
    PEALFK  
       2023-03-28 10:11:29 +08:00
    带着锁链起舞的永远没有自由起舞的好看
    chenPiMeiHaoChi
        83
    chenPiMeiHaoChi  
       2023-03-28 10:23:12 +08:00   ❤️ 1
    @NoOneNoBody 哪怕你去淘宝买个十块钱的共享账号都不会在这嘴硬。
    kennylam777
        84
    kennylam777  
       2023-03-28 10:29:17 +08:00
    想多了, ERNIE-VILG 的論文裡面早就說明白用百度翻譯做 dataset
    https://arxiv.org/pdf/2112.15283.pdf
    glfpes
        85
    glfpes  
       2023-03-28 10:46:57 +08:00
    chatgpt 证明了语料库不是问题。问题还是出在其他方面。
    其实在 chatgpt 之前,国内的 AI 看起来还是很先进的,卡脖子的点在 gpu 上。像业务直接相关的搜广推 AI 算法,国内还是出了不少能有实际价值的好论文的。
    chatgpt 是一个异类,吊打了全世界包括谷歌这个 AI 传奇大厂。。。
    gladuo
        86
    gladuo  
       2023-03-28 10:48:26 +08:00
    忍不住回一下。不是说简体中文世界没有输出,而是高质量、有逻辑的严肃写作越来越匮乏。假设你现在需要帮你续写一篇严肃协作,你觉得所谓『高质量』的充满 emoji 的小红书,充满推广链接的知乎,大量的抄袭成风的各种号,还有各种官媒通稿,能不能作为合格的语料。当然你不能说完全没有,我们总有百度百科,有少量高质量的公众号,我们也可以逐渐用各种 AI 手段清洗现有的数据,筛选好的内容。但和 new yorker 那样的媒体,medium 上的大量高质量内容,大量的独立博客相比,中文世界最优质的创造者已经全盘导向视频制作了。比较新的中文文本内容整体质量下降,可以认为是客观事实。是会影响模型能力的。
    Leviathann
        87
    Leviathann  
       2023-03-28 11:01:21 +08:00
    @glfpes 事实证明大力才能出奇迹,对于那些追求理论上简洁优雅可解释性强的学者真是一件幻灭的事情
    pcmgr456
        88
    pcmgr456  
       2023-03-28 11:08:03 +08:00   ❤️ 3
    去除掉西方元素,某国真就成为农业国了,搭了巨人的肩膀成为暴发户后就觉得自己了不起了,殊不知离了西方元素,屁也不是
    rpish
        89
    rpish  
       2023-03-28 11:39:10 +08:00
    国内 AI 公司为什么不能用英文语料库?是英文的不好?
    zzzzzzZ
        90
    zzzzzzZ  
       2023-03-28 12:07:01 +08:00
    建议看看 openai 公布的数据
    [https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv]
    chatgpt 训练中文词汇不到 0.1%,为什么解答中文也这么好?

    语义本身就只是语义,它 chatgpt 可以不懂「沉舟侧畔千帆过」,但是基于现代人类的基本语义都是没问题的。
    NLP 这玩意国内也有大把成品,但是跟 LLM 完全不是一个东西。
    LLM 要投入大量的算力卡和电费,谁舍得像它那样一个月烧一千万刀电费?现在火爆全球,你去问问李彦宏舍得吗,他说的不还是个资本家。


    不要再给「国内 AI 」找借口,发展不起来纯粹是钱、算力、心态的问题。
    dubidu
        91
    dubidu  
       2023-03-28 12:40:34 +08:00 via Android
    @Admstor 其实就算把隐私收集一个遍,还是不全面和不自然。这边语言表达和行为上的自我阉割自我审查也是很严重的。个人这样平台也是这样。
    6i3BMhWCpKaXhqQi
        92
    6i3BMhWCpKaXhqQi  
       2023-03-28 13:19:01 +08:00
    @maggch97 我用 GPT35 试了一下,和 GPT4 差距还是有点大的,虽然 3.5 就能够完全把这两句话的意思翻译正确了,但在你这个问题上,回答截然相反。

    什么时候能让我用上 GPT4 啊,哈哈……
    6i3BMhWCpKaXhqQi
        93
    6i3BMhWCpKaXhqQi  
       2023-03-28 13:28:47 +08:00
    @chenPiMeiHaoChi 哈哈,10 块钱可能都不到就可以试一试的事情,非要去犟。
    nkloveni
        94
    nkloveni  
       2023-03-28 13:51:01 +08:00
    @churchmice
    行车快倒了,他一把把把手把住。是什么意思


    这个句子的意思是,当自行车快要倒下时,他迅速地用一只手抓住了自行车的把手,以避免自行车倒下。

    通常情况下,当自行车快要倒下时,骑车的人会试图保持平衡并用手抓住自行车的把手,以防止摔倒。因此,这个句子的意思是在描述一个人在自行车快要倒下时,用手抓住自行车的把手以保持平衡的情况。
    ans by chatgpt
    sunyang
        95
    sunyang  
       2023-03-28 14:22:32 +08:00
    @LaurelHarmon 你对大陆程序员要求的过分了,一边是 996 猝死,一边是车贷房贷彩礼贷。就这种环境,哪行来钱快大家干哪行,谁有功夫投资未来?好不容易出那么一两个头铁的,还分分钟被人像素级抄袭,告又告不赢南山必胜客。
    sunyang
        96
    sunyang  
       2023-03-28 14:25:03 +08:00
    @encro 央视造假,官媒造假,统计局造假,上下一起造假。
    NoOneNoBody
        97
    NoOneNoBody  
       2023-03-28 14:40:04 +08:00
    @dayeye2006199 #71
    都活了半个世纪,我也不是那种非黑即白的人,一些例子,是说“不容易”,而不是“不行”,大家都是成年人,交流本以为不用解释这些,但好像总有人以“非黑即白”去判断别人。我就是做数据分析的,虽然不是语言相关,但持完全否定那就相当于自我否定了

    “AI”简单分几个层次
    聚类,就是机器学习,从采集样本聚类,根据测试样本的归类对应结果
    深度学习,采集样本数据拟合、动态收敛(大概意思),然后按测试样本反向执行推导
    创造,是混合的,学习后对采集样本以外无关样本推导,这个才是我心目中的 AI

    chatgpt 目前的表现算是里程碑式的,但我希望了解它的实现方式后再去判断,它究竟有否达到创造的境界
    作为一个问答机器人,我是真心没兴趣的,我希望答案能对“乒乓球拍卖”,同时给出“卖”和“拍卖”两种情况;如果只是给出单一个高概率的答案,那跟某些人说“美国是坏的”、“华为是坏的”,都是同类“人”,更像是聊天机器人而不是问答机器人,不过它的名字好像就是聊天用的(我理解错了?)
    去 so 或其他问答社区,我都是要看包括已选答案在内的所有回答的,因为“最佳”只是对某个人某个时空的最优而已
    如果只给“最优解”,其他都隐去,有种“听 XX 的话”的感觉

    如果 chatgpt 能作为“辩论机器人”,能持续抛出论据,那就有点意思。我是个怪人,喜欢从辩论中学习,因为在短时间内,对方就能抛出我不懂的知识点,比我自己搜索快得多

    我对它最大兴趣就是看它“创造”的占比,表象看是有的,因为对一些“未知领域”它会给出错误答案,这是一个具有创造雏形的表现,对不对不重要(准确度以后能修正),能“胡编乱造”还通顺也是“造”,具体要看团队公开的信息判断

    最后,我是没有离开 OP 的题目原文讨论的(是我太认真了么?),chatgpt 无论多大的成就,也不是国内从业者的产品,国内 AI 就是这么个状况,有专业知识的人从事或协助 AI 发展的太少,非专业就攻坚困难,一直修修补补
    现在的推荐算法真实弱爆了,这个还不到“创造”阶段呢,不少都是行业巨头,说缺钱是说不过去的,这点就体现国内对待 AI 的态度如何了
    wupher
        98
    wupher  
       2023-03-28 15:08:23 +08:00
    1. 原因之一,其实还是可以通过算法自动生成语料的。当前各种审,各种拦,确实阻止了大家说话,说实话。感觉这个会随着时间发展越加显著突出。
    2. 芯片限制也是其中原因之一,而且有可能随着时间越久影响越大。
    3. 赢利前景,这东西投入大,变现前景不明,更别提政策风险了。
    4. 就是政策了,大家都懂的

    个人浅见
    encro
        99
    encro  
       2023-03-28 16:02:31 +08:00
    @NoOneNoBody


    缺钱还真是的,
    其实还是 SHZY 初级阶段问题,
    就如 95 楼,
    车贷房贷彩礼贷,
    多少年前我们还在解决温饱问题呢。

    大家目光都不长远,第二代企业家刚出来,第三代还没造呢。



    @sunyang

    中国不仅没有 chatgpt ,
    连优衣裤都没有,
    前几年连保鲜袋都是日本的便宜实惠。。。
    现在日本的 byt 还是世界第一。

    大家都还活在毫无产权意识的封建社会!

    所以不能怪谁,只能靠我们自己和后代吧。
    zhangtest
        100
    zhangtest  
       2023-03-28 17:06:06 +08:00
    国内敏感词过滤是世界性难题,很多东西只可意会不可言传,还要随着环境变化而变化,今天是正能量,明天可能是负能量,以后做大了还要符合主流宣传方向,都是需要一个一个难题需要突破。
    这个门槛没突破还想发展 AI 是痴人说梦,国内就几家公司能勉强做得到。
    你不想过滤?直接举报下停业整改。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2683 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 07:38 · PVG 15:38 · LAX 23:38 · JFK 02:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.