lurui45

大模型能记住所有它训练过的数据吗?

  •  
  •   lurui45 · Jan 22, 2025 · 2422 views
    This topic created in 506 days ago, the information mentioned may be changed or developed.

    大模型能记住它训练过的数据吗?

    如果你让 GPT 背诵红楼梦全文,它会回答它无法逐字逐句背诵,因为超过它的生成容量限制,但是如果你需要某一部分的内容(比如某一回的片段、某个经典场景或对话),它可以根据你的需求生成相应的段落或章节。

    所以它的数据库里面是真的录进去全文了吗?红楼梦全文 80 万字,当我们说到某个模型要多少 Billion 参数时,这 80 万字能否理解为其中的一部分参数?

    我问了 GPT ,它回答它通过学习这些文本的规律和模式,能够在需要时生成相应的内容。总之无法理解...

    6 replies    2025-01-23 16:28:37 +08:00
    faceair
        1
    faceair  
       Jan 22, 2025
    只能记个大概,跟你看书一样
    mumbler
        2
    mumbler  
       Jan 22, 2025
    它记住的是下一个字出现的概率,不是下一个字本身,全文背诵长了很可能会出错,而且后期训练指令打压过,不允许直接背诵原文
    TimePPT
        3
    TimePPT  
    PRO
       Jan 22, 2025
    你可以简单理解为,模型的训练阶段,通过学习极大量语料,获得了词元( token )间的前后脚出现的概率。

    等推理阶段,通过获取上文所有词元组成的 context ,输出最有可能的下一个词。

    所以,理论上,如果红楼梦作为了语料进入训练。在 context 足够明确的情况下,让补全红楼梦,是可以做到的。但因为预测的是下一个 token ,那么下一句是否正确,也取决于其他训练语料。甚至还有其他影响,就不多展开了。

    如果感兴趣,还是建议找点机器学习、深度学习的科普资料读一下。
    txx
        4
    txx  
       Jan 22, 2025
    学一下注意力机制咯: https://www.bilibili.com/video/BV1TZ421j7Ke/
    jr55475f112iz2tu
        5
    jr55475f112iz2tu  
       Jan 22, 2025 via Android
    这取决于你如何定义 “记住”

    如果你指的“记住”是像数据库那样,你输入“红楼梦”,它输出全书内容,100%匹配,那大语言模型不能记住训练数据。这是传统搜索逻辑

    如果你指的“记住”是人类的记住,那大语言模型很接近
    julyclyde
        6
    julyclyde  
       Jan 23, 2025
    炼丹
    那个丹还能看出来是用啥原材料炼的吗?
    如果能看出来,那个丹还能那么小吗?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2769 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 56ms · UTC 11:30 · PVG 19:30 · LAX 04:30 · JFK 07:30
    ♥ Do have faith in what you're doing.