V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ampedee
V2EX  ›  问与答

能否禁止自己产出的内容成为 AI 的语料?

  •  
  •   ampedee · 2023-03-31 09:37:13 +08:00 · 1988 次点击
    这是一个创建于 638 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如个人发布的博客文章和开源的代码,是否已有授权或协议能够禁止被作为 copilot/chatgpt 的训练语料?

    如果没有,是否能创建一类 only for human 的著作权协议和开源协议?

    听上去有些螳臂当车,但主要出于以下考虑:
    1. 作者对自己创作的内容应有处置的自由
    2. 不希望大公司利用个人免费分享的内容进行营利
    3. 部分内容是否应该从源头上禁止 AI 获取?比如会对人的心理和生理造成损害的,带有歧视或偏见内容等等

    10 条回复    2023-03-31 13:07:00 +08:00
    renmu
        1
    renmu  
       2023-03-31 09:39:52 +08:00 via Android
    你可以在 robots.txt 里标注

    AI 发展太快,各种措施,监管,法律都还没出来
    kop1989smurf
        2
    kop1989smurf  
       2023-03-31 09:42:43 +08:00
    目前不能。
    这也是为何 Copilot 被集体诉讼的原因。

    现在的机器学习 AI 的训练材料获取、模型、生成参数、产出,都是法外之地。
    popguy
        3
    popguy  
       2023-03-31 09:44:30 +08:00
    希望有这样一种版权——可以用我的原创内容作为 AI 训练材料,但 AI 不能用于商业用途,否则按文章的 token 数计价每年给我授权费
    raymanr
        4
    raymanr  
       2023-03-31 09:56:47 +08:00
    我总觉得好像不久就要有些人跳出来嚷嚷了, 你以为你是谁, 人家大公司看得上你的东西之类巴拉巴拉的.

    就像某些管家在电脑翻箱倒柜, 某些 APP 在手机上传这上传那一样
    ttgo
        5
    ttgo  
       2023-03-31 10:06:29 +08:00
    这种根据你的版权内容高度抽象后产出的内容,很难证明其关联性。
    并且,他生成后的一段内容,可能只有 0.001%用到了你的语料,数量上也不会被定义为侵权。
    jfj8848
        6
    jfj8848  
       2023-03-31 10:23:24 +08:00
    感觉很难举证,训练输出后相当于洗稿?
    passall
        7
    passall  
       2023-03-31 10:31:12 +08:00
    这个类似书评人, 像樊登那样的,直接告诉你书的内容,还收钱的,也没看到会给人告。
    hahastudio
        8
    hahastudio  
       2023-03-31 10:32:42 +08:00
    我觉得这样的需求是真是存在的,至少到目前为止,风格是一个只有作者自己才能产出的东西,但 AI 可以学个八九不离十
    之前 stable diffusion 开始的时候,也有画师反对自己的作品被加到训练集里
    GitHub Copilot 出来的时候,也有人不想把自己的 code 加到训练集里

    不过放到现实,GitHub Copilot 说不把私有代码加到训练集里,但结果还是加了,维权的方法难于上青天。这还是机器可以识别的版权与作者产出放在一起,对 GitHub 很容易做到的事情都会这样,更不用说是其他方面的了。
    Ericcccccccc
        9
    Ericcccccccc  
       2023-03-31 10:56:59 +08:00
    连搜索引擎都可以不遵守不要爬的请求, 所以这个就更难了, 至少搜索引擎你能看见的摸得着, 用你在网络上的发言做预料训练很难被发现.
    baobao1270
        10
    baobao1270  
       2023-03-31 13:07:00 +08:00
    当然可以,这当然可以作为著作权声明的一部分,但是需要注意的是可能和 CC 协议之类的不兼容。
    但是举证困难,即使发现别人侵权,也很难得到有力的证据。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2857 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 08:58 · PVG 16:58 · LAX 00:58 · JFK 03:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.