gpt 会不会将用户输入给他的数据用于模型训练呢？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 774 days ago, the information mentioned may be changed or developed.

Supplement 1 · Mar 27, 2024

经评论区 v 友提示：

1. GPT 和 chatgpt3.5 可以关闭将用户数据用于训练的选项，默认是开启的
2. 相关设置为 Settings > Data controls > Chat history & training
3. 关闭后将看不到 chat histroy ，不是很方便友好

数据

训练

安全

23 replies • 2024-03-29 15:31:15 +08:00

villivateur

Mar 27, 2024

会的，ToS 里面有写

MossFox

Mar 27, 2024

会的，而且不止训练还有真人检查。玩得太花号都给你扬了。

gpt5

Mar 27, 2024

会。

TyCoding

Mar 27, 2024

当然会

shuling

Mar 27, 2024

team 订阅有说明，不会用于训练

Persimmon08

Mar 27, 2024

@villivateur
@MossFox
@gpt5
@TyCoding

1. 大概从三周前，我问 gpt 一个项目的问题，他总是从角度 A 回答，是一个非常传统的角度
2. 而我一直在探索从角度 B 解决这个问题，非常有前景，之前几乎没有人在这个领域想到这样做过
3. 由于要写项目，最近三周我经常和 gpt 讨论，并且发给一些角度 B 相关的 PDF 论文，让他总结并经常讨论
4. 今天我问 gpt 三周前的那个问题，他竟然不从 A 角度出方案，从 B 角度出方案
5. 细思极恐，如果其他人问 gpt 类似问题，他直接从角度 B 回答，那么我这么久的努力不都给白嫖了？

wolfydw

Mar 27, 2024 via iPhone

感谢你对 Ai 领域的贡献

xxj2220

Mar 27, 2024 via Android

不然你觉得为什么现在 chatgpt 变蠢了，估计被特意喂了很多屎

sdjl

Mar 27, 2024

会的，你直接问它，它会说它会的。

Persimmon08

Mar 27, 2024

@wolfydw
我想要有所贡献，但是不想以这种形式贡献啊。
如果大家有一些很好的想法，比如有商业、技术或学术价值
但是担心在与 GPT 交互的过程中泄露，大家与 gpt 交互会有所保留

guosic

Mar 27, 2024

ChatGPT 设置里有一个选项，可以选择不参与训练
![]( https://p.sda1.dev/16/954463410175a810bad57c9b27b05c7e/屏幕截图 2024-03-27 105921.png)

Persimmon08

Mar 27, 2024

@sdjl 我这边 gpt4 和 chatgpt3.5 都回答说不会用于 "不会将用户的输入数据直接用于模型的训练或改进"

Persimmon08

Mar 27, 2024

@guosic 感谢，已经找到这个按钮了，原来可以设置

sdjl

Mar 27, 2024

@Persimmon08 那可能有所改变，我之前问它回复的是会的。我觉得一般来说都是会的。

Persimmon08

Mar 27, 2024

@xxj2220 竟然还有这样干的，友商吗？

sunfly

Mar 27, 2024

当然会，不用白不用

gpt5

Mar 27, 2024

卧槽，你说的好像是真的。我曾经创造出一个缩写，用以检测他是不是会学习我输入的东西。以前在新的聊天中问他这个缩写是什么意思，他都会 xjb 回答，后来我就把这事儿忘了。刚刚又问了他一下，确实回答正确了。

gpt5

Mar 27, 2024

我以前认为他只会学习更加抽象的能力(表达能力、推理能力等)。这么看来，莫非真在学习对话的具体内容。

jZEdn7k4

Mar 27, 2024

会，chatgpt enterprise 版最重要的特性就是 privacy ，不会用你的数据训练，参见 https://openai.com/blog/introducing-chatgpt-enterprise 那么反之普通版没充钱到位的

ex1gtnim7d

Mar 27, 2024

@sdjl #14 怎么可以拿模型的回复结果来作为参考，毫无价值

jasonlz

Mar 28, 2024

大部分人对 LLM 训练真是一无所知。你和 GPT 的对话里，你的输入是 prompt 数据，GPT 生成的数据不会用作自己训练，prompt 数据更不会用来做 LLM 训练。最多用来做对齐工作，但是用户数据清洗困难度远比各种渠道搜集的语料库难得多。个人认为 GPT 不会用对话数据作为训练，对话数据价值低且使用难度高。

Persimmon08

Mar 28, 2024

@jasonlz

openai 在 [Data Controls FAQ]( https://help.openai.com/en/articles/7730893-data-controls-faq) 中提到用户数据用于 improve and train model 相关内容，使用 train 作为关键词在该页面进行搜索，部分内容如下

1. Data controls offer you the ability to turn off chat history and easily choose whether your conversations will be used to train our models.

2. While history is disabled, new conversations won’t be used to train and improve our models

3. ChatGPT, for instance, improves by further training on the conversations people have with it, unless you choose to disable training.

4. Once you opt out, new conversations will not be used to train our models.

jasonlz

Mar 29, 2024

@Persimmon08 我只是从理论说明，用对话数据做 LLM 训练不太可能。至于 OpenAI 使用用户数据来干什么，也许他们有其他的用途，比如做一些模型反馈、模型测试、模型对齐。但就以我经验来看也不太可能，除非 OpenAI 有非常牛逼的清洗数据能力，但这点数据对模型能力到底提高还是倒退都不一定。