发现一个检测大模型 API 的训练数据时效性的好办法

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 470 天前的主题，其中的信息可能已经有所发展或是发生改变。

有时候，对于一些商用大模型的 API （默认不带搜索引擎 Assistant 能力）；如何检测其训练数据是否比较新；如果直接问它：你训练数据是什么时候的，往往会胡乱回答或者据答；

但是你可以问它一个时效性的新闻，可以判断其训练数据是否包含最新的信息；

比如问俄罗斯什么时候入侵的乌克兰，可以筛选调很多 2022 年之前的模型，有些国产明星大模型就被发现了；如果要看 2024 年的新数据；

可以问：2024 年几月几日，以色列轰炸了伊朗驻哪国的大使馆？因为新闻发生于 2024 年 4 月 1 日的叙利亚，看看大模型是否幻觉输出乱答还是说没有最新信息无法回答；

目前通过上面这个时效性测试的新大模型，Zhipu 最新发布的 GLM-4-FLASH, GLM-4-AIR 通过了测试较早前 baidu 免费的 qianfan-flash ，qianfan-lite ； deepseek v2 ， (minimax)abab-6.5, （ kimi ） moonshot, 还有 gpt-4-o, gpt-4-turbo ，claude-3-KAIKU/OPUS/SONNET,GEMINI 1.5 FLASH/PRO ，都无法回答。说明其数据都是相对较老的。

目前尚无回复

时效性新闻测试