本地 GPT，开发实现本地文档库的自动学习和类 CHATGPT 回答

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 880 天前的主题，其中的信息可能已经有所发展或是发生改变。

现在的 CHATGPT 更多是在线学习和解答，但我想也会有一部分人希望能实现本地化的效果。

设想实现功能：
1 、产品可支持离线化（训练可在云上），考虑到本地文档内容相对互联网信息是非常少的，训练所需要资源也更少，但是需要解答更精确。
2 、可对设定的文件夹内进行内容自动学习，支持多种格式，如 word 、excel 、ppt 、以及文档内容路径、的学习，对于图片和视频我觉得目前不大可能有产品实现就先忽略。
3 、满足日常打工人的快速信息汇总、资料查询、内容输出。

产品定位：
本地资料库的处理

类似产品：
也看到一些可以提交文档实现，效果不是很好。距离本地资料库的全部内容学习还是差别比较大。

希望以后出现离线的 chatgpt 产品.

ChatGPT

文档

资料库

学习

9 条回复 • 2023-05-02 12:48:27 +08:00

szxczyc

2023-05-01 19:45:52 +08:00 via iPhone

我也想实现这个功能，但是不想把数据放到网上，太敏感了

Aloento

2023-05-01 20:23:59 +08:00

你是否在寻找 https://huggingface.co/OpenAssistant

neosfung

2023-05-01 23:30:25 +08:00 via Android

好巧，我最近基于清华的 chatglm 在做

QKgf555H87Fp0cth

2023-05-01 23:41:30 +08:00

看都看不懂，等日后再说吧

xupefei

2023-05-02 03:49:16 +08:00 via iPhone

https://github.com/databrickslabs/dolly
这个？

ljlljl0

2023-05-02 10:03:49 +08:00

@Aloento @xupefei 两位的虽然看不太懂，但是接近了，只不过还没有很好的贴近普通人使用，还需要企业级显卡来处理。

ljlljl0

2023-05-02 10:04:56 +08:00

@neosfung 看到有通过 chatlm 实现的，使用难度还是有的，还没有做到类似网盘这种，即拖即用的层度。

t41372

2023-05-02 10:47:58 +08:00

看不是很懂, 不过我知道有不少开源的语言模型, 像是上面有人提到的 OpenAssistant, chatGLM, dolly2, 以及 alpaca 模型和多模态的 miniGPT 。另外许多这些模型是基于 llama 模型进行调整的。我知道 llama.cpp 已经可以用 cpu 运算, 起码我的 m1 用 cpu 跑也很流畅, 好像也有人移植到手机上跑。其他模型我想可能还需要一点时间。感觉如果要学习资料夹中的本地数据, 感觉会用 fine-tuning, 也可以就直接把这些文档转换成文字, 然后再丢进 prompt 里面。我最近在看 langchain, 或许这玩意儿也会对你有帮助

ljlljl0

2023-05-02 12:48:27 +08:00

@t41372 嗯嗯，谢谢