![]() |
1
dandankele 13 天前
1. 知识库的源文档可以是任何形式的文件,如 docx 、ppt 、pdf 等等,那么此时需要做第一步,将这些多种形式的、非结构化的数据转化为结构化的数据结构,如都统一转化为 markdown
2. 分段问题是整个工程里比较重要的且棘手的一项问题。要考虑分段大小是否匹配模型窗口、分段后上下文如何不丢失、语义不丢失等。。应该没有固定的一种手段。。要保证上下文的话,可以分段是保留一些重叠,或者构建知识图谱(这个又引入了复杂性)。。分段策略可以网上搜一下,一大堆资料,一些 rag 框架里也会自带的 3. 多模态的还没尝试过,也在研究。可以将图片也转化为文本描述,那么入库的都是文本了,后续检索也只需要根据文本检索,但这严重依赖文本的准确性,可能导致检索精度丢失。。另一种就是用多模态模型了,让图片向量与文本向量存储在同一空间里,直接做图文检索。。 |