本地部署的是 DeepSeek-R1-Qwen-32B ( 32B 满血),每月的工单数量也就 1 万条左右,要生成月报,月报中要统计热点集中诉求,热点集中诉求的判断标准是被诉主体和被诉内容要保证一致,前端只请求一次,传递查询参数,其他的都交给后端来处理啦
问题:循环把工单传递给大模型,每次传递 120 条工单,传递数据使用的格式是 MD ,预留模型的上次分析结果的 token 数,120 条应该是可以传递的最大 token 数,然后保存上次的分析结果带到下次分析,不断循环,由于还有其它业务在用模型算力,调用一次大模型返回结果需要 1 分钟左右,一万条数据跑下来需要 80 多分钟,需要的时间长也就算了,数据还不准确
采用的方案:
方案一:写完提示词和使用上面方法循环调,效果不好(打算把每次大模型反馈的结果进行压缩 token,再带到下一次的请求中)
方案二:对工单数据进行预处理,分析工单有一定的规律,进行筛选,然后截取 top3 ,然后再交给大模型去分析,只需要调用一次大模型,最终结果相对于方案一结果上确实有所提高,但还是不准确(打算使用 hanpl 对工单进行预处理,仔细想了想可能效果还是不太理想)(本来之前准备用 spark 进行预处理的,但是部署和维护问难,引入成本太高)
想请教各位大佬,对于模型调用这方面和提高准确度这方面有什么建议没?真是技穷啦
算力现阶段是没有提高的打算的
问题:循环把工单传递给大模型,每次传递 120 条工单,传递数据使用的格式是 MD ,预留模型的上次分析结果的 token 数,120 条应该是可以传递的最大 token 数,然后保存上次的分析结果带到下次分析,不断循环,由于还有其它业务在用模型算力,调用一次大模型返回结果需要 1 分钟左右,一万条数据跑下来需要 80 多分钟,需要的时间长也就算了,数据还不准确
采用的方案:
方案一:写完提示词和使用上面方法循环调,效果不好(打算把每次大模型反馈的结果进行压缩 token,再带到下一次的请求中)
方案二:对工单数据进行预处理,分析工单有一定的规律,进行筛选,然后截取 top3 ,然后再交给大模型去分析,只需要调用一次大模型,最终结果相对于方案一结果上确实有所提高,但还是不准确(打算使用 hanpl 对工单进行预处理,仔细想了想可能效果还是不太理想)(本来之前准备用 spark 进行预处理的,但是部署和维护问难,引入成本太高)
想请教各位大佬,对于模型调用这方面和提高准确度这方面有什么建议没?真是技穷啦
算力现阶段是没有提高的打算的