目前市面上部分厂商提供了免费的 AI 模型接口(比如 Grok 、Gemini 等),通常免费提供的 API 接口均有严格的速率限制。于是我写了一个 AI 大模型的负载均衡调度器 AILoad 来改善此问题,后端可配置多个大模型的 API 接口,随机轮询后端多个大模型接口,并提供统一的 OpenAI 兼容格式调用,从而缓解并发限制。
version: '3'
services:
aiload:
container_name: aiload
volumes:
- '/opt/aiload/data:/opt/aiload/data'
restart: always
ports:
- '2081:2081'
image: 'helloz/aiload'
通过轮询的方法虽然缓解了并发限制的焦虑,后端虽然使用了 IP 亲和性算法,但是如果连续对话的场景超过 IP 缓存有效期后可能会分配到另外的模型上面,导致长对话中可能存在模型跳跃的问题。不知道各位大佬可有更好的解决方案。
此项目仅供学习和测试用途,请勿滥用!!!
更多说明可参考开源项目地址: https://github.com/helloxz/aiload
![]() |
1
G2bN4dbX9J3ncp0r 4 天前 ![]() |
![]() |
2
xiaoz OP @lidashuang #1 ,感谢分享,这个看起来功能很丰富,我这个目前比较单一。
|