搞了 4 张 4090d 私有化部署一套环境给公司一些团队用,目前遇到几个问题请教一下(当然不排除个人能力问题,没有做部署/参数上的优化)
模型管理问题,模型涉及语言、嵌入、重排序等类型,想统一管理,是否有比较好的方案?现在用的是 xinference.
从 ollama 切换到 xinference 原因是 ollama 不支持 rerank 模型,但是使用中发现,同一个 llm 模型,ollama 上的模型比 xinference 响应更快,是因为参数优化问题?
1
YsHaNg 3 天前
用 open webui 接入 ollama 可以使用 rerank 模型
|
![]() |
2
wyntalgeer 3 天前
vllm
|
![]() |
3
coefuqin 2 天前
定制化的需求,没有完全符合个性化需求的框架轮子,只有自己 diy 。
|
4
Legman OP |