有兄弟做过 AI Translator 没有？用什么 LLM 和框架，效果怎么样？谢谢了！

9 replies • 2025-06-10 20:58:48 +08:00

1

wyntalgeer

Jun 10, 2025

16B 以下的小模型都行

2

ChatGOP

OP

Jun 10, 2025

@wyntalgeer 可以实时翻译吗？可以 text->voice 以及 voice->text 翻译吗？

3

wyntalgeer

Jun 10, 2025

@ChatGOP Text-To-Text 没有问题。你说的 text->voice 是 TTS 看一下酒馆，voice->text 是 STT 我不了解是否有现成的方案
TTS 和 STT 如果做产品，那都是要自建的

4

Ta0Ta0Ta0

Jun 10, 2025

看啥场景，在中英文翻译上，NMT 足够了，上 LLM 有点奢侈。

5

ChatGOP

OP

Jun 10, 2025

@Ta0Ta0Ta0 一般文件翻译 LLM 和 NMT 哪个好些？ NMT 可以做到实时吗？

6

conhost

Jun 10, 2025

@ChatGOP text->voice 以及 voice->text 翻译目前还没有现成的方案，还处于研究阶段，如果你不介意质量也可以用。现有的这些翻译是通过文本翻译前面或后面加 TTS 或者 ASR 实现。
另外通用领域 NMT 与 LLM 的效果是持平甚至不如的，某些特定领域可能 NMT 的效果会好一点。另外不太明白你这个实时指的是什么？

7

ChatGOP

OP

Jun 10, 2025

@conhost 看到 Google TTS 和 Google STT 都有，可能精度不高。实时指的是比如 Chatbot 里面打一段文字，立即就翻译出来了。有必要从 BERT 转换成 GPT 吗？

8

conhost

Jun 10, 2025

@ChatGOP TTS 和 STT 技术是现成的，就是工程构建的过程。另外你说的实时的话，不进行特定优化的话，NMT 的翻译一句话的时延大概在 500ms ，LLM 采用的是相同的解码方案，解码时间也差不多，但是 LLM 模型更大，计算更耗时。但是现在硬件设备针对 LLM 也有一定的针对性的优化，所以基本上是能保证的。

9

pike0002

Jun 10, 2025

用 Google Gemini 就可以吧，1.5 Flash 都是免费的（不是特别长的话，特别长可以截断分批处理），2.0 也不是很贵。如果要转 voice ，可能就是先用 Gemini 翻完再用 TTS （知识比较有机器感）?

我使用 Gemini 比较多，觉得效果比较好。

有兄弟做过 AI Translator 没有？用什么 LLM 和框架， 效果怎么样？谢谢了！

有兄弟做过 AI Translator 没有？用什么 LLM 和框架，效果怎么样？谢谢了！