开发了个本地实时字幕 (Whisper + LLM api ) 软件，开源

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 266 天前的主题，其中的信息可能已经有所发展或是发生改变。

使用 Flutter + Rust (candle 推理框架)

目前仅支持 Windows 端，建议使用 Nvidia 显卡配合 cuda 加速。实时字幕对延迟要求比较高，建议使用 ollama 、vllm 、llm studio 等本地 llm api ，云端若延迟比较低也可以考虑（比较费钱）。

目前仅在 RTX4090 上测试 large-v3_q4k 模型，12 秒的语音数据基本在 1 秒内处理完毕。配合 14b 模型，显存占用大约是 16.3 GB ，低于此显存的建议选择更小的 llm 模型。

2 条回复 • 2025-03-17 10:52:10 +08:00

hoseynwn

264 天前

你好,我也想实现识别所有电脑播放的语音到文字.请问我运行后还需要配置什么吗?whisper 的模型下载了 largev3q4k 的了,保存设置后提示 wait for whisper 和 not notconfig llm.

xkeyC

264 天前

@hoseynwn 见首页 README 里的常见问题