V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xkeyC
V2EX  ›  Local LLM

开发了个本地实时字幕 (Whisper + LLM api ) 软件,开源

  •  
  •   xkeyC · 1 天前 · 299 次点击

    仓库地址: https://github.com/xkeyC/fl_caption

    下载地址: https://github.com/xkeyC/fl_caption/releases

    使用 Flutter + Rust (candle 推理框架)

    4b0c99577ac9e13589d47ed29b37caeb.png

    目前仅支持 Windows 端,建议使用 Nvidia 显卡配合 cuda 加速。 实时字幕对延迟要求比较高,建议使用 ollama 、vllm 、llm studio 等本地 llm api ,云端若延迟比较低也可以考虑(比较费钱)。

    目前仅在 RTX4090 上测试 large-v3_q4k 模型,12 秒的语音数据 基本在 1 秒内处理完毕。配合 14b 模型,显存占用大约是 16.3 GB ,低于此显存的建议选择更小的 llm 模型。

    1 条回复    2025-03-17 00:42:33 +08:00
    hoseynwn
        1
    hoseynwn  
       2 小时 27 分钟前
    你好,我也想实现识别所有电脑播放的语音到文字.请问我运行后还需要配置什么吗?whisper 的模型下载了 largev3q4k 的了,保存设置后提示 wait for whisper 和 not notconfig llm.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   939 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:10 · PVG 03:10 · LAX 12:10 · JFK 15:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.