V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
chengz
0.04D
V2EX  ›  程序员

低成本 tts 方案

  •  
  •   chengz · 28 天前 · 4377 次点击
    自己折腾个小工具, 需要克隆音色生成语音 tts(text-to-speech),主要要求:
    1. 推理时间尽量实时(100 字符/10s)
    2. 多音色支持
    目前直接使用火山或者腾讯云的大模型,单个音色费用太贵了(>50),自己搭建 GPU 服务器也很贵(16G T4 约 1000/月),实时性也不太好
    有没有比较低成本的方案推荐?
    34 条回复    2025-08-30 14:37:25 +08:00
    knva
        1
    knva  
       28 天前
    基本没有。
    letking
        2
    letking  
       28 天前
    买个显卡自己部署模型,加内网穿透
    AoEiuV020JP
        3
    AoEiuV020JP  
       28 天前
    你到底是要克隆音色还是要 tts ?
    tts 最低成本的应该就是直接调用系统的 tts ,
    克隆音色需要 AI 算力,就没有便宜的,一个小工具搞什么克隆音色,
    8820670
        4
    8820670  
       28 天前
    #3 说的对 调用系统 TTS 是最方便的。
    前段时间才做过: https://www.v2ex.com/t/1153662#reply0
    不过移动端支持其实挺一般的,具体得自己试试
    8820670
        5
    8820670  
       28 天前
    @8820670 另外就是 edge 浏览器有一套在线的 tts 有不少 github 开源的库可以直接调用。但是这种不一定能非常长期的使用。
    搜 edge_tts
    yulon
        6
    yulon  
       28 天前
    我是 Mac mini 4 当副机,跑 GPT-SoVITS ,也就 3G 显存左右吧,看你要不要并行,并行还会多一点
    chengz
        7
    chengz  
    OP
       28 天前
    @AoEiuV020JP @8820670 我没说清楚,是自定义音色的 tts, 单纯 tts 是很便宜
    chengz
        8
    chengz  
    OP
       28 天前
    @AoEiuV020JP 自定义音色的 tts, 单纯 tts 是很便宜
    Leon6868
        9
    Leon6868  
       28 天前   ❤️ 1
    fish speech 、cosyvioce ( vllm ),本地部署,3060
    glouhao
        10
    glouhao  
       28 天前 via Android
    我的显卡是 A770 16g 然后调整不好一直是 cpu
    zenghx
        11
    zenghx  
       28 天前 via iPhone
    [VibeVoice 实现 90 分钟、多角色播客生成,拓展语音合成新边界]( https://www.microsoft.com/en-us/research/articles/vibevoice/) 这个怎么样
    zenghx
        12
    zenghx  
       28 天前 via iPhone
    @zenghx 没看到自定义的需求,打扰了😂
    aishellphy
        13
    aishellphy  
       28 天前
    用 f5-tts ,在 windows 电脑上跑,自带加速引擎,速度特别香
    yulon
        14
    yulon  
       28 天前
    @zenghx VibeVoice 听说显存要占十多 G ,没有音色,当普通 TTS 用,成本也太高了,适合公司用吧
    abersheeran
        15
    abersheeran  
       28 天前
    自定义音色可以用 fish.audio
    Latin
        16
    Latin  
       28 天前
    f5-tts 之前实测过太慢了
    jackOff
        17
    jackOff  
       28 天前
    买个有 4G 显存 3050 显卡的二手笔记本,基本上可以稳定高效跑 GPT-SoVITS
    UnluckyNinja
        18
    UnluckyNinja  
       28 天前
    https://github.com/RVC-Boss/GPT-SoVITS
    https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
    TTS 用上面的,SVC 用下面的,没上手用过,只是有所耳闻
    realJamespond
        19
    realJamespond  
       28 天前
    配置最简单是 indextts,1066 batch2 能跑两章小说 batch3 一章,多音字直接拼音替换
    dzdh
        20
    dzdh  
       28 天前
    阿里音色克隆免费的吧.
    yianing
        21
    yianing  
       28 天前
    minimax 一个音色 10 块钱,合成声音的话 4 元/1w 汉字
    TQQQ
        22
    TQQQ  
       28 天前
    StyleTTS+Vocos ,开源的非自回归模型,可以直接部署在 cpu 服务器上,4090 上训练大概要一周左右。但是年头有点久了,效果比不上 cosyvoice/indextts 这些
    bigtear
        23
    bigtear  
       28 天前
    微调 Kokoro TTS 吧,满足你的需求,速度快,可自定义音色(微调音色 pt 文件)
    Huelse
        24
    Huelse  
       28 天前
    tcper
        25
    tcper  
       28 天前
    自己搭完就会发现还是云服务便宜
    looveh
        26
    looveh  
       28 天前
    怎么没有 index-tts
    looveh
        27
    looveh  
       28 天前
    @looveh RTX 3090 实测 120 字不到 20s
    pipi32167
        28
    pipi32167  
       28 天前
    同推荐 minimax ,效果可以的。价格也不贵。
    pipi32167
        29
    pipi32167  
       28 天前
    @bigtear 之前 Kokoro 放出来的中文一言难尽。。。不过能微调 Kokoro 的话确实又快又好。
    DefoliationM
        30
    DefoliationM  
       28 天前 via Android
    chrome 自带的不要钱,直接用 js 的 api 。
    bigtear
        31
    bigtear  
       28 天前
    @pipi32167 #29 你用 1.1 新版的,很不错了已经,达到了 edge tts 的水平
    cwcc
        32
    cwcc  
       28 天前
    我直接用 macOS 自带的个人声音生成自己的声音,也够用了。
    yulon
        33
    yulon  
       27 天前
    楼上那么多说 minimax ,早上试了下刚用几次就 504 了,没绷住
    RobinHuuu
        34
    RobinHuuu  
       27 天前 via iPhone
    试过手机 app/安卓端,可下载和使用离线模型,效果还行
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   906 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 22:23 · PVG 06:23 · LAX 15:23 · JFK 18:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.