Moear 最近的时间轴更新
Moear

Moear

V2EX 第 611813 号会员,加入于 2023-01-31 15:58:21 +08:00
今日活跃度排名 4068
Moear 最近回复了
@MindMindMax 苹果大带宽的内存跑 ai 啥的还是挺香的😂
@MindMindMax 我自己的显卡是 4070m(笔记本 当做 4060ti 8gb 版本就行了) rtf(Real-Time Factor ,实时因子)大致在 0.8~1.6(越低越好 说明推理数值越快 rtf 是 1 的话就说明显卡花 1s 的算力可以推理出 1s 的音频来) 纯靠 cpu 的话我用 q1hy(13900hk es)的 rtf 大概是 10,30s 时间能推理出 3s 的音频来
@Xhack 可以自行找一段 Moss 的 3s 到 10s 的无底噪的音频截取下来,来源可以是在 b 站搜一下[ [流浪地球①] MOSS/550W 语录/语音集 (自存)] 作为参考音频推理使用 现在的 tts 模型基本都支持了这种无训练方式复刻音色的功能了
@Frankcox 官方的暂时没有😂他只给了一个训练的 train.py 脚本,就是得自己改代码了
@Bantes 仁者见仁智者见智 可能是你对 tts 不感兴趣吧
@Frankcox 不知道 建议问问别人 gptsovits 没咋用过
@noming 零样本复刻模式/修复模式下必须要填参考文本+参考音频(参考文本一定得是参考音频的完整文字部分) 指令模式/精细控制下必须要填参考音频
@noming 不用找额外的示例文件 只需要使用指令模式 然后在后面的指令文本框里面输入使用方言(四川话 粤语 东北话之类的)就能输出方言了
@root71370 可以考虑一下[FunASR]( https://github.com/modelscope/FunASR) 里面带了很多 asr 模型可以直接导入使用,正好昨天新出了一个 FunASR nano 模型来着 做中文识别很不错,可惜暂时还不支持时间戳功能
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   970 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 15ms · UTC 22:41 · PVG 06:41 · LAX 14:41 · JFK 17:41
♥ Do have faith in what you're doing.