这是一个创建于 89 天前的主题,其中的信息可能已经有所发展或是发生改变。
想寻找具有下列功能的 AI 模型:
- 接受声音波形(或傅立叶频谱瀑布图)作为输入;(波形输入)
- 文字输出;
- 能够以自然语言的方式表达对音乐的品鉴、赏析;(类比为就好像你用文生文模型品鉴古诗一样)
- hugging face 这样的平台有这类模型?关键字?类别? github 上有这样的 pre-trained 模型?
1 条回复 • 2025-06-21 14:44:56 +08:00
 |
|
1
Tamio 88 天前
接受声音文件的多模态都可以. 比如 gemini-2-flash 就支持
|