上周在做一个视频配音的时候,遇到了一个让我抓狂的问题: 我用的那个TTS工具,每次都要把整段文字输入完,等它处理个十几秒,才能听到效果。改一个字,又要重新等。来回折腾了一下午,我的耐心彻底耗尽了。 然后我就想,有没有那种边打字边出声的工具? 还真让我找到了——VibeVoice。 说白了就是一个字:快。 从你输入文字到听到声音,大概300毫秒。什么概念?基本上就是你打完一句话,声音就跟着出来了。 而且它支持流式输入,意思是你不用等整段话写完,它会一边接收你的文字,一边生成语音。这对于需要实时配音的场景来说,简直是刚需。 1. 体积小,跑得动 0.5B的参数量,在Mac上跑起来完全没压力。不像有些模型动不动就几个G,电脑风扇呼呼转。 2. 支持长文本 之前用过一些TTS工具,长一点的文章就会卡顿或者断句奇怪。这个在长文本生成上表现还挺稳的。 3. 多语言能用 虽然主要是为英语设计的,但德语、法语、日语、韩语这些也能用。我试了下日语,效果比我预期的要好。 这点对我来说挺重要的。 有些在线TTS服务,你不知道你的文字会不会被存下来。而VibeVoice可以完全在本地跑,所有数据都在你自己电脑上处理。 如果你经常处理一些敏感内容,或者单纯不想让自己的文字被上传到服务器,本地运行是个更安心的选择。 我已经把它打包成了Mac一键启动版,下载下来就能用,不用折腾环境配置。 注意:需要Mac M系列芯片 安装步骤: 就这么简单。 📥 下载地址:https://aifun.fans/538 如果你也在找一个响应快、能本地运行的TTS工具,可以试试看。 有什么使用上的问题,评论区聊。发现一个文字转语音工具,终于不用等了

它解决了什么问题?
几个我觉得实用的点
本地运行,数据不出门
怎么用?




