会员专属,加入会员后,可免费下载!本站资源仅支持搭载Apple Silicon Mac M1/M2/M3 GPU加速芯片。

开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!

 

最近AI圈真是热闹非凡,继Meta发布Llama 3之后,各种开源大模型也是层出不穷。这不,法国一个非盈利AI研究实验室Kyutai,又搞了个大新闻!

他们开源了一个叫Moshi的实时原生多模态基础模型,这玩意儿厉害了,它能同时听、说、还能给出回应,就像跟真人聊天一样自然流畅。更牛的是,它还能理解和表达情感,甚至可以用不同的口音说话!

是不是感觉有点不可思议?别急,我这就带你好好了解一下这个Moshi。

Moshi:实时语音对话的文本语音模型

Kyutai 不仅开源了 Moshi,还发布了详细的技术报告,里面介绍了 Moshi 的一些实现细节。简单来说,Moshi 采用了多流架构,能够同时处理你和系统的语音输入,然后生成相应的语音输出。

更重要的是,Moshi 的延迟非常低!理论上只有160毫秒,实际也才200毫秒,这比我们平时自然对话中动辄几秒的延迟快多了!这意味着,你可以和 Moshi 进行几乎无缝的语音交流,体验感绝对一流。

Moshi 的强大功能

除了低延迟之外,Moshi 还有一些其他强大的功能:

  • **多模态处理:**Moshi 能够同时处理语音和文本信息,这意味着你可以用语音或者文字和它交流,它都能理解。
  • **复杂对话动态:**Moshi 支持复杂的对话动态,比如同时说话和打断,这更接近于我们真实的对话场景。
  • **实时流式推理:**Moshi 支持实时流式推理,也就是说,它能够一边生成语音,一边进行语音识别和文本到语音的转换,效率非常高。

Mac用户专属福利:一键安装包

为了方便大家体验 Moshi 的强大功能,Kyutai 还贴心地提供了一个独立的启动包,Mac 用户可以直接点击运行,不需要配置复杂的 Python 环境。

划重点:目前只支持搭载 Mac M1/2/3 系列芯片的设备哦!

下载和安装步骤

  1. 前往下载页面:https://aifun.fans/362/,点击页面右侧的下载按钮进行下载。
  2. 下载完成后,你会得到一个 DMG 镜像文件,双击打开,然后将 app 文件拖拽到 Applications 文件夹中就安装完成了。
  3. 首次启动时,不要直接在启动台打开,需要在应用程序文件夹右键打开,具体操作如下图所示。这是为了避免一些 Mac 系统的安全限制,具体原因可以参考Mac 安装软件常见问题
  1. 软件会自动在默认浏览器打开操作界面,然后你就可以在浏览器中开始使用 Moshi 了!

未来展望

Moshi 的开源,无疑为实时多模态 AI 聊天机器人领域注入了新的活力。相信在不久的将来,我们会看到更多基于 Moshi 的应用和创新出现。

如果你对 AI 技术感兴趣,或者想体验一下与 AI 进行实时语音对话的乐趣,不妨试试 Moshi 吧!相信它会给你带来不一样的惊喜!

好了,以上就是今天的分享,如果你觉得不错,记得点赞、在看、转发三连哦!想第一时间收到我的推送,也可以给我点个星标⭐,谢谢你的支持!

本站分享的AI软件只提供Apple Silicon M系列芯片,Mac系列电脑只要是M系列芯片都可以运行

由于商品的特殊性,本站不支持退款,所以在开通会员之前,请确认你的需求。如果不放心,可以开通体验会员体验,满意再升级其他会员套餐。