文章来源:放心AI网发布时间:2025-06-04 14:54:41
美国初创公司 Useful Sensors 推出了一款名为 Moonshine 的开源语音识别模型。Moonshine 的设计旨在更高效地处理音频数据,相比于 OpenAI 的 Whisper,它在计算资源的使用上更为经济,处理速度快五倍。这一新模型专为在资源有限的硬件上实现实时应用而打造,具有灵活的架构。
与 Whisper 将音频分为固定的30秒片段处理不同,Moonshine 根据实际音频长度调整处理时间。这使得它在处理较短音频片段时表现出色,减少了由于零填充而产生的处理开销。
Moonshine 有两个版本:小型的 Tiny 版本参数量为2710万,大型的 Base 版本则为6150万。而相比之下,OpenAI 的同类模型参数量更大,Whisper tiny.en 为3780万,base.en 为7260万。
测试结果显示,Moonshine 的 Tiny 模型在准确性上与 Whisper 相当,同时消耗的计算资源更少。在各种音频水平和背景噪声的情况下,Moonshine 的两个版本在词错误率(WER)上都低于 Whisper,显示出较强的性能。
研究团队指出,Moonshine 在处理极短音频片(少于一秒)时仍有提升空间。这些短音频在训练数据中占比较小,增加这类音频片段的训练可能会提升模型的表现。
此外,Moonshine 的离线能力开辟了新的应用场景,之前由于硬件限制而无法实现的应用现在变得可行。与需要较高功耗的 Whisper 不同,Moonshine 适合在智能手机和小型设备(如树莓派)上运行。Useful Sensors 正在利用 Moonshine 开发其英西翻译器 Torre。
Moonshine 的代码已经在 GitHub 上发布,用户需要注意,像 Whisper 这样的 AI 转录系统可能会出现错误。一些研究表明,Whisper 在生成内容时有1.4% 的概率会出现虚假信息,特别是对于有语言障碍的人群,错误率更高。
项目入口:https://github.com/usefulsensors/moonshine
相关攻略 更多
最新资讯 更多
新开源语音识别模型Moonshine:速度比OpenAIWhisper快五倍
更新时间:2025-06-04
昆仑万维天工AI正式发布最新版本「AI高级搜索」功能
更新时间:2025-06-04
AI编程助手:程序员的福音还是安全陷阱?斯坦福研究揭秘惊人真相!
更新时间:2025-06-04
Meta宣布将Llama模型提供给美国国防与安全机构
更新时间:2025-06-04
ClaudeAI模型系列重大更新:Claude3.5Haiku上线,AI性能大幅提升
更新时间:2025-06-04
对冲基金巨头Coatue计划筹集10亿美元,押注人工智能领域
更新时间:2025-06-04
OpenAI积极与监管机构洽谈,计划转型为营利公司
更新时间:2025-06-04
亚马逊PrimeVideo推AI神器,从此再也不怕错过剧情!看美剧狂人沸腾了
更新时间:2025-06-04
AI心电图模型AIRE:可精确预测心脏病风险
更新时间:2025-06-04
全球首家使用生成式AI服务的餐厅开业:员工培训、菜品搭配都能做
更新时间:2025-06-04