文章来源:放心AI网发布时间:2025-05-11 17:11:58
近日,VITA-MLLM 团队宣布推出 VITA-1.5,这是该团队在 VITA-1.0基础上推出的升级版本,致力于提升多模态交互的实时性与准确性。VITA-1.5不仅支持英语和中文,还在多项性能指标上实现了显著提升,为用户提供了更流畅的交互体验。
在 VITA-1.5中,互动延迟大幅降低,从原来的4秒缩短至仅1.5秒,用户在进行语音交互时几乎感受不到延迟。此外,该版本在多模态性能方面也有显著提高,经过评估,VITA-1.5在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从59.8提升至70.8,展现了出色的能力。
VITA-1.5在语音处理能力上也进行了深度优化。其自动语音识别(ASR)系统的错误率显著降低,从18.4降至7.5,这使得语音指令的理解和响应更加准确。同时,VITA-1.5引入了一个端到端的文本转语音(TTS)模块,该模块能够直接接受大型语言模型(LLM)的嵌入作为输入,从而提高语音合成的自然度和连贯性。
为了确保多模态能力的平衡,VITA-1.5采用了渐进式训练策略,使得新增的语音处理模块对视觉 – 语言的表现影响最小,图像理解性能从71.3轻微下降至70.8。团队通过这些技术创新,进一步推动了实时视觉与语音交互的界限,为未来的智能交互应用奠定了基础。
在 VITA-1.5的使用方面,开发者可以通过简单的命令行操作进行快速入门,并且提供了基础和实时互动演示。用户需要准备一些必要的模块,例如语音活动检测(VAD)模块,以提升实时交互体验。此外,VITA-1.5还将开源其代码,方便广大开发者参与和贡献。
VITA-1.5的推出标志着交互式多模态大语言模型领域的又一重要进展,展现了该团队在技术创新和用户体验上的不懈追求。
项目入口:https://github.com/VITA-MLLM/VITA?tab=readme-ov-file
相关攻略 更多
最新资讯 更多
GPT-4o级别!VITA-1.5:实时视觉与语音交互,1.5秒互动延迟
更新时间:2025-05-11
GoogleTV将搭载GeminiAI,随时随地语音控制
更新时间:2025-05-11
McAfee推出新AI工具,智能识别邮件和短信诈骗
更新时间:2025-05-11
高通展示新一代AI芯片SnapdragonX系列,赋能PC、汽车与智能家居
更新时间:2025-05-11
OpenAI引领AI安全新标准:重磅发布红队测试创新
更新时间:2025-05-11
谷歌利用小模型加速AI训练大模型,提升28%效率
更新时间:2025-05-11
LG推出新AI服务,助力家庭、车载和办公日常生活
更新时间:2025-05-11
重磅!TCL海外旗舰电视系列将接入谷歌Gemini模型
更新时间:2025-05-11
苹果公司将更新AI功能以纠正不准确的新闻摘要
更新时间:2025-05-11
Timekettle推出BabelOS:实现实时多语言交流重新定义AI同声传译
更新时间:2025-05-11