阿里巴巴推出端到端全模态大模型Qwen2.5-Omni-7B,支持文本、图像、音频、视频的实时交互与流式响应,以7B参数规模实现多模态任务性能超越谷歌Gemini-1.5-Pro等大模型。其首创的Thinker-Talker双核架构和TMRoPE位置编码技术,显著提升音视频同步与生成自然度,语音生成评分达4.51(与人类持平)。模型已开源,支持手机部署,应用于视障导航、智能客服等场景
联系编辑
微信二维码
微信公众账号
微信扫一扫加关注