"开源圈大地震！阿里突然放出『感官觉醒』AI：7B小模型吊打千亿参数巨头，我们还需要ChatGPT吗？

米塔之家 · 2025-03-28 13:51:44

阿里通义千问团队于3月27日凌晨开源 Qwen2.5-Omni-7B，这是全球首个支持 文本、图像、音频、视频全模态实时交互 的端到端大模型，标志着AI技术进入“多感官协同”新阶段。

核心亮点：

“大脑+发声器”双核架构
- Thinker模块：处理多模态输入，生成语义表征（如识别视频中的动作、语音的情绪）
- Talker模块：实时流式生成文本与语音响应，支持视频对话时同步输出表情和语调
- 两者协同实现 “看听说写”一体化，彻底打破传统AI需串联多个单模态模型的低效链路
7B小尺寸，手机可部署
仅70亿参数（对比闭源模型数千亿参数），支持手机端流畅运行。开发者实测：3分钟完成本地部署，语音生成效果达人类水平（测评分数4.51/5）
情绪识别与时间同步技术
首创 TMRoPE位置编码算法，精准对齐视频与音频时间戳，可识别用户表情沮丧、语调急促等情绪，并调整交互策略

我们第一时间测试了Qwen2.5-Omni的交互能力（体验地址：Qwen Chat）：

语音对话：
- 四种人声可选（2男2女），应答流畅度接近真人，成语接龙、菜谱推荐无压力
- 缺陷：未接入实时网络数据，询问天气时仅建议“查看天气预报”
视频交互：
- 准确识别物体颜色（如书本封面、衣服）、手势指令（识别“比心”动作）
- 伦理彩蛋：当测试者竖起中指时，系统直接挂断通话，展现“是非判断”能力

阿里此次开源 Apache 2.0协议，允许免费商用，已吸引 华为、vivo等手机厂商接入，未来或成智能终端标配

产业影响：

开发者评价：

“7B模型实现全模态，如同用瑞士军刀完成外科手术——成本降百倍，效果却更精准”

结语：
Qwen2.5-Omni-7B不仅是技术突破，更是一场“认知革命”——它让AI从“工具”进化成“感官延伸体”。正如测试者所言：

“当AI能看懂我的表情，听懂我的叹息，技术终于有了温度”

▶️ 立即体验

#阿里开源# #人工智能# #科技前沿#

引用来源：
阿里云公众号、新浪科技、量子位等官方技术文档及实测报告
机器之心、文宇谈AI等第三方评测

作者：像素 | 智沅

免责声明：本文不代表米塔之家立场，且不构成投资建议，请谨慎对待。

了解更多元宇宙知识，结识元宇宙人脉，扫码加入元宇宙行业生态社群。