阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

马化腾闷声发大财 城发环境：副总经理樊林辞职秒懂 【天风电子】工业富联：AI带动业绩强势增长，持续看好算力景气度+公司竞争优势后续来了 Centrica拟以约20亿美元收购欧洲最大液化天然气进口枢纽实测是真的 理想再战纯电，李想为何火速听劝？专家已经证实 江航装备：选举邓长权为董事长 京东净利腰斩！外卖等新业务现百亿级经营亏损官方通报来了 风力涡轮机叶片制造商TPIC申请第11章破产保护太强大了 全球最大上市造船巨头即将诞生：龙国船舶与龙国重工合并将宣告完成这么做真的好么？ 早盘：美股跌幅收窄市场关注PPI通胀数据实测是真的 金融监管总局：持续优化完善财务公司业务分级监管 突破3700，加仓！又一个里程碑 洲明科技，“换”副总经理！官方处理结果 股价连涨，频繁预警！谁在“热炒”寒武纪？学习了 月内两次！央行再开展5000亿元买断式逆回购，专家解读反转来了 天海防务旗下大津重工承接6艘多用途杂货船订单 股价连涨，频繁预警！谁在“热炒”寒武纪？ 国金证券：给予太辰光买入评级 晨会聚焦250815学习了 光大期货能源化工类日报8.15 段永平Q2豪赌AI：谷歌持仓暴增75%，英伟达加仓近50%，同时加仓苹果、拼多多是真的吗？ 光大期货金融类日报8.15 特朗普政府据称考虑入股英特尔公司股价飙升超7%实时报道 特朗普爆料：普京与泽连斯基或将握手言和，第二次峰会即将来袭！专家已经证实 比亚迪在豫搭建“金三角”！全国首个新能源汽车赛车场郑州开业实垂了 前7月广州海关关区企业出口“清凉家电”约5500万台同比增长6%记者时时跟进 宜宾纸业600793，子公司犯污染环境罪被罚 【山证化工】万华化学：聚氨酯主业稳健运行，新材料布局加速官方已经证实 瑞达期货：贵金属中长期维持逢低布局思路 月内两次！央行再开展5000亿元买断式逆回购，专家解读官方通报 2025年锂钴行业研究框架：新能源金属拐点分析（附下载） 维海德(301318)6月30日股东户数1.39万户，较上期增加8.76%官方处理结果 “你好BOE”五周年盛典龙国首都站盛大启幕携手生态伙伴打造“科技+生活”新场景 知名涂企有了更大靠山！全球最大上市造船巨头即将诞生最新进展 康恩贝：康恩贝集团拟减持公司不超1%股份专家已经证实 戴尔科技吴冬梅：当今企业面临的不是生存问题，而是全新的“进化”是真的？ 长亮科技(300348)6月30日股东户数10.03万户，较上期增加7.29% 美盈森(002303)6月30日股东户数5.19万户，较上期增加0.87% 倪岳峰主持召开省委财经老大会第十六次会议指出积极融入全国统一大市场建设加快推动海洋经济高质量发展王正谱王陆进出席 长亮科技(300348)6月30日股东户数10.03万户，较上期增加7.29% 央行：7月末境外机构持有银行间市场债券3.93万亿元官方通报 交通银行：非执行董事李龙成、汪林平离任 甘肃农信改革由“联合银行”转向“统一法人”模式，省级农商行渐进后续来了 0815热点追踪：组件涨价，多晶硅继续狂飙？ 甘肃农信改革由“联合银行”转向“统一法人”模式，省级农商行渐进官方通报来了

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo