友商(深圳)科技有限公司YORSHINE

欢迎CAE咨询  TEL:186-7552-9529



新闻动态

首页 >> 产品动态 >>行业新闻 >> 阿里开源全模态大模型Qwen2.5-Omni,多模态交互新时代来临
详细内容

阿里开源全模态大模型Qwen2.5-Omni,多模态交互新时代来临

时间:2025-03-28        阅读



3月27日凌晨,阿里巴巴旗下通义千问团队发布并开源首个端到端全模态大模型Qwen2.5-Omni-7B,在AI领域引发强烈关注。这款模型具备强大的跨模态处理能力,能够同时处理文本、图像、音频和视频等多种输入,实时生成文本与自然语音合成输出,为多模态交互带来了质的飞跃。


在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni成绩亮眼,全维度超越Google的Gemini-1.5-Pro等同类模型,刷新业界纪录。它可以像人类一样,以多感官方式认知世界并实时交互,甚至能通过音视频识别情绪,在面对复杂任务时,做出更智能、自然的反馈与决策。


Qwen2.5-Omni之所以能实现如此强大的功能,离不开其创新的架构设计。它采用了通义团队首创的Thinker-Talker双核架构。Thinker如同人类的“大脑”,负责处理和理解来自文本、音频、视频等多模态的输入信息,生成高层语义表征以及对应的文本内容;Talker则像是“嘴巴”,以流式的方式接收由Thinker实时输出的语义表征与文本,并流畅地合成离散语音tokens 。这一架构让语义理解与语音生成协同优化,大幅提升了推理速度与响应能力。


同时,通义团队还提出了一种新的位置编码算法TMRoPE(Time-aligned Multimodal RoPE)以及Position Embedding融合音视频技术。TMRoPE编码多模态输入的三维位置信息,通过将原始旋转嵌入分解为时间、高度和宽度三个部分,实现了音频与视频输入在时间维度上的精准同步,有效提升了模型对时序信息的处理能力。


值得一提的是,Qwen2.5-Omni虽然功能强大,但参数仅70亿,模型体量轻巧,这使得手机等终端智能硬件也能够轻松部署运行。目前,Qwen2.5-Omni已在魔搭社区和Hugging Face同步开源,开发者和企业可免费下载商用,这将极大地推动全模态大模型在产业上的广泛应用。


自2023年以来,阿里通义团队已陆续开发并开源200多款覆盖多参数的“全尺寸”大模型,涵盖文本、视觉、语音、文生图及视频模型等“全模态”领域。在海内外AI开源社区中,千问Qwen的衍生模型数量已突破10万,成为全球第一开源模型。此次Qwen2.5-Omni的发布,进一步巩固了阿里在大模型领域的领先地位,也为行业发展注入了新的活力。


随着Qwen2.5-Omni的发布与开源,我们有理由期待,在不久的将来,全模态大模型将在智能客服、教育、医疗、智能家居等更多领域得到广泛应用,为人们的生活和工作带来更多便利与创新体验,开启多模态交互的崭新时代。


最新评论
请先登录才能进行回复登录

         186-7552-9529
          深圳市龙华区和平路康乐大楼7号

Copyright @ 2018 . All rights reserved.

CAE仿真解决方案

网站导航

www.yorshine.net