Gemini 2.0正式发布,原生多模态与百万级上下文成核心卖点

发布于:2026-05-11 分类:新闻动态

Google正式推出了Gemini 2.0系列模型,涵盖Ultra、Pro和Nano三个版本。Gemini 2.0的主要特点是“原生多模态”——从训练开始就将文本、图像、音频和视频进行统一建模,而不是在后期进行拼接。Ultra版本支持200万token的上下文窗口,能够一次性处理90分钟的视频或超过100万字的文档。Google称其为“当前功能最全面的AI模型”。

原生多模态,视频理解能力领先

相比ChatGPT和Claude需要将视频抽帧为图片再处理,Gemini 2.0可以直接理解视频中的时序信息、动作变化和音频内容。例如,上传一段篮球比赛集锦,用户可以询问“第三分钟是谁投进了三分球”“教练在暂停时说了什么战术”。模型能准确回答并定位到具体时间点。在MMMU(多模态多任务理解)基准测试中,Gemini 2.0 Ultra得分达到78.5%,超过GPT-4V的74.2%和Claude 3 Opus的72.8%。

Gemini 2.0还支持“交叉模态推理”。用户上传一张手绘地图和一段描述音频,模型可以将两者结合生成导航路线。这种能力在教育、设计、AR等领域有广泛应用前景。Google将Gemini 2.0深度集成到旗下Workspace套件(Gmail、Docs、Slides),用户可以在办公软件中直接调用模型进行多模态创作。

200万token上下文,企业级应用落地加速

Gemini 2.0 Ultra的200万token上下文窗口是目前商用模型中最大的。用户可以将一整本《三体》三部曲(约90万字)一次性上传,然后与模型讨论其中的任何细节。实际测试中,模型能够准确回忆早期章节中的伏笔,并关联后续发展。相比之下,ChatGPT的128k和Claude的200k在处理超长文本时会出现信息衰减。

企业级应用方面,法律、金融、科研机构对长上下文需求强烈。某律师事务所使用Gemini 2.0 Ultra分析一份800页的合同,用时3分钟即找出其中12处潜在风险和矛盾条款,而人类律师需要一周时间。Google推出按需付费的API,价格与GPT-4 Turbo持平,但针对超长文本提供折扣。DeepSeek目前暂无对标的长上下文模型。

Gemini 2.0的发布重新激发了多模态大模型之间的竞争。凭借原生多模态和超长上下文,它在视频分析和超长文档处理等特定场景中建立了明显的优势。未来,Google是否能够将这种技术优势转化为市场份额,仍需观察ChatGPT和Claude的应对策略。