Gemini 2.0正式发布，原生多模态与百万级上下文成核心卖点

Google正式推出了Gemini 2.0系列模型，涵盖Ultra、Pro和Nano三个版本。Gemini 2.0的主要特点是“原生多模态”——从训练开始就将文本、图像、音频和视频进行统一建模，而不是在后期进行拼接。Ultra版本支持200万token的上下文窗口，能够一次性处理90分钟的视频或超过100万字的文档。Google称其为“当前功能最全面的AI模型”。

原生多模态，视频理解能力领先

相比ChatGPT和Claude需要将视频抽帧为图片再处理，Gemini 2.0可以直接理解视频中的时序信息、动作变化和音频内容。例如，上传一段篮球比赛集锦，用户可以询问“第三分钟是谁投进了三分球”“教练在暂停时说了什么战术”。模型能准确回答并定位到具体时间点。在MMMU（多模态多任务理解）基准测试中，Gemini 2.0 Ultra得分达到78.5%，超过GPT-4V的74.2%和Claude 3 Opus的72.8%。

Gemini 2.0还支持“交叉模态推理”。用户上传一张手绘地图和一段描述音频，模型可以将两者结合生成导航路线。这种能力在教育、设计、AR等领域有广泛应用前景。Google将Gemini 2.0深度集成到旗下Workspace套件（Gmail、Docs、Slides），用户可以在办公软件中直接调用模型进行多模态创作。

200万token上下文，企业级应用落地加速

Gemini 2.0 Ultra的200万token上下文窗口是目前商用模型中最大的。用户可以将一整本《三体》三部曲（约90万字）一次性上传，然后与模型讨论其中的任何细节。实际测试中，模型能够准确回忆早期章节中的伏笔，并关联后续发展。相比之下，ChatGPT的128k和Claude的200k在处理超长文本时会出现信息衰减。

企业级应用方面，法律、金融、科研机构对长上下文需求强烈。某律师事务所使用Gemini 2.0 Ultra分析一份800页的合同，用时3分钟即找出其中12处潜在风险和矛盾条款，而人类律师需要一周时间。Google推出按需付费的API，价格与GPT-4 Turbo持平，但针对超长文本提供折扣。DeepSeek目前暂无对标的长上下文模型。

Gemini 2.0的发布重新激发了多模态大模型之间的竞争。凭借原生多模态和超长上下文，它在视频分析和超长文档处理等特定场景中建立了明显的优势。未来，Google是否能够将这种技术优势转化为市场份额，仍需观察ChatGPT和Claude的应对策略。

相关推荐