3月4日,谷歌更新Gemini 3.1系列,推出新模型 Gemini 3.1 Flash-Lite。官方将其定位为面向大规模智能应用和高容量开发任务的轻量模型,并称其为当前Gemini 3系列中速度最快、性价比最高的一款。
在基准测试中,Flash-Lite表现较为突出。根据Arena.ai排行榜数据,该模型取得 1432 Elo 分数;在多个学术评测中,其成绩包括 GPQA Diamond 86.9%、MMMU Pro 76.8%,并超过此前发布的 Gemini 2.5 Flash 等部分前代模型。
价格成为这次更新的重要卖点。谷歌公布的定价为 每百万输入tokens 0.25美元、每百万输出tokens 1.50美元。按当日汇率粗略折算,输入成本不足 1.8元人民币。在Artificial Analysis的测试中,该模型首Token响应时间提升约 2.5倍,输出速度提升 45%,同时保持与2.5 Flash相近甚至更高的质量。
同一时间窗口,OpenAI发布 GPT-5.3 Instant。与Gemini Flash-Lite强调基准成绩不同,OpenAI这次更新的重点是用户交互体验。
OpenAI公布的系统卡片显示,在医学、法律和金融等高风险领域评估中,联网条件下幻觉下降26.8%;在用户反馈评估中,联网条件下幻觉下降22.5%。公司同时减少模型回答时的冗长安全提示,使对话更加直接。
在实时信息处理方面,新模型也进行了优化。官方页面示例展示,在回答体育交易新闻时,模型能够给出 凯尔·塔克与洛杉矶道奇4年2.4亿美元合同 的信息,并结合联盟背景进行说明,而不仅仅列出网页链接。
创意写作能力也是此次更新的一部分。OpenAI在测试案例中展示,新模型生成文本时更倾向使用具体细节,而非抽象情绪表达,通过场景描写提升文本表现力。
从发布节奏来看,两家公司几乎在同一天推出新模型,但侧重点明显不同。Gemini 3.1 Flash-Lite主打低成本、高速度与基准成绩,更面向开发者的大规模应用场景;GPT-5.3 Instant则将重点放在对话体验、准确性与文本表现上。
目前,Gemini 3.1 Flash-Lite已在Google AI Studio等开发者平台开放使用;GPT-5.3 Instant则在ChatGPT网页端和移动端上线,同时通过API gpt-5.3-chat-latest 提供调用。
随着Gemini和OpenAI在同一时间窗口更新模型,大模型竞争正在从单纯的性能跑分,逐渐扩展到价格、速度与用户体验等多个维度。
B.News科技记者:Vivian