🐶 Google 发布 Gemini 3 Flash 代理视觉功能,通过代码执行提升图像识别精度

Google 于 1 月 27 日推出 Gemini 3 Flash 的 Agentic Vision(代理视觉)功能。该技术将静态图像理解转变为主动调查过程,通过结合视觉推理与 Python 代码执行,使模型具备自主规划、缩放、裁剪及标注图像的能力,以获取更精准的视觉证据。测试显示,启用代码执行后,该模型在多数视觉基准测试中的表现提升了 5% 至 10%。目前,开发者可通过 Gemini API 接入该功能,Gemini 应用也已开始逐步推送。

Google

🍀在花频道 🍵茶馆聊天 📮投稿
来自频道: @zaihuapd
Loading comments...