美貌与智慧并存的Gemini 3 PRO,震撼出场!


目录
- 前言
- 制作的交互游戏
- 搭建的实用工具
- 构建的windows系统
- 小结
之前反推图片和视频、识别AI内容创作的时候,Gemini 2.5 pro就向大家展示了它脱颖而出的实力——模态识别多、细节判断强、专业程度深、文笔人味儿浓。
现在Gemini 3 Pro在18日晚正式上线了。这一场“甄嬛回宫”,带着它强得离谱的跑分和众对手、众战友见面了。

几乎所有的指标,都是断层领先,除了软件工程能力比GPT-5.1和Claude Sonnet 4.5差一点。能力优秀到每项讲不完,这里就单拎2个出来讲。
第一行,把各种学科里最变态、最抽象的题合并在一块的Humanity’s Last Exam,Gemini 3 Pro未开工具使用37.5%,开了工具使用之后达45.8%!而Claude Sonnet 4.5是13.7%,GPT-5.1是26.5%。
第五行类似超难奥赛压轴题专场的MathArena Apex,Gemini 3 Pro得23.4分,而GPT 5.1只拿了1分,Claude Sonnet 4.5也仅得1.6分。
Gemini 3 Pro yyds,说具体一点,是它的前端设计yyds,后端能力相对其他龙头工具领先,但离用户预期还差一些距离。
话不多说,先上它的作品给大家瞧瞧。
(提示词在这个云文档:
https://lh41ozy6wa.feishu.cn/wiki/DmD4wSgmxijXXwkH6vqcMi0tnMf)
一、制作的交互游戏
交互游戏的效果是前端设计能力的典型体现,考验的是模型的逻辑构建与状态管理、创意与UI生成、用户体验与引导的能力。
比如这个领跑者游戏。
(原游戏界面)

(Gemini 3 Pro制作的游戏界面)

(GPT 5 Thinking制作的游戏界面)
我是通过上传视频文件,让Gemini 3 Pro 和GPT 5 Thinking(没有5.1权限,因此用5来对比)分别参照而生成的。
可以发现前者会仿照附件视频,且整体稳定性挺好,基本都能跑通。不过UI元素设计low了些,即便指明宝藏需要具象化,它也不会做得精美。
后者倒是恰好相反。UI元素设计精良,但不会参考附件视频制作画面,游戏整体运行还不稳定,运气好能丝滑玩耍,运气不好就只能干瞪眼。
两者都能用键盘按键控制游戏,但都不会自动为游戏加入音乐、音效。
再来一个,比如台球游戏。
(Gemini 3 Pro制作的游戏界面,此处录屏,所以模糊,但原版清晰)
看到Gemini 3 Pro,让人不禁怀疑,这真是一句话生成的效果吗?!这个完成度,是真叫人惊讶!双人对局功能实现了,台球走向很自然真实,这模拟真实世界的物理引擎吊炸天了!
GPT 5 Thinking 就是一张静态图,只有界面设计,没有功能运行。说好的游戏呢,结果就只送来了原型设计图。

(GPT 5 Thinking制作的游戏界面)
另外大家需要注意一点,就是“Gemini中文、英文提示词的效果不相上下”的特点同样适用于Gemini 3 Pro,不过GPT在编程方面,尤其是复杂的设计,还是用英文提示词效果更好。
二、搭建的实用工具
AI视频鉴别工具
这个工具主要考验的是模型的后端开发能力,具体考验模型的细粒度视觉感知、物理规律与时序连贯性、跨模态对齐能力、工具调用与代码执行,以及批判性推理与解释等逻辑层。
和测试交互游戏不一样的是,这里提示词越具体,工具的功能性和操作性都会更好。

(短版提示词:上为AI视频分析,下为实拍视频分析)

(长版提示词:上为AI视频分析,下为实拍视频分析)
短版提示词搭建的工具,没有视频删除键,重新传视频需关闭网站并重新开启。检测一顿乱分析,真实和AI生成都一样的分析内容和结果。
但长版的提示词搭建的工具是完全可用的,没有了上面的问题,设置项变得更多,视频尺寸和框能完全对应上。
在我看到Gemini生成的直接可用的AI视频鉴别工具时,心里冒出N个词,高效、大大省时、内耗解除、不麻烦人、商机等等。
鬼知道我被无批量处理的工具、四处求人、漫长的等待、人工一个个处理折磨了多久!
几年之前虽没接触AI视频,也不会有鉴别AI视频的需求,但类似鉴别的实用类工具,比如格式转换、修图、数据整理等,却可以现在由我自己借助AI搭建,不用求人给工具,不用到处留钱买工具,更不用双手死扛加班导致内耗,甚至可以给自己开辟出一条“做工具-卖工具赚钱”的路子。
文档格式转换器
现在算是直面AI遍地开花之前的心结了。
不过这次还是未彻底解决。Gemini 3 Pro和GPT 5 Thinking帮我留下了一半问题。

(Gemini 3 Pro制作的工具成效)
(GPT 5 Thinking的工具成效)
这个任务主要考验后端与系统架构能力,以及前端的考验交互和状态管理。
Gemini 3 Pro胜在流程都能跑通、颜值高,但可能因配置复杂、网址防护功能无法真正转换格式,具体表现如下:
1.除png、JPG、JEPG格式能互转外,图片其余格式都转换失败。
2.文档转换只能跑通流程,但没法真正转换。
3.下拉框选项多,但大部分都无法真正转换,不符合指令要求。
4.无法批量转换。
GPT 5 Thinking胜在功能实用性高,但流程不一定跑通,颜值低。具体表现如下:
1.下拉框出现的选项都能转换成功。图片能实现png、JPG、JEPG、webp互转,可以批量转换。文档中,word文档可以转3类,xlsx可转6类,pdf能转2类。
2.网址无法实现格式转换,放入链接根本不能选格式。
3.图片尺寸无法修改。
所以目前看来,光靠“90%的AI魔法,10%的个人努力”解决心结还是不太现实,根据目前测试结果解决剩下的难题要靠谱些~
三、构建的windows系统
不是我吹,Gemini 3 Pro这个功能是真的非常炸裂!
对于“系统”,我第一反应是“只是还原系统的界面,应用打不开,即便只涉及前端”。
没想到,Gemini 3 Pro火速打了我的脸。
(Gemini 3 Pro制作的系统)

(GPT 5 Thinking制作的系统)
它的windows系统界面,不仅可以打开桌面各个快捷方式,还能使用、运行前端类的应用,比如画图工具、代码编辑器。
尽管它涉及后端的应用无法使用,比如网页搜索,但相比GPT 5 Thinking界面啥也没有的结果,还是吊打。
我相信,最多再过几个月,Gemini 3 Pro连后端问题也给解决了。到时候,真的就是“人人都是应用开发工程师”!
四、小结
这里简单总结一下Gemini 3 Pro的特点与使用技巧:
1.前端设计能力绝绝子。无论是交互游戏还是全视图浏览,应用界面还是系统界面,颜值都在线。唯一不足的就是UI元素设计不精美。
2.后端构建能力领先。高效产出,流程通畅,运行稳定,即便达不到用户预期,也担得起众模型的领头羊。
3.语义理解和创新能力出众。一句话即可顺利完成任务,甚至超出你的预期。
4.对于复杂的任务,尤其重实用的任务,还是需要更为详细的提示词。
5.国内用户输入中文提示词即可开启Gemini 3 Pro的奇妙之旅。
反正,我是被Gemini 3 Pro的能力震惊到了。
那些脑子里的东西正在被一点一点翻译成可见、可听、可操作的具象化物品,我们嘴里说着的、脑海里畅想着的科幻未来,快到我们的脚下了......
今天的分享就到这里了。若你对Gemini 3 Pro也有一番感悟,欢迎在评论区分享,我们一起讨论,也欢迎大家入群交流哦~

