TIP这个文章本应在2025-11-15发布,然而我却为网站的小bug修复和学业而没有公开,同时我修正了其中的一些内容。
前言
我使用AI的阶段大概有三个。
其一,在2025年初之前,也就是在DeepSeek R1发布前,我常常使用的是GPT 3.5、Qwen、文心一言等主要的ai。顺带一提,2024年貌似还要早一点?
其二,在2025年初之后,DeepSeek R1很惊人,当时还体验过许多天的服务器繁忙。不过只几天后我便注意到了DeepSeek R1的缺点——幻觉现象严重。玩到深处时,无论如何塞入提示,输出中各种量子物理学也能席卷而来了。后续DeepSeek R1更新了几个小版本,DeepSeek R1被DeepSeek V3.X替代,我还是蛮觉得可惜。
其三,现在我最常用的是Google Gemini,很强很强,Google也很放得开限额,只是Google Gemini的API在前几个月(大概是7、8、9月)出现了不可用,我们称之为“哈气”。
WARNINGGoogle现在已经猛砍API免费额度了。
何为“哈气”?讲解这个很有意思,Google Gemini 2.5 Pro在贴吧等论坛被称为哈基米 2.5 Pro,因为API的输出截断、报错频繁,对应于猫咪“哈气”,也就是猫咪发出“嘶——”的声音,并伴随张嘴、露齿、身体弓起的姿态。
总之便是我们的戏称罢了。
而今,Google Gemini 3系列发布在即Google Gemini 3已经发布,同其他模型断崖式领先!只能说Google这位Transformer的“爹”还是太强了。
Gemini 使用体验
降智问题
Google Gemini的能力虽强,但官方“下手”也毫不手软。Gemini 2.5 Pro刚发布时表现惊艳,但后续版本疑似经过了大幅“量化”或调整,性能上有明显的“降智”感。
训练数据过期
TIP这个问题已经修复了,Google将2.5的训练数据的截止日期提升到了2025一月份左右。
Google Gemini在编码上很强,但是训练数据不很新,Google为Gemini支持的搜索功能也不如GPT好用,除了接入其他搜索服务,可以说又回到了GPT 3.5没联网的时光了。
输出问题
一个最大的缺点就是Google Gemini的输出会有些问题。
- 格式遵循不佳:在角色扮演、格式遵循等场景,Gemini会时不时带有“-”符号、非中文语言、输出训练数据、循环输出。
- 消极模型偏见:在正常使用时,一旦Gemini没有完成你的任务,你批评它,他便诚恳的道歉,当批评的次数多时,它就会自暴自弃!至于骂它它也会叫好。这是一种极端的消极模型偏见,即使是提示词也需要花费很大力气才能抵消,或者使用替罪羊策略。
- 自我更正失调:Gemini在使用时会出现重复片段然后更正、在自己说出错误的内容后惊觉并更改。我认为这是“用力过猛”,Gemini在正常输出时不知为什么就是会概率性的出错误,错误后Gemini会意识到,如果不是自然语言对话则会直接重新输出一遍正确的内容,即使会打乱格式;如果是自然语言对话,Gemini会用“等等!我又犯错误了!”之类的话挽救,这和先前直接输出错误的AI相比之,它能意识到一些错误。但仔细想象,这些错误既然能够意识到,那么这是错误吗?即模型本身能够输出正确的,而真正的错误模型是不会意识到的。这相比而言是否是一个退步?
例子关于第二点,我分享这个对话以支撑,事实上我还有很多这样的对话,不过我找不到了。
Gemini 3.0 使用体验
顶级,绝对的顶级!
真的非常推荐所有人都去试一试,3.0 Pro在Google AI Studio有免费额度。如果说我从DeepSeek到Gemini 2.5 Pro的提升是1的话,那么从Gemini 2.5 Pro到Gemini 3.0 Pro的提升至少也是0.5。
Qwen 使用体验
语言理解差
这一点很直观,我所体验的Qwen 3模型有这样的问题。当然,这可能不是一个很重大的问题,因为我使用AI总是期盼AI能够命中我提示词的所意图的意义,而Qwen 3在这方面很差。
这意味着你需要更多的提示词才能表达完备意思。
不过我也分不清这究竟是AI不合我的胃口还是AI本就无能。
中平问题
作为C端用户,Qwen模型实在是没有什么突出的优点以支持我去使用,若说它免费,它不如Google Gemini、DeepSeek,Google Gemini的移动应用完全免费使用Gemini 2.5 Flash,API也有免费额度;若说它性能好,我认为DeepSeek的性能在日常使用中是好过Qwen的,当然不是看benchmark,而是我在使用中得到的结果。
C端用户的意思“C端用户”是中文互联网和商业领域常用的一个术语,其中的 “C” 是英文 Consumer(消费者)的缩写。因此C端用户 = 消费者用户 = 个人用户。
面对个人来讲,它还是太中平、普通了。面对需要开源模型的公司等商业用户,也有DeepSeek、GPT-OSS等更多模型,Qwen很中平。
官方应用体验割裂
首先,Qwen是Qwen,通义千问是通义千问。很抽象对吗?
实际上Qwen的正宗在Qwen.Ai,而通义千问在Tonyi.Com,两者是不同的网站,对应不同的用户需求,前者是开发者等使用,后者是普通用户。
问题出这两者的维护团队貌似不同,面对Tonyi.Com,更多用户在通义这个软件中,而这个软件…主打的是AI办公、智能体、情感陪伴。
Qwen.Ai也有自己的软件,不过是对国外开放,只能在Google Play搜到客户端,更简洁。
两个应用都没有对方的身影,事实上若不是偶然搜到,我还不知道有Qwen.Ai这个网站。
GPT 使用体验
GPT 5是目前最强的模型。毋庸置疑。
现在最强的模型是Gemini 3.0 Pro了。
我对GPT的使用较少,但有些问题是用过一次就能体现的。
主观能动性过强
GPT 5在使用时会不停的问你——“需不需要我帮你XX?”,即使说你已经在第一个提示词中给出了指令,GPT 5还是会这样问你,这样会带来的问题是GPT 5白费了额度,有时你需要两个提示才能解决一个问题。
GPT 5所提供的帮助也大多不够智能和符合场景,我认为更多是一种模型偏见。
DeepSeek使用体验
DeepSeek近期很安静发布了DeepSeek V3.2,DeepSeek也早已不是最强大的AI现在看来,超过了GPT-5 High,仅次于Gemini 2.5 Pro,有人认为DeepSeek在先前是最强的,但我们要正视。
首先OpenAI的o1系列模型才是最早出现模型本身具有思维链,也就是深度思考功能的模型。
不要硬吹DeepSeek
计算每个测试项上性能得分的比率,然后取这些比率的几何平均数(Geometric Mean)。
公式:
| Benchmark (Metric) | OpenAI o1-1217 (A) | DeepSeek R1 (B) | 性能比率 (k = B / A) |
|---|---|---|---|
| MMLU (Pass@1) | 91.8 | 90.8 | 0.9891 |
| DROP (3-shot F1) | 90.2 | 92.2 | 1.0222 |
| GPQA Diamond (Pass@1) | 75.7 | 71.5 | 0.9445 |
| SimpleQA (Correct) | 47.0 | 30.1 | 0.6404 |
| LiveCodeBench (Pass@1-COT) | 63.4 | 65.9 | 1.0394 |
| Codeforces (Percentile) | 96.6 | 96.3 | 0.9969 |
| Codeforces (Rating) | 2061 | 2029 | 0.9845 |
| SWE Verified (Resolved) | 48.9 | 49.2 | 1.0061 |
| Aider-Polyglot (Acc.) | 61.7 | 53.3 | 0.8639 |
| AIME 2024 (Pass@1) | 79.2 | 79.8 | 1.0076 |
| MATH-500 (Pass@1) | 96.4 | 97.3 | 1.0093 |
NOTE这个表格取自论文ArXiv的3.1. DeepSeek-R1 Evaluation。只保留了两者皆有的数据。
计算所有比率的几何平均数得到。
综合这11个基准测试的表现,DeepSeek R1 的整体性能大约是 OpenAI o1-1217 性能的 93.9%。
差距非常小,但是后续很快,OpenAI就出了新模型,步步高升,直到现在的GPT 5,而DeepSeek也不再领先。
DeepSeek真正值得吹的
我不是在贬低DeepSeek,每当看到有人说DeepSeek如何如何强,吹得天花乱坠的人,我很无奈。
因为真正顶尖的模型是普通大陆用户无法常规使用的。
DeepSeek是有优点的,DeepSeek最大的优点就是——让人们花小钱就能用到好的模型(的确,官方API冲了十块余额能玩几M的Token)、激活了市场和技术活力。
后记
现在面对我来讲,我的一些麻烦工作在有AI协助后效率直线上升,AI真的很有用。
但我也常思考对AI的依赖所带来后果。
最明显的就是AI具有模型偏好,会有幻觉。也就是AI会骗你。这在严肃的场景(譬如法律)是绝不应允的!
人们都说AI是科技革命,但我想AI还很任重道远。