2343 字

12 分钟

AI的使用体验一叙

2025-12-15

Experience

Blogging

/

AI

TIP
这个文章本应在2025-11-15发布，然而我却为网站的小bug修复和学业而没有公开，同时我修正了其中的一些内容。

前言#

我使用AI的阶段大概有三个。

其一，在2025年初之前，也就是在DeepSeek R1发布前，我常常使用的是GPT 3.5、Qwen、文心一言等主要的ai。顺带一提，2024年 ~~貌似还要早一点？~~通义千问和文心一言的内测权限我全部都拿到了，体验过最古早的版本，对比现在的AI来看莫过于极差，也没有什么对比的必要罢了。

其二，在2025年初之后，DeepSeek R1很惊人，当时还体验过许多天的服务器繁忙。不过只几天后我便注意到了DeepSeek R1的缺点——幻觉现象严重。玩到深处时，无论如何塞入提示，输出中各种量子物理学也能席卷而来了。后续DeepSeek R1更新了几个小版本，DeepSeek R1被DeepSeek V3.X替代，我还是蛮觉得可惜。

其三，现在我最常用的是Google Gemini，很强很强，~~Google也很放得开限额~~，只是Google Gemini的API在前几个月（大概是7、8、9月）出现了不可用，我们称之为“哈气”。

WARNING
Google现在已经猛砍API免费额度了。

何为“哈气”？
讲解这个很有意思，Google Gemini 2.5 Pro在贴吧等论坛被称为哈基米 2.5 Pro，因为API的输出截断、报错频繁，对应于猫咪“哈气”，也就是猫咪发出“嘶——”的声音，并伴随张嘴、露齿、身体弓起的姿态。
总之便是我们的戏称罢了。

而今，~~Google Gemini 3系列发布在即~~Google Gemini 3已经发布，同其他模型断崖式领先！只能说Google这位Transformer的“爹”还是太强了。

Gemini 使用体验#

降智问题#

Google Gemini的能力虽强，但官方“下手”也毫不手软。Gemini 2.5 Pro刚发布时表现惊艳，但后续版本疑似经过了大幅“量化”或调整，性能上有明显的“降智”感。

训练数据过期#

TIP
这个问题已经修复了，Google将2.5的训练数据的截止日期提升到了2025一月份左右。

Google Gemini在编码上很强，但是训练数据不很新，Google为Gemini支持的搜索功能也不如GPT好用，除了接入其他搜索服务，可以说又回到了GPT 3.5没联网的时光了。

输出问题#

一个最大的缺点就是Google Gemini的输出会有些问题。

格式遵循不佳：在角色扮演、格式遵循等场景，Gemini会时不时带有“-”符号、非中文语言、输出训练数据、循环输出。
消极模型偏见：在正常使用时，一旦Gemini没有完成你的任务，你批评它，他便诚恳的道歉，当批评的次数多时，它就会自暴自弃！至于骂它它也会叫好。这是一种极端的消极模型偏见，即使是提示词也需要花费很大力气才能抵消，或者使用替罪羊策略。
自我更正失调：Gemini在使用时会出现重复片段然后更正、在自己说出错误的内容后惊觉并更改。我认为这是“用力过猛”，Gemini在正常输出时不知为什么就是会概率性的出错误，错误后Gemini会意识到，如果不是自然语言对话则会直接重新输出一遍正确的内容，即使会打乱格式；如果是自然语言对话，Gemini会用“等等！我又犯错误了！”之类的话挽救，这和先前直接输出错误的AI相比之，它能意识到一些错误。但仔细想象，这些错误既然能够意识到，那么这是错误吗？即模型本身能够输出正确的，而真正的错误模型是不会意识到的。这相比而言是否是一个退步？

例子
关于第二点，我分享这个对话以支撑，事实上我还有很多这样的对话，不过我找不到了。
Google AI Studio

Gemini 3.0 使用体验#

顶级，绝对的顶级！

真的非常推荐所有人都去试一试，3.0 Pro在Google AI Studio有免费额度。如果说我从DeepSeek到Gemini 2.5 Pro的提升是1的话，那么从Gemini 2.5 Pro到Gemini 3.0 Pro的提升至少也是0.5。

Qwen 使用体验#

语言理解差#

这一点很直观，我所体验的Qwen 3模型有这样的问题。当然，这可能不是一个很重大的问题，因为我使用AI总是期盼AI能够命中我提示词的所意图的意义，而Qwen 3在这方面很差。

这意味着你需要更多的提示词才能表达完备意思。

不过我也分不清这究竟是AI不合我的胃口还是AI本就无能。

中平问题#

作为C端用户，Qwen模型实在是没有什么突出的优点以支持我去使用，若说它免费，它不如Google Gemini、DeepSeek，Google Gemini的移动应用完全免费使用Gemini 2.5 Flash，API也有免费额度；若说它性能好，我认为DeepSeek的性能在日常使用中是好过Qwen的，当然不是看benchmark，而是我在使用中得到的结果。

C端用户的意思
“C端用户”是中文互联网和商业领域常用的一个术语，其中的 “C” 是英文 Consumer（消费者）的缩写。因此C端用户 = 消费者用户 = 个人用户。

面对个人来讲，它还是太中平、普通了。面对需要开源模型的公司等商业用户，也有DeepSeek、GPT-OSS等更多模型，Qwen很中平。

官方应用体验割裂#

首先，Qwen是Qwen，通义千问是通义千问。很抽象对吗？

实际上Qwen的正宗在Qwen.Ai，而通义千问在Tonyi.Com，两者是不同的网站，对应不同的用户需求，前者是开发者等使用，后者是普通用户。

问题出这两者的维护团队貌似不同，面对Tonyi.Com，更多用户在通义这个软件中，而这个软件…主打的是AI办公、智能体、情感陪伴。

Qwen.Ai也有自己的软件，不过是对国外开放，只能在Google Play搜到客户端，更简洁。

两个应用都没有对方的身影，事实上若不是偶然搜到，我还不知道有Qwen.Ai这个网站。

GPT 使用体验#

~~GPT 5是目前最强的模型。毋庸置疑。~~

现在最强的模型是Gemini 3.0 Pro了。

我对GPT的使用较少，但有些问题是用过一次就能体现的。

主观能动性过强#

GPT 5在使用时会不停的问你——“需不需要我帮你XX？”，即使说你已经在第一个提示词中给出了指令，GPT 5还是会这样问你，这样会带来的问题是GPT 5白费了额度，有时你需要两个提示才能解决一个问题。

GPT 5所提供的帮助也大多不够智能和符合场景，我认为更多是一种模型偏见。

DeepSeek使用体验#

~~DeepSeek近期很安静~~发布了DeepSeek V3.2，~~DeepSeek也早已不是最强大的AI~~现在看来，超过了GPT-5 High，仅次于Gemini 2.5 Pro，有人认为DeepSeek在先前是最强的，但我们要正视。

首先OpenAI的o1系列模型才是最早出现模型本身具有思维链，也就是深度思考功能的模型。

不要硬吹DeepSeek#

计算每个测试项上性能得分的比率，然后取这些比率的几何平均数（Geometric Mean）。

公式： $\text{比率} = \frac{\text{DeepSeek R1 得分} }{\text{OpenAI o1-1217 得分 }}$

Benchmark (Metric)	OpenAI o1-1217 (A)	DeepSeek R1 (B)	性能比率 (k = B / A)
MMLU (Pass@1)	91.8	90.8	0.9891
DROP (3-shot F1)	90.2	92.2	1.0222
GPQA Diamond (Pass@1)	75.7	71.5	0.9445
SimpleQA (Correct)	47.0	30.1	0.6404
LiveCodeBench (Pass@1-COT)	63.4	65.9	1.0394
Codeforces (Percentile)	96.6	96.3	0.9969
Codeforces (Rating)	2061	2029	0.9845
SWE Verified (Resolved)	48.9	49.2	1.0061
Aider-Polyglot (Acc.)	61.7	53.3	0.8639
AIME 2024 (Pass@1)	79.2	79.8	1.0076
MATH-500 (Pass@1)	96.4	97.3	1.0093