2343 字
12 分钟
AI的使用体验一叙
TIP

这个文章本应在2025-11-15发布,然而我却为网站的小bug修复和学业而没有公开,同时我修正了其中的一些内容。

前言#

我使用AI的阶段大概有三个。

其一,在2025年初之前,也就是在DeepSeek R1发布前,我常常使用的是GPT 3.5、Qwen、文心一言等主要的ai。顺带一提,2024年 貌似还要早一点?通义千问和文心一言的内测权限我全部都拿到了,体验过最古早的版本,对比现在的AI来看莫过于极差,也没有什么对比的必要罢了。

其二,在2025年初之后,DeepSeek R1很惊人,当时还体验过许多天的服务器繁忙。不过只几天后我便注意到了DeepSeek R1的缺点——幻觉现象严重。玩到深处时,无论如何塞入提示,输出中各种量子物理学也能席卷而来了。后续DeepSeek R1更新了几个小版本,DeepSeek R1被DeepSeek V3.X替代,我还是蛮觉得可惜。

其三,现在我最常用的是Google Gemini,很强很强,Google也很放得开限额,只是Google Gemini的API在前几个月(大概是7、8、9月)出现了不可用,我们称之为“哈气”。

WARNING

Google现在已经猛砍API免费额度了。

何为“哈气”?

讲解这个很有意思,Google Gemini 2.5 Pro在贴吧等论坛被称为哈基米 2.5 Pro,因为API的输出截断、报错频繁,对应于猫咪“哈气”,也就是猫咪发出“嘶——”的声音,并伴随张嘴、露齿、身体弓起的姿态。

总之便是我们的戏称罢了。

而今,Google Gemini 3系列发布在即Google Gemini 3已经发布,同其他模型断崖式领先!只能说Google这位Transformer的“爹”还是太强了。

Gemini 使用体验#

降智问题#

Google Gemini的能力虽强,但官方“下手”也毫不手软。Gemini 2.5 Pro刚发布时表现惊艳,但后续版本疑似经过了大幅“量化”或调整,性能上有明显的“降智”感。

训练数据过期#

TIP

这个问题已经修复了,Google将2.5的训练数据的截止日期提升到了2025一月份左右。

Google Gemini在编码上很强,但是训练数据不很新,Google为Gemini支持的搜索功能也不如GPT好用,除了接入其他搜索服务,可以说又回到了GPT 3.5没联网的时光了。

输出问题#

一个最大的缺点就是Google Gemini的输出会有些问题。

  1. 格式遵循不佳:在角色扮演、格式遵循等场景,Gemini会时不时带有“-”符号、非中文语言、输出训练数据、循环输出。
  2. 消极模型偏见:在正常使用时,一旦Gemini没有完成你的任务,你批评它,他便诚恳的道歉,当批评的次数多时,它就会自暴自弃!至于骂它它也会叫好。这是一种极端的消极模型偏见,即使是提示词也需要花费很大力气才能抵消,或者使用替罪羊策略。
  3. 自我更正失调:Gemini在使用时会出现重复片段然后更正、在自己说出错误的内容后惊觉并更改。我认为这是“用力过猛”,Gemini在正常输出时不知为什么就是会概率性的出错误,错误后Gemini会意识到,如果不是自然语言对话则会直接重新输出一遍正确的内容,即使会打乱格式;如果是自然语言对话,Gemini会用“等等!我又犯错误了!”之类的话挽救,这和先前直接输出错误的AI相比之,它能意识到一些错误。但仔细想象,这些错误既然能够意识到,那么这是错误吗?即模型本身能够输出正确的,而真正的错误模型是不会意识到的。这相比而言是否是一个退步?
例子

关于第二点,我分享这个对话以支撑,事实上我还有很多这样的对话,不过我找不到了。

Google AI Studio

Gemini 3.0 使用体验#

顶级,绝对的顶级!

真的非常推荐所有人都去试一试,3.0 Pro在Google AI Studio有免费额度。如果说我从DeepSeek到Gemini 2.5 Pro的提升是1的话,那么从Gemini 2.5 Pro到Gemini 3.0 Pro的提升至少也是0.5。

Qwen 使用体验#

语言理解差#

这一点很直观,我所体验的Qwen 3模型有这样的问题。当然,这可能不是一个很重大的问题,因为我使用AI总是期盼AI能够命中我提示词的所意图的意义,而Qwen 3在这方面很差。

这意味着你需要更多的提示词才能表达完备意思。

不过我也分不清这究竟是AI不合我的胃口还是AI本就无能。

中平问题#

作为C端用户,Qwen模型实在是没有什么突出的优点以支持我去使用,若说它免费,它不如Google Gemini、DeepSeek,Google Gemini的移动应用完全免费使用Gemini 2.5 Flash,API也有免费额度;若说它性能好,我认为DeepSeek的性能在日常使用中是好过Qwen的,当然不是看benchmark,而是我在使用中得到的结果。

C端用户的意思

“C端用户”是中文互联网和商业领域常用的一个术语,其中的 “C” 是英文 Consumer(消费者)的缩写。因此C端用户 = 消费者用户 = 个人用户。

面对个人来讲,它还是太中平、普通了。面对需要开源模型的公司等商业用户,也有DeepSeek、GPT-OSS等更多模型,Qwen很中平。

官方应用体验割裂#

首先,Qwen是Qwen,通义千问是通义千问。很抽象对吗?

实际上Qwen的正宗在Qwen.Ai,而通义千问在Tonyi.Com,两者是不同的网站,对应不同的用户需求,前者是开发者等使用,后者是普通用户。

问题出这两者的维护团队貌似不同,面对Tonyi.Com,更多用户在通义这个软件中,而这个软件…主打的是AI办公、智能体、情感陪伴。

Qwen.Ai也有自己的软件,不过是对国外开放,只能在Google Play搜到客户端,更简洁。

两个应用都没有对方的身影,事实上若不是偶然搜到,我还不知道有Qwen.Ai这个网站。

GPT 使用体验#

GPT 5是目前最强的模型。毋庸置疑。

现在最强的模型是Gemini 3.0 Pro了。

我对GPT的使用较少,但有些问题是用过一次就能体现的。

主观能动性过强#

GPT 5在使用时会不停的问你——“需不需要我帮你XX?”,即使说你已经在第一个提示词中给出了指令,GPT 5还是会这样问你,这样会带来的问题是GPT 5白费了额度,有时你需要两个提示才能解决一个问题。

GPT 5所提供的帮助也大多不够智能和符合场景,我认为更多是一种模型偏见。

DeepSeek使用体验#

DeepSeek近期很安静发布了DeepSeek V3.2,DeepSeek也早已不是最强大的AI现在看来,超过了GPT-5 High,仅次于Gemini 2.5 Pro,有人认为DeepSeek在先前是最强的,但我们要正视。

首先OpenAI的o1系列模型才是最早出现模型本身具有思维链,也就是深度思考功能的模型。

不要硬吹DeepSeek#

计算每个测试项上性能得分的比率,然后取这些比率的几何平均数(Geometric Mean)。

公式:比率=DeepSeek R1 得分OpenAI o1-1217 得分 \text{比率} = \frac{\text{DeepSeek R1 得分} }{\text{OpenAI o1-1217 得分 }}

Benchmark (Metric)OpenAI o1-1217 (A)DeepSeek R1 (B)性能比率 (k = B / A)
MMLU (Pass@1)91.890.80.9891
DROP (3-shot F1)90.292.21.0222
GPQA Diamond (Pass@1)75.771.50.9445
SimpleQA (Correct)47.030.10.6404
LiveCodeBench (Pass@1-COT)63.465.91.0394
Codeforces (Percentile)96.696.30.9969
Codeforces (Rating)206120290.9845
SWE Verified (Resolved)48.949.21.0061
Aider-Polyglot (Acc.)61.753.30.8639
AIME 2024 (Pass@1)79.279.81.0076
MATH-500 (Pass@1)96.497.31.0093
NOTE

这个表格取自论文ArXiv的3.1. DeepSeek-R1 Evaluation。只保留了两者皆有的数据。

计算所有比率的几何平均数得到k0.939k ≈ 0.939

综合这11个基准测试的表现,DeepSeek R1 的整体性能大约是 OpenAI o1-1217 性能的 93.9%。

差距非常小,但是后续很快,OpenAI就出了新模型,步步高升,直到现在的GPT 5,而DeepSeek也不再领先

DeepSeek真正值得吹的#

我不是在贬低DeepSeek,每当看到有人说DeepSeek如何如何强,吹得天花乱坠的人,我很无奈。

因为真正顶尖的模型是普通大陆用户无法常规使用的。

DeepSeek是有优点的,DeepSeek最大的优点就是——让人们花小钱就能用到好的模型(的确,官方API冲了十块余额能玩几M的Token)、激活了市场和技术活力。

后记#

现在面对我来讲,我的一些麻烦工作在有AI协助后效率直线上升,AI真的很有用。

但我也常思考对AI的依赖所带来后果。

最明显的就是AI具有模型偏好,会有幻觉。也就是AI会骗你。这在严肃的场景(譬如法律)是绝不应允的!

人们都说AI是科技革命,但我想AI还很任重道远。

AI的使用体验一叙
https://xiaozhao45-blog.pages.dev/posts/ai_experience/
作者
xiaozhao45
发布于
2025-12-15
许可协议
CC BY-NC-SA 4.0