快速注册

哪个AI更好？

Charlotte 2025-03-05 00:27:41 已编辑法国

故事时间

先说个有的没的的故事。请勿对号入座。

读书时候，C同学是个努力的学霸，却没什么小聪明。学习刻苦，从零开始，一步一个脚印，整理笔记，考研上岸。D同学比他多点小聪明，借了他的笔记，物尽其用，虽不曾照搬，但也算站在C巨人的肩膀上，一点没绕弯路，也上岸了。故事说到这里到底尚未谁对谁错。

还没完。

后来C同学和D同学都开始卖考研课程。D很努力，卷生卷死，举一反三，甚至有些知识点的处理方式还超过了C，但无论如何不曾从头学习，是借了C的笔记速成的，卖课还比C卖得便宜，抢了C好多客户，C自然是不高兴的。

虽然C和D天天扯头发论输赢对错，可这不是我的事儿。我要是真的站队了，被扯掉头发的就该是我了。

故事归故事，听过算了也好，对号入座也好，是你们看日记的人的事儿。

我其实要回答的是之前日记下的一个问题：你喜欢ChatGPT还是DeepSeek？我一直没有回答，是因为即使此刻都没有明确的答案，好像你问我喜欢洗衣机还是洗碗机。

横向比较

但我总算是有些零星的想法。

上周，我和博士期间的一位很好的朋友聊起 AI 发展对数学家工作的影响（这位教授朋友受我邀请，马上要做一个AI对数学家的影响的在线报告，如果大家有兴趣我可以贴一个链接）。意犹未尽，出于好奇，分别向 ChatGPT-4o 和 DeepSeek-R1 提出了一个简单的问题：证明或证伪“任意两个偶数的和总是能被 4 整除”。

这里插播一下，我为什么比较ChatGPT-4o和DeepSeek-R1而不是其他版本的模型。你当然可以比较两家公司其他版本的模型。我的理由是：它们发布的时间相近，参数基本在同一规模。另外，二者都是大型语言模型LLM+聊天机器人的形式，目标用户相似，使用场景高度重合。二者都能回答问题、处理一般文本需求、编写代码，甚至算数学题（然而我还是能出把它俩都放倒的问题），在日常使用体验上具备可比性。至于为什么不用OpenAI o1，哦，那是因为，哦咦哦咦太贵啦，比大学生还贵。

回到之前的简单数学题。ChatGPT-4o 的解答从复述问题开始，接着用符号表达基本概念，但在推理过程中思路不够清晰，甚至未能给出明确的结论。很像我教过的本科生，考试抄了题目还追着我给1分。而 DeepSeek-R1 则直接给出了一个反例，并通过模运算清晰推导，最终得出结论。

当然，这只是一个很简单的数学问题，难以仅凭一例就判优劣。从根本上讲，二者在开发时候的侧重点和发布的卖点本就不同：

DeepSeek-R1 主要侧重于推理能力，通过一种叫做“思维链”（Chain of Thought, CoT）的方思维模式进行推理，将复杂问题拆解为更小、更易处理的步骤。这种方式与我们在解决数学问题时的思维模式十分相似。ChatGPT-4o 主要侧重于多模态交互（multimodel），强调用一个模型同时处理文本、图像、音频等多种输入的能力，创造更自然的交流体验。

既然核心能力不同，就很难给出一个简单的“我更喜欢谁”的答案。

Distillation：模型蒸馏

我在以前的日记中多次提到过，以ChatGPT为代表的大型语言模型能够达到今天的高度，得益于2017年提出的一个模型结构：Transformer，从而最大程度模拟了人脑处理自然语言的方式。

假设有一句话：“夏老师在菜里放了一勺豆瓣酱。”谁放了豆瓣酱？夏老师，一勺还是菜？这个问题，对于你而言轻而易举，但对计算机来说，在2017年前都是一个极为困难的任务。而Transformer的核心部分attention（自注意力），就量化了每一个单词（准确来讲，应该是token，即是语言模型处理文本时的最小单位。它可以是一个完整的单词、一部分单词或者一个标点符号）应该对上下文的注意力。比如说豆瓣酱对夏老师的注意力是0.6，对菜的注意力是0.3等。

另外一个英文上的例子是，之前的语言模型甚至难以处理“The cat run"还是“The cat runs"这样主谓一致的简单问题，但对于Transformer来讲完全不是问题。——如果有人感兴趣，我之后也可以单独讲一讲技术上的细节。

模型的精妙设计和海量数据固然是成功的关键，但强大的计算力则是实现这些设计和数据潜力的必要手段。DeepSeek 能够在相对有限的预算下达到今天的表现，除了我们之前提到的强化学习（RL）外，还有赖于一种叫做模型蒸馏（Distillation）的技术。

模型蒸馏，顾名思义，就是一个取其精华的过程。它的核心思想是，我们可以一个规模较小的“学生模型”，它脱胎于一个规模庞大但性能优异的“教师模型”，减小模型体积和计算资源，却保留了教师模型大致的准确性。