如果你问一个搞 AI 的人:"为什么偏偏是这几年,AI 忽然变强了?"他多半会用一个简单的框架来回答你——算力、数据、算法,三要素的螺旋上升。
这三个东西的关系,我用一个类比来说。
想象你面前有一辆车:
这三者在过去十五年里,进入了一个互相推高的正循环。每一步都不是偶然——它们是互相"逼"出来的。
一切要从 2006 年左右说起。那一年,英伟达推出了 CUDA 平台,让 GPU 不只是玩游戏用的显卡,还能做通用计算。这个硬件的"意外发现"改变了 AI 的命运。
为什么 GPU 适合 AI?因为 AI 的核心运算——矩阵乘法——和 3D 图形渲染在数学上是同一类任务:大规模的并行计算。一张显卡里有几千个核心,可以同时算很多东西。而传统的 CPU 只有几个核心,擅长的是顺序执行复杂任务。
用一个形象的说法:CPU 像一个数学教授,什么复杂题都能做,但一次只能做一道。GPU 像几千个小学生,每个只会做加法——但当你有几千道加法要算的时候,几千个小学生比一个教授快得多。AI 的训练恰好就是这样:它要做的是几亿次简单的乘法和加法。
这个硬件上的差异,决定了后来的故事走向。而且,这不是一个"偶然发现"后就结束的故事。英伟达在 CUDA 之后,并没有停下来——他们意识到 GPU 在 AI 领域的潜力,开始专门为 AI 训练优化硬件架构。从 Kepler 到 Volta 再到 Hopper 架构,每一代的算力都翻了数倍。2020 年发布的 A100 芯片,专门为 AI 训练设计的 Tensor Core 加速单元,单张显卡的算力达到了 312 TFLOPS——如果用人的对比,相当于每秒完成 312 万亿次浮点运算。而在 2012 年 AlexNet 训练时,用的 GTX 580 显卡算力只有 1.5 TFLOPS。十年间,单张显卡的算力翻了 200 多倍。
从 2012 年的 AlexNet(一个用 GPU 训练的图像识别模型,在当年 ImageNet 比赛上一举夺冠),到 2016 年 AlphaGo 击败围棋世界冠军李世石,再到 2022 年 ChatGPT 的爆发——每一次"出圈"事件的背后,都是算力规模上了一个新台阶。AlexNet 用两张 GTX 580 训练了五六天。2022 年的模型,训练一次可能需要几千张顶级显卡跑好几个月。
而且,这个"算力爆炸"的故事不只是硬件层面的。云的普及也是重要的一环。十年前,你想训练一个 AI 模型,需要自己买显卡、搭服务器、配散热。今天,你在 AWS、Google Cloud 或 Azure 上点几下鼠标,就能租到几百张 H100 显卡的集群。硬件不再是稀缺品,它变成了可按需租用的公共资源。 这意味着小团队甚至个人,也能用到以前只有大公司才用得起的算力。Vibe Coding 之所以对个人开发者友好,这也是一个底层原因——你不需要有一屋子显卡来"运行"AI,云的背后已经有人在替你付费和维护了。
第二个要素是数据。互联网在过去二十年积累的公开数据,恰好成了 AI 的"训练教材"。但这里有一个关键的问题:不是"有数据就行",而是数据的质量和多样性决定了模型的上限。
你可以这么理解:早期的 AI 就像一个小学生,只读了一本教材,知识有限——而且那本教材可能还是同一个作者写的,观点单一。到了 GPT-3 的时代,它读过的文本量相当于整个互联网的公共部分——几万亿个 Token(我们会在第 6 章详细讲什么是 Token)。它读到了维基百科的条目、Reddit 上的讨论、学术论文、小说、新闻、技术文档、法律合同。它读到的不仅是"事实",还包括事实之间的关系、人类论证问题的方式、不同文体的表达习惯。
再到 GPT-4 和后续的模型,训练数据已经从纯文本扩展到了代码、图片、音频、视频。这意味着模型不仅"读"过书,还"看"过画、"听"过声音、"写"过代码。这种多模态的训练,让 AI 对世界的理解变得更加立体。
这里有一个值得注意的点:代码作为一种训练数据,对 AI 的推理能力帮助非常大。 因为代码是"精确的"——一段代码要么能运行,要么不能运行。这种"对就是对、错就是错"的反馈,比开放式的文字对话更能训练模型的逻辑能力。你在 Reddit 上争论"哪个编程语言最好",一百个人可能有一百种说法。但一段 Python 代码能不能跑,编译器会给你一个不带感情的答案。这种精确性,让代码成为了极其珍贵的训练材料。
这也是为什么今天做编程的 AI 助手,比做其他领域的 AI 表现更出色——代码本身就是顶级的训练材料。而且这个优势还在自我强化:AI 写出来的代码又被用来训练新一版的 AI,形成了一个"代码越多→AI 越强→写的代码越好→训练数据越好"的正循环。
但是,数据也有天花板。互联网上的高质量文本不是无限的。有研究者估算过,人类创作的公开高质量文本总量大约是几十万亿个 Token。到了 2024 年前后,前沿的大模型几乎已经"读"完了所有的公开文本。这意味着未来的 AI 进步,不能只靠"喂更多数据",而需要在数据效率和推理能力上下功夫——这也是为什么我们会在第 9 章看到"推理模型"这个方向的出现。
算力大了、数据多了,但如果算法不行,就像把航空燃油加进了一辆奥拓里——浪费。
近十年最重要的算法突破,是 2017 年 Google 团队在论文《Attention Is All You Need》中提出的 Transformer 架构。这个名字你可能在新闻里见过。简单来说,Transformer 让模型能够在处理一个词时,"注意"到句子中所有其他词的关系。
我来试着让你直观地理解一下这是什么意思。
假设你要理解这句话:"那只猫虽然很小,但它跳得非常高。"传统模型是一个词一个词按顺序处理的——先读到"那只猫",再读到"虽然很小",再读到"但它"……当它读到"跳"的时候,它需要回过头去"回忆"前面说了什么。这就像你在读一篇文章时,每读一个词就要翻回前面看看,效率低、信息容易丢失。
Transformer 的做法完全不同。它是一眼看完整句话,同时分析每个词和其他所有词之间的关系。所以当它读到"它"的时候,它已经知道"它"指的是"那只猫"——因为它同时看到了"猫"和"跳",并且计算出了这两个词之间的关联强度。这个能力上的差距,就像"拼图时一次只能试一块"和"看到所有拼图同时安排位置"的差别。
Transformer 还有一个重要的特性:它是可并行训练的。因为每个词之间的关系是同时计算的,而不是按顺序来的,所以你可以用很多 GPU 同时训练模型的不同部分。这也是为什么模型能越做越大的技术原因——Transformer 天生适合大规模并行计算。
目前绝大多数的语言大模型——Claude、GPT、Gemini、LLaMA——都是基于 Transformer 架构的变体。当然,2017 年到现在也有了很多改进:RoPE 旋转位置编码让模型对位置信息的处理更灵活,Flash Attention 让注意力计算更快更省显存,MoE(混合专家)让模型参数更多但推理更快。这些改进你不需要记住名字,你只需要知道:算法一直在变好,而且速度不比硬件慢。
这三者的关系不是"准备好了凑在一起",而是互相催化的:
这个循环在 2018 年 GPT-1 出现后加速,到 2022 年之后变成了飞速旋转。
几个值得记住的数字:
当然,这不是一个"越大越好"的简单故事。模型的推理效率、上下文窗口长度、对齐程度——这些维度的进步同样重要。但算力-数据-算法的螺旋上升,是理解"为什么是现在"最核心的框架。
有一个延伸的思考方向值得提一下:如果这个螺旋持续转下去,十年后 AI 能做到什么?这个问题没有答案,但有一个线索——当前制约螺旋的瓶颈轮流出现。有时是算力不够,有时是数据不足,有时是算法遇到了瓶颈。而每一次瓶颈被突破,AI 能力就上一个新台阶。这种节奏,已经延续了十几年。
你可能会想:"我用 AI 写代码,有必要知道这些吗?"
有必要。原因不是你要去训练模型,而是你需要建立对 AI 能力边界的判断力。当你理解了"模型的能力上限是由它在训练时见过多少数据、用多少算力训练的"决定的,你就不会对 AI 在某些奇怪的地方犯傻感到困惑。
比如说:AI 可能写不出一段很新的 API 调用——因为它的训练数据截止于某个日期。这不是它笨,是它确实"没见过"。你让它用一个月前刚发布的 React 版本写代码,它大概率写的还是上一个版本的写法。AI 可能对中文语境下的某些网络流行语一头雾水——因为那些词在它训练时还没火。AI 可能在处理你公司的内部业务逻辑时频繁出错——因为那些数据是它从未接触过的。
这种判断力,是你在 Vibe Coding 中做出好决策的基础。你会知道什么时候应该详细描述需求(因为 AI 没见过你的具体场景),什么时候可以放心交给 AI(因为这是通用模式,数据里到处都是),什么时候应该质疑 AI 的输出(因为它的训练数据可能过时了)。
一句话总结:理解 AI 的能力是怎么来的,你就不会误判它能做什么、不能做什么。
打开 AI 工具,问:
"请用一分钟左右的篇幅,用'引擎、燃料、驾驶技术'这个类比,解释一下为什么 2022 年之后 AI 突然变强了。然后用一句话告诉我,Transformer 在这中间起了什么作用。"
留意它的回答是否清晰、准确。你也可以追问"那未来算力不够用了怎么办",观察它能给出什么样的推理。这本身就是一次"Vibe Learning"——在对话中理解世界。