第一章 · 时代背景

1.2 算力、数据、算法的螺旋上升

本节最后更新：2026-05-11
验证环境：无（纯理论章节）

三个齿轮，互相推动

如果你问一个搞 AI 的人："为什么偏偏是这几年，AI 忽然变强了？"他多半会用一个简单的框架来回答你——算力、数据、算法，三要素的螺旋上升。

这三个东西的关系，我用一个类比来说。

想象你面前有一辆车：

算力就是引擎排量——马力有多大，决定了你能跑多快。
数据就是燃料——没有燃料，引擎再强也是摆设。而且燃料还有不同的品质：低辛烷值的油和高辛烷值的油，燃烧效率完全不同。
算法就是驾驶技术——同样的车和油，老司机开得又快又稳，新手可能起步就熄火。更重要的是，不同的路需要不同的驾驶技巧——山路有山路的开法，高速有高速的开法。

这三者在过去十五年里，进入了一个互相推高的正循环。每一步都不是偶然——它们是互相"逼"出来的。

第一推动力：算力的爆炸

一切要从 2006 年左右说起。那一年，英伟达推出了 CUDA 平台，让 GPU 不只是玩游戏用的显卡，还能做通用计算。这个硬件的"意外发现"改变了 AI 的命运。

为什么 GPU 适合 AI？因为 AI 的核心运算——矩阵乘法——和 3D 图形渲染在数学上是同一类任务：大规模的并行计算。一张显卡里有几千个核心，可以同时算很多东西。而传统的 CPU 只有几个核心，擅长的是顺序执行复杂任务。

用一个形象的说法：CPU 像一个数学教授，什么复杂题都能做，但一次只能做一道。GPU 像几千个小学生，每个只会做加法——但当你有几千道加法要算的时候，几千个小学生比一个教授快得多。AI 的训练恰好就是这样：它要做的是几亿次简单的乘法和加法。

这个硬件上的差异，决定了后来的故事走向。而且，这不是一个"偶然发现"后就结束的故事。英伟达在 CUDA 之后，并没有停下来——他们意识到 GPU 在 AI 领域的潜力，开始专门为 AI 训练优化硬件架构。从 Kepler 到 Volta 再到 Hopper 架构，每一代的算力都翻了数倍。2020 年发布的 A100 芯片，专门为 AI 训练设计的 Tensor Core 加速单元，单张显卡的算力达到了 312 TFLOPS——如果用人的对比，相当于每秒完成 312 万亿次浮点运算。而在 2012 年 AlexNet 训练时，用的 GTX 580 显卡算力只有 1.5 TFLOPS。十年间，单张显卡的算力翻了 200 多倍。

从 2012 年的 AlexNet（一个用 GPU 训练的图像识别模型，在当年 ImageNet 比赛上一举夺冠），到 2016 年 AlphaGo 击败围棋世界冠军李世石，再到 2022 年 ChatGPT 的爆发——每一次"出圈"事件的背后，都是算力规模上了一个新台阶。AlexNet 用两张 GTX 580 训练了五六天。2022 年的模型，训练一次可能需要几千张顶级显卡跑好几个月。

而且，这个"算力爆炸"的故事不只是硬件层面的。云的普及也是重要的一环。十年前，你想训练一个 AI 模型，需要自己买显卡、搭服务器、配散热。今天，你在 AWS、Google Cloud 或 Azure 上点几下鼠标，就能租到几百张 H100 显卡的集群。硬件不再是稀缺品，它变成了可按需租用的公共资源。 这意味着小团队甚至个人，也能用到以前只有大公司才用得起的算力。Vibe Coding 之所以对个人开发者友好，这也是一个底层原因——你不需要有一屋子显卡来"运行"AI，云的背后已经有人在替你付费和维护了。

数据：互联网时代留下的遗产

第二个要素是数据。互联网在过去二十年积累的公开数据，恰好成了 AI 的"训练教材"。但这里有一个关键的问题：不是"有数据就行"，而是数据的质量和多样性决定了模型的上限。

你可以这么理解：早期的 AI 就像一个小学生，只读了一本教材，知识有限——而且那本教材可能还是同一个作者写的，观点单一。到了 GPT-3 的时代，它读过的文本量相当于整个互联网的公共部分——几万亿个 Token（我们会在第 6 章详细讲什么是 Token）。它读到了维基百科的条目、Reddit 上的讨论、学术论文、小说、新闻、技术文档、法律合同。它读到的不仅是"事实"，还包括事实之间的关系、人类论证问题的方式、不同文体的表达习惯。

再到 GPT-4 和后续的模型，训练数据已经从纯文本扩展到了代码、图片、音频、视频。这意味着模型不仅"读"过书，还"看"过画、"听"过声音、"写"过代码。这种多模态的训练，让 AI 对世界的理解变得更加立体。

这里有一个值得注意的点：代码作为一种训练数据，对 AI 的推理能力帮助非常大。 因为代码是"精确的"——一段代码要么能运行，要么不能运行。这种"对就是对、错就是错"的反馈，比开放式的文字对话更能训练模型的逻辑能力。你在 Reddit 上争论"哪个编程语言最好"，一百个人可能有一百种说法。但一段 Python 代码能不能跑，编译器会给你一个不带感情的答案。这种精确性，让代码成为了极其珍贵的训练材料。

这也是为什么今天做编程的 AI 助手，比做其他领域的 AI 表现更出色——代码本身就是顶级的训练材料。而且这个优势还在自我强化：AI 写出来的代码又被用来训练新一版的 AI，形成了一个"代码越多→AI 越强→写的代码越好→训练数据越好"的正循环。

但是，数据也有天花板。互联网上的高质量文本不是无限的。有研究者估算过，人类创作的公开高质量文本总量大约是几十万亿个 Token。到了 2024 年前后，前沿的大模型几乎已经"读"完了所有的公开文本。这意味着未来的 AI 进步，不能只靠"喂更多数据"，而需要在数据效率和推理能力上下功夫——这也是为什么我们会在第 9 章看到"推理模型"这个方向的出现。

算法：把燃料变成动力的引擎

算力大了、数据多了，但如果算法不行，就像把航空燃油加进了一辆奥拓里——浪费。

近十年最重要的算法突破，是 2017 年 Google 团队在论文《Attention Is All You Need》中提出的 Transformer 架构。这个名字你可能在新闻里见过。简单来说，Transformer 让模型能够在处理一个词时，"注意"到句子中所有其他词的关系。

我来试着让你直观地理解一下这是什么意思。

假设你要理解这句话："那只猫虽然很小，但它跳得非常高。"传统模型是一个词一个词按顺序处理的——先读到"那只猫"，再读到"虽然很小"，再读到"但它"……当它读到"跳"的时候，它需要回过头去"回忆"前面说了什么。这就像你在读一篇文章时，每读一个词就要翻回前面看看，效率低、信息容易丢失。

Transformer 的做法完全不同。它是一眼看完整句话，同时分析每个词和其他所有词之间的关系。所以当它读到"它"的时候，它已经知道"它"指的是"那只猫"——因为它同时看到了"猫"和"跳"，并且计算出了这两个词之间的关联强度。这个能力上的差距，就像"拼图时一次只能试一块"和"看到所有拼图同时安排位置"的差别。

Transformer 还有一个重要的特性：它是可并行训练的。因为每个词之间的关系是同时计算的，而不是按顺序来的，所以你可以用很多 GPU 同时训练模型的不同部分。这也是为什么模型能越做越大的技术原因——Transformer 天生适合大规模并行计算。

目前绝大多数的语言大模型——Claude、GPT、Gemini、LLaMA——都是基于 Transformer 架构的变体。当然，2017 年到现在也有了很多改进：RoPE 旋转位置编码让模型对位置信息的处理更灵活，Flash Attention 让注意力计算更快更省显存，MoE（混合专家）让模型参数更多但推理更快。这些改进你不需要记住名字，你只需要知道：算法一直在变好，而且速度不比硬件慢。

螺旋上升：三者如何推动彼此

这三者的关系不是"准备好了凑在一起"，而是互相催化的：

更好的算法让你在同样的算力下训练更大的模型 → 推动了对更多算力的需求
更多的算力让你能训练更大的模型 → 需要更多的数据来填满它
更多的数据让模型学到更多模式 → 反过来又刺激算法做更好的利用

这个循环在 2018 年 GPT-1 出现后加速，到 2022 年之后变成了飞速旋转。

几个值得记住的数字：

GPT-1 的参数数量是 1.17 亿，GPT-2 是 15 亿，GPT-3 是 1750 亿——不到五年，增长了 1500 倍。
AlexNet（2012）的训练用了两张显卡跑了五六天。今天，一个前沿模型的训练可能需要一万张显卡跑好几个月。这个算力消耗的增加，和参数量的增长大致匹配。
当前前沿模型的参数规模已经突破了万亿级别。但有意思的是，训练数据的总量并没有以同样的倍数增长——"数据瓶颈"正在成为下一个制约因素。

当然，这不是一个"越大越好"的简单故事。模型的推理效率、上下文窗口长度、对齐程度——这些维度的进步同样重要。但算力-数据-算法的螺旋上升，是理解"为什么是现在"最核心的框架。

有一个延伸的思考方向值得提一下：如果这个螺旋持续转下去，十年后 AI 能做到什么？这个问题没有答案，但有一个线索——当前制约螺旋的瓶颈轮流出现。有时是算力不够，有时是数据不足，有时是算法遇到了瓶颈。而每一次瓶颈被突破，AI 能力就上一个新台阶。这种节奏，已经延续了十几年。

为什么你需要理解这个

你可能会想："我用 AI 写代码，有必要知道这些吗？"

有必要。原因不是你要去训练模型，而是你需要建立对 AI 能力边界的判断力。当你理解了"模型的能力上限是由它在训练时见过多少数据、用多少算力训练的"决定的，你就不会对 AI 在某些奇怪的地方犯傻感到困惑。

比如说：AI 可能写不出一段很新的 API 调用——因为它的训练数据截止于某个日期。这不是它笨，是它确实"没见过"。你让它用一个月前刚发布的 React 版本写代码，它大概率写的还是上一个版本的写法。AI 可能对中文语境下的某些网络流行语一头雾水——因为那些词在它训练时还没火。AI 可能在处理你公司的内部业务逻辑时频繁出错——因为那些数据是它从未接触过的。

这种判断力，是你在 Vibe Coding 中做出好决策的基础。你会知道什么时候应该详细描述需求（因为 AI 没见过你的具体场景），什么时候可以放心交给 AI（因为这是通用模式，数据里到处都是），什么时候应该质疑 AI 的输出（因为它的训练数据可能过时了）。

一句话总结：理解 AI 的能力是怎么来的，你就不会误判它能做什么、不能做什么。

🖼

图1-2：算力、数据、算法的螺旋上升

▲ 图1-2：算力、数据、算法三者形成正循环——更好的算法需要更多算力，更多算力支撑更大模型，更大模型消化更多数据，更多数据又催生更好的算法。每次循环都把 AI 能力推上一个新台阶。

本节要点

算力（GPU）、数据（互联网积累）、算法（Transformer）三者在过去十五年中螺旋上升，共同催生了今天的 AI 能力。
Transformer 架构让模型能同时"注意"到所有词之间的关系，并且支持大规模并行训练——这是近十年最重要的算法突破。
代码作为精确的训练材料，让编程领域成为 AI 表现最出色的领域之一，也为 Vibe Coding 的可用性打下了基础。
三者各自的瓶颈轮流出现——数据已接近瓶颈，算力还在增长，算法仍在创新——这决定了 AI 的未来进化节奏。
理解这三要素的边界，能帮你建立对 AI 能力上限的判断力——这不是理论知识，而是 Vibe Coding 的实用技能。

Vibe 练习

打开 AI 工具，问：

"请用一分钟左右的篇幅，用'引擎、燃料、驾驶技术'这个类比，解释一下为什么 2022 年之后 AI 突然变强了。然后用一句话告诉我，Transformer 在这中间起了什么作用。"

留意它的回答是否清晰、准确。你也可以追问"那未来算力不够用了怎么办"，观察它能给出什么样的推理。这本身就是一次"Vibe Learning"——在对话中理解世界。