第九章 · 大模型

9.5 未来趋势

本节最后更新：2026-05-12
验证环境：无（纯理论章节）

智能体自主循环

今天的大多数 AI 编程工具是"被动"的——你告诉它做什么，它做。你在驾驶座上，AI 是执行引擎。但在不远的将来，AI 智能体将能够自主执行更复杂的任务。

想象一个场景：你说"帮我检查这个项目中所有未使用的依赖，生成一个清理报告，然后创建一个分支提交修改。"——AI 自主完成文件扫描、分析导入语句、生成报告、创建分支、提交代码。你只需要审查结果，不需要介入中间的每一个步骤。

这种"智能体自主循环"已经在一些工具中初步落地。Claude Code 已经具备了自主执行多步操作的能力。你告诉它"重构 authentication 模块"，它会自己去读取相关文件、分析代码结构、制定重构方案、实施修改、验证结果——然后在需要你决策的时候停下来问"这里有一个设计选择，需要你决定：用 JWT 还是 session？"

智能体自主循环的四个阶段：

阶段一：被动执行（当前状态）。 AI 只做你明确命令的事。"把按钮颜色改成蓝色"——AI 只改颜色，不会主动检查按钮的尺寸是否也需要调整。你告诉 AI 一个明确的、原子化的指令，AI 执行这个指令。所有的"下一步做什么"都由你来决策。

阶段二：有限自主（正在到来）。 AI 可以在一段连续的工作中自主决策——"我检查了 auth 模块的所有文件，发现 token 刷新逻辑有 bug，而且 useUser hook 没有正确加载用户状态。我建议先修复 token 刷新逻辑，因为它影响了登录流程。你要开始吗？"——AI 在任务范围内自主规划，但关键决策点会停下来确认。

阶段三：任务级自主（近未来）。 AI 可以接受一个完整的任务描述并自主执行——"帮我实现用户管理模块，包括列表页、添加、编辑、删除功能，使用现有的 UI 组件库和 API 风格。"——AI 分解任务、按顺序实现、在需要时主动提问。

阶段四：目标级自主（更远的未来）。 AI 可以接受一个商业目标并自主完成——"帮我做一个 MVP，一个 AI 聊天记录管理工具。你来决定技术栈、设计 UI、实现功能、部署上线。过程中需要我确认的步骤停下来问我。"——AI 从目标出发，自主规划、执行、交付。

目前我们处于阶段一到阶段二的过渡期。工具已经展示了一些自主能力，但还远未到"撒手不管"的程度。AI 仍然会在你意料之外的地方犯错，仍然需要你的判断力来把关。

对 Vibe Coder 来说意味着什么：

智能体自主循环的发展，不会让 Vibe Coder 变得多余——恰恰相反，它会让你变得更强大。

当 AI 可以自主处理"实现细节"时，你的角色从一个"告诉 AI 每一步怎么做"的人，变成了"告诉 AI 最终目标是什么"的人。你的思维层级从"战术层"（怎么做）提升到了"战略层"（做什么、为什么做）。你的价值不在于你能多精确地描述每一步的实现细节——而在于你能多准确地判断什么值得做、什么方向是对的。

多模态理解

目前的主流模型主要处理文本和代码。但多模态能力正在快速成熟。未来的 Vibe Coding 工作流不仅是"说话"——你可以用截图、录音、视频、手绘来表达那些"用文字说不清楚"的东西。

一个典型的例子：你设计了一个复杂的用户界面，但不知道用文字怎么描述。你画一个界面草图，拍下来发给 AI。AI 识别你的草图，生成对应的前端代码。这个流程已经有一些工具在尝试了。

另一个例子：你运行后觉得动画效果不够流畅，录了一段屏幕分享发给 AI，它分析后给出优化建议。"这个过渡动画从第 300ms 到第 450ms 之间有明显的卡顿，建议把 ease-out 换成 cubic-bezier(0.4, 0, 0.2, 1)。"

多模态的"当前状态"和"发展趋势"：

当前：AI 能"看懂"截图和图表——你可以贴一张 UI 设计稿，AI 根据设计稿生成代码。但细节还不够——AI 可能无法精确识别字体大小、间距、颜色值。它给你的代码"风格接近"但不"完全一致"。

发展趋势：AI 的多模态理解正在快速提升。预计在不久的将来，AI 可以识别设计稿中的具体参数（"这个按钮的圆角是 8px，内边距左右 16px"），并根据精确的参数生成代码。

多模态对 Vibe Coding 的意义：

意图表达的方式极大丰富。现在你只能用文字表达需求——"我想要一个左边栏导航、顶部是搜索栏、中间是内容区的布局"。未来你可以直接画一个布局草图，或者截屏一个你喜欢的网站说"参考这个布局"。

这并不意味着"不需要学习编程了"——但它意味着"表达需求的门槛降低了"。你不需要记住"flexbox 是什么"——你只需要画一个"左边栏 + 顶部栏 + 内容区"的草图。AI 理解你的意图，自动选择正确的 CSS 布局方案。

代码生成的"准确率"持续提升

过去两年，代码生成的准确率提升了很多。2023 年的 GPT-4 生成一次能跑通的代码比例大约是 30~40%，2025 年的 Claude Sonnet 大约是 60~70%。这个比例还在提升。

准确率提升的几个驱动力：

更长上下文窗口。 更大的上下文窗口意味着 AI 可以在生成代码时"看到"更多的项目上下文——项目结构、相关文件、已有的代码风格。上下文越完整，AI 的生成越准确。从 4K 到 200K 到现在的 1M，AI 对项目的整体把握能力在增强。

更好的推理能力。 新版本的模型在推理能力上持续改进——DeepSeek-R1、GPT-o1、o3 等模型引入了"链式推理"（在内部生成推理步骤再输出结果），在处理复杂逻辑时更加可靠。

更丰富的训练数据。 每年都有海量的新代码被写入——更多的开源项目、更多的框架文档、更多的技术博客。模型训练数据包含了更多最新的代码实践。

对准确率的合理预期：

简单任务（标准 UI 组件、CRUD 接口）： 准确率已经很高。AI 生成后你只需要略读、检查关键路径，基本可以信任。这是 AI 最成熟的领域。
中等复杂度任务（多步骤表单、API 集成）： 准确率显著提升但仍需审查。AI 的主要逻辑通常正确，但可能在边缘情况、错误处理、安全防护上有遗漏。
复杂任务（架构设计、复杂业务逻辑）： 准确率有限。AI 可以给你一个"合理"的方案，但你需要自己判断它是否适合你的场景。

这个趋势意味着：随着时间推移，你需要花费在"审查 AI 输出"上的精力会逐渐减少。但"完全不需要审查"的时刻——至少在可预见的未来——还不会到来。

本地推理和小模型

目前大多数 AI 编程依赖云端大模型。但小模型（7B~70B 参数）的本地部署正在变得可行。硬件设备的算力在提升（苹果 M 系列芯片的神经网络引擎、消费级 GPU 的显存扩大），模型压缩技术也在进步（量化、蒸馏、剪枝）。

本地模型有几个优势：隐私（代码不需要发送到云端）、离线可用、低延迟。缺点是能力上限暂时不如云端大模型，但在代码补全、简单任务生成等场景中已经足够。

未来几年内，你的开发环境可能是这样的：本地一个小模型处理高频低复杂度的任务（代码补全、简单生成），云端大模型处理低频高复杂度的任务（架构设计、复杂调试）。两层配合，兼顾速度和质量。

双层架构的具体形态：

第一层：本地小模型（随时在线）。 你在 IDE 中写代码时，本地模型提供实时代码补全——不需要联网、没有延迟、永远可用。它的能力范围是"预测你下一段写什么"、"做一些简单的代码转换"、"快速修复 lint 错误"。

第二层：云端大模型（按需调用）。 当你需要深度推理时——"重构这个模块""设计用户认证流程""解释这个复杂的算法"——你的 IDE 调用云端 API，让大模型处理。你等待几秒到十几秒，获得高质量的答案。

对"一人公司"来说的意义：

本地小模型降低了 AI 编程的"门槛中的门槛"——即使在没有网络的环境中，在隐私敏感的项目中，在成本有限的情况下，你仍然可以享受 AI 辅助编程的能力。AI 编程不再是"只有联网才能用"的工具，而是像"编译器和编辑器"一样，是开发环境中的基础设施。

这些趋势对你意味着什么

当你阅读这些趋势时，可能会有一种"我是不是该等一等再学"的想法——"等 AI 再强大一点，我学起来更容易"。这个想法很合理——AI 确实会越来越强。

但我的建议是相反的：现在就开始。

因为技术的变化虽然快，但 Vibe Coding 的核心能力——清晰地表达需求、有效地管理上下文、准确地判断 AI 输出质量——不会因为技术变化而过时。不管 AI 工具变成什么样，不管你用哪个厂家的模型，这些能力都是你作为"创造者"的底层技能。

为什么现在开始比等待更好的三个理由：

理由一：这些核心能力需要时间来培养。 表达意图、管理上下文、判断输出——这些不是读一篇文章就能学会的技能。它们需要你在大量实践中积累经验。你越早开始，积累越久。等到"AI 都成熟了"再开始，和你从今天开始、在 AI 进化的过程中同步成长，前者失去的是时间。

理由二：AI 进化和人的进化是同步的。 你不需要等到 AI 完美了再开始。今天的 AI 已经足够帮你完成很多事情了。你今天做一个 Vibe Coding 项目，即使充满各种小问题，你学到的东西比等着看教学视频多十倍。

理由三：你会在 AI 的进化中处于优势。 等 AI 更强大时，一个新用户和一个有 1 年 Vibe Coding 经验的人在产出质量上的差距会更大——因为新用户需要花时间学习"怎么用好 AI"，而你已经掌握了这套方法论。你不会被 AI 替代——但你会被那些"会用好 AI 的人"替代。现在开始，就是保持领先。

一个值得警惕的陷阱：

不要把"学习使用 AI"变成"研究 AI 技术"。你能做出好的产品，不取决于你多了解 Transformer 的架构细节，也不取决于你多熟悉每一个模型的评测得分。它取决于你有多清楚自己想要什么产品、有多快能让 AI 帮你实现、有多准确地判断 AI 给的东西对不对。

保持对趋势的关注，但不要沉迷于"追踪最新模型"。你的目标是做产品，不是做 AI 论文综述。

本节要点

智能体自主循环的四个阶段：被动执行（当前）→ 有限自主（正在到来）→ 任务级自主（近未来）→ 目标级自主（更远的未来）。AI 的自主性在逐步增强，但"完全撒手"还很远。
多模态理解让意图表达方式极大丰富——截图、录音、手绘都是未来的"输入方式"。表达需求的门槛在降低，但判断力的价值在提升。
代码准确率在提升——简单任务已高度可靠，中等任务仍需审查。本地小模型 + 云端大模型的双层架构即将普及。
现在开始比等待更重要。Vibe Coding 的核心能力（表达、管理、判断）需要时间培养，不会过时。你在 AI 进化过程中同步成长，比等 AI 完美后再开始有巨大优势。
保持对趋势的关注，但不要沉迷"追踪最新模型"。你的目标是做产品，不是做 AI 论文综述。

Vibe 练习

设想一个你目前做起来最耗时的开发任务——比如"从零开始在 Express 中搭建一个带认证的 REST API"。然后问 AI：

"假设你能以智能体模式工作——我只需要告诉你最终目标，你能自主完成任务规划和执行。请描述一下，针对'在 Express 中搭建带 JWT 认证的 REST API'这个任务，如果你可以自主执行，你的计划是什么？你会按什么顺序做什么？有哪些步骤需要我确认？"

"AI 给出的计划"和你"实际自己操作时的步骤"对比——AI 的计划中忽略了哪些你实际会遇到的问题？哪些步骤 AI 认为需要你确认，而你其实觉得 AI 可以自己决策的？这个对比会帮你理解"未来智能体时代的人机分工"可能是什么样。

然后做一个"追未来"的练习：

让 AI 预测下一阶段的趋势——"基于你的训练数据，预测未来 6~12 个月内，AI 编程会有什么重要的能力提升？作为独立开发者，我现在应该学什么、准备什么，才能在未来的变化中保持优势？"