今天的大多数 AI 编程工具是"被动"的——你告诉它做什么,它做。你在驾驶座上,AI 是执行引擎。但在不远的将来,AI 智能体将能够自主执行更复杂的任务。
想象一个场景:你说"帮我检查这个项目中所有未使用的依赖,生成一个清理报告,然后创建一个分支提交修改。"——AI 自主完成文件扫描、分析导入语句、生成报告、创建分支、提交代码。你只需要审查结果,不需要介入中间的每一个步骤。
这种"智能体自主循环"已经在一些工具中初步落地。Claude Code 已经具备了自主执行多步操作的能力。你告诉它"重构 authentication 模块",它会自己去读取相关文件、分析代码结构、制定重构方案、实施修改、验证结果——然后在需要你决策的时候停下来问"这里有一个设计选择,需要你决定:用 JWT 还是 session?"
智能体自主循环的四个阶段:
阶段一:被动执行(当前状态)。 AI 只做你明确命令的事。"把按钮颜色改成蓝色"——AI 只改颜色,不会主动检查按钮的尺寸是否也需要调整。你告诉 AI 一个明确的、原子化的指令,AI 执行这个指令。所有的"下一步做什么"都由你来决策。
阶段二:有限自主(正在到来)。 AI 可以在一段连续的工作中自主决策——"我检查了 auth 模块的所有文件,发现 token 刷新逻辑有 bug,而且 useUser hook 没有正确加载用户状态。我建议先修复 token 刷新逻辑,因为它影响了登录流程。你要开始吗?"——AI 在任务范围内自主规划,但关键决策点会停下来确认。
阶段三:任务级自主(近未来)。 AI 可以接受一个完整的任务描述并自主执行——"帮我实现用户管理模块,包括列表页、添加、编辑、删除功能,使用现有的 UI 组件库和 API 风格。"——AI 分解任务、按顺序实现、在需要时主动提问。
阶段四:目标级自主(更远的未来)。 AI 可以接受一个商业目标并自主完成——"帮我做一个 MVP,一个 AI 聊天记录管理工具。你来决定技术栈、设计 UI、实现功能、部署上线。过程中需要我确认的步骤停下来问我。"——AI 从目标出发,自主规划、执行、交付。
目前我们处于阶段一到阶段二的过渡期。工具已经展示了一些自主能力,但还远未到"撒手不管"的程度。AI 仍然会在你意料之外的地方犯错,仍然需要你的判断力来把关。
对 Vibe Coder 来说意味着什么:
智能体自主循环的发展,不会让 Vibe Coder 变得多余——恰恰相反,它会让你变得更强大。
当 AI 可以自主处理"实现细节"时,你的角色从一个"告诉 AI 每一步怎么做"的人,变成了"告诉 AI 最终目标是什么"的人。你的思维层级从"战术层"(怎么做)提升到了"战略层"(做什么、为什么做)。你的价值不在于你能多精确地描述每一步的实现细节——而在于你能多准确地判断什么值得做、什么方向是对的。
目前的主流模型主要处理文本和代码。但多模态能力正在快速成熟。未来的 Vibe Coding 工作流不仅是"说话"——你可以用截图、录音、视频、手绘来表达那些"用文字说不清楚"的东西。
一个典型的例子:你设计了一个复杂的用户界面,但不知道用文字怎么描述。你画一个界面草图,拍下来发给 AI。AI 识别你的草图,生成对应的前端代码。这个流程已经有一些工具在尝试了。
另一个例子:你运行后觉得动画效果不够流畅,录了一段屏幕分享发给 AI,它分析后给出优化建议。"这个过渡动画从第 300ms 到第 450ms 之间有明显的卡顿,建议把 ease-out 换成 cubic-bezier(0.4, 0, 0.2, 1)。"
多模态的"当前状态"和"发展趋势":
当前:AI 能"看懂"截图和图表——你可以贴一张 UI 设计稿,AI 根据设计稿生成代码。但细节还不够——AI 可能无法精确识别字体大小、间距、颜色值。它给你的代码"风格接近"但不"完全一致"。
发展趋势:AI 的多模态理解正在快速提升。预计在不久的将来,AI 可以识别设计稿中的具体参数("这个按钮的圆角是 8px,内边距左右 16px"),并根据精确的参数生成代码。
多模态对 Vibe Coding 的意义:
意图表达的方式极大丰富。现在你只能用文字表达需求——"我想要一个左边栏导航、顶部是搜索栏、中间是内容区的布局"。未来你可以直接画一个布局草图,或者截屏一个你喜欢的网站说"参考这个布局"。
这并不意味着"不需要学习编程了"——但它意味着"表达需求的门槛降低了"。你不需要记住"flexbox 是什么"——你只需要画一个"左边栏 + 顶部栏 + 内容区"的草图。AI 理解你的意图,自动选择正确的 CSS 布局方案。
过去两年,代码生成的准确率提升了很多。2023 年的 GPT-4 生成一次能跑通的代码比例大约是 30~40%,2025 年的 Claude Sonnet 大约是 60~70%。这个比例还在提升。
准确率提升的几个驱动力:
更长上下文窗口。 更大的上下文窗口意味着 AI 可以在生成代码时"看到"更多的项目上下文——项目结构、相关文件、已有的代码风格。上下文越完整,AI 的生成越准确。从 4K 到 200K 到现在的 1M,AI 对项目的整体把握能力在增强。
更好的推理能力。 新版本的模型在推理能力上持续改进——DeepSeek-R1、GPT-o1、o3 等模型引入了"链式推理"(在内部生成推理步骤再输出结果),在处理复杂逻辑时更加可靠。
更丰富的训练数据。 每年都有海量的新代码被写入——更多的开源项目、更多的框架文档、更多的技术博客。模型训练数据包含了更多最新的代码实践。
对准确率的合理预期:
这个趋势意味着:随着时间推移,你需要花费在"审查 AI 输出"上的精力会逐渐减少。但"完全不需要审查"的时刻——至少在可预见的未来——还不会到来。
目前大多数 AI 编程依赖云端大模型。但小模型(7B~70B 参数)的本地部署正在变得可行。硬件设备的算力在提升(苹果 M 系列芯片的神经网络引擎、消费级 GPU 的显存扩大),模型压缩技术也在进步(量化、蒸馏、剪枝)。
本地模型有几个优势:隐私(代码不需要发送到云端)、离线可用、低延迟。缺点是能力上限暂时不如云端大模型,但在代码补全、简单任务生成等场景中已经足够。
未来几年内,你的开发环境可能是这样的:本地一个小模型处理高频低复杂度的任务(代码补全、简单生成),云端大模型处理低频高复杂度的任务(架构设计、复杂调试)。两层配合,兼顾速度和质量。
双层架构的具体形态:
对"一人公司"来说的意义:
本地小模型降低了 AI 编程的"门槛中的门槛"——即使在没有网络的环境中,在隐私敏感的项目中,在成本有限的情况下,你仍然可以享受 AI 辅助编程的能力。AI 编程不再是"只有联网才能用"的工具,而是像"编译器和编辑器"一样,是开发环境中的基础设施。
当你阅读这些趋势时,可能会有一种"我是不是该等一等再学"的想法——"等 AI 再强大一点,我学起来更容易"。这个想法很合理——AI 确实会越来越强。
但我的建议是相反的:现在就开始。
因为技术的变化虽然快,但 Vibe Coding 的核心能力——清晰地表达需求、有效地管理上下文、准确地判断 AI 输出质量——不会因为技术变化而过时。不管 AI 工具变成什么样,不管你用哪个厂家的模型,这些能力都是你作为"创造者"的底层技能。
为什么现在开始比等待更好的三个理由:
理由一:这些核心能力需要时间来培养。 表达意图、管理上下文、判断输出——这些不是读一篇文章就能学会的技能。它们需要你在大量实践中积累经验。你越早开始,积累越久。等到"AI 都成熟了"再开始,和你从今天开始、在 AI 进化的过程中同步成长,前者失去的是时间。
理由二:AI 进化和人的进化是同步的。 你不需要等到 AI 完美了再开始。今天的 AI 已经足够帮你完成很多事情了。你今天做一个 Vibe Coding 项目,即使充满各种小问题,你学到的东西比等着看教学视频多十倍。
理由三:你会在 AI 的进化中处于优势。 等 AI 更强大时,一个新用户和一个有 1 年 Vibe Coding 经验的人在产出质量上的差距会更大——因为新用户需要花时间学习"怎么用好 AI",而你已经掌握了这套方法论。你不会被 AI 替代——但你会被那些"会用好 AI 的人"替代。现在开始,就是保持领先。
一个值得警惕的陷阱:
不要把"学习使用 AI"变成"研究 AI 技术"。你能做出好的产品,不取决于你多了解 Transformer 的架构细节,也不取决于你多熟悉每一个模型的评测得分。它取决于你有多清楚自己想要什么产品、有多快能让 AI 帮你实现、有多准确地判断 AI 给的东西对不对。
保持对趋势的关注,但不要沉迷于"追踪最新模型"。你的目标是做产品,不是做 AI 论文综述。
设想一个你目前做起来最耗时的开发任务——比如"从零开始在 Express 中搭建一个带认证的 REST API"。然后问 AI:
"假设你能以智能体模式工作——我只需要告诉你最终目标,你能自主完成任务规划和执行。请描述一下,针对'在 Express 中搭建带 JWT 认证的 REST API'这个任务,如果你可以自主执行,你的计划是什么?你会按什么顺序做什么?有哪些步骤需要我确认?"
"AI 给出的计划"和你"实际自己操作时的步骤"对比——AI 的计划中忽略了哪些你实际会遇到的问题?哪些步骤 AI 认为需要你确认,而你其实觉得 AI 可以自己决策的?这个对比会帮你理解"未来智能体时代的人机分工"可能是什么样。
然后做一个"追未来"的练习:
让 AI 预测下一阶段的趋势——"基于你的训练数据,预测未来 6~12 个月内,AI 编程会有什么重要的能力提升?作为独立开发者,我现在应该学什么、准备什么,才能在未来的变化中保持优势?"