你在手机上用过流量上网吧?打开一个网页消耗几十 KB,刷一个短视频消耗几十 MB。你付给运营商的费用,和这些消耗的流量直接相关。
Token 之于 AI 模型,就像流量之于手机。
你写的每一个字、每一条提示、每一次追问——都是输入 Token(相当于上传流量)。AI 给你的每一条回复——都是输出 Token(相当于下载流量)。你问得越多、说得越长、收到的回答越详细,总 Token 消耗就越大。
如果你是付费使用 API(比如通过 Claude API 或其他模型接口),你付的钱就是按 Token 计算的。即使你用 Claude Code 的订阅制,背后也有一个 Token 消耗的上限和成本结构。有些订阅制工具会限制"每月使用量"——这个使用量本质上就是 Token 消耗量的某种换算。当你超过使用量时,要么降速,要么额外付费。
把"Token 即流量"记住——它不只是比喻,它是真实的经济学。你每一次和 AI 的对话,都在消耗"算力话费"。
在大多数模型的定价中,输入 Token 和输出 Token 的价格是不同的——而且差很多。
输出 Token 通常比输入 Token 贵 3~5 倍。原因很直观:输入是你给模型一段文字,模型"读"它就能理解,这是一个相对简单的计算。但输出是模型从零生成一段符合逻辑的文字——它需要"想"得更久,消耗更多的计算资源。
这意味着什么?AI 的"话费"大头在"下载",不在"上传"。
也就是说,你写一条很长的提示(输入),让 AI 给你一个简短的回复(输出),成本是低的。反过来,你写一条简短的提示,但让 AI "详细解释"或"写一个完整的方案"(输出很长),成本是高得多的。
这个不对称性,值得你在每一次和 AI 对话时记在心里。
我结合 Vibe Coding 的具体场景来量化一下。你让 AI "帮我写一个完整的 Vue 组件"——输出可能长达 2000 个 Token。如果你是在按量付费,这一句话的成本可能是你输入提示部分的好几倍。但如果你换一种说法:"帮我写一个 Vue 组件,先给我核心代码框架,我看完再让你补充细节"——第一次输出很短,成本很低,你看完后再决定要不要继续。两种方式最终的总成本可能差别不大,但后者的"单次对话成本"更低,你在"感觉不确定"的时候更愿意试错。
启示一:追求高信息密度的对话。
你把需求说清楚、把上下文精简到最低必要,这不仅仅是为了让 AI 更准确——也是在省钱/省配额。一条清晰、结构化的提示,可能比一条模糊、啰嗦的提示省 40% 以上的 Token。
这个"40%"来自哪里?我拆给你看:
删掉这三类冗余,一段 300 Token 的提示词可以轻松压缩到 180 Token 左右,而且 AI 的理解准确率不会降低——事实上,因为无关信息少了,准确率还可能提升。
启示二:不需要每轮对话都"加长篇新信息"。
AI 有记忆。如果你在前一轮已经贴了 2000 个 Token 的代码上下文,后一轮只说"继续改"或"修一下这个函数",输入只需要几个 Token 的成本。合理利用上下文记忆,可以大幅降低平均对话成本。
很多人在和 AI 对话时有一个习惯:每轮都把需求重新说一遍,"我怕 AI 忘了"。这是对上下文窗口的不信任,但在大多数场景中是不必要的。只要你没有跨过上下文窗口的上限(我们下一节会讲这个上限),AI 会记住你在同一次对话中说过的一切。你不需要每轮重复需求。
【省钱技巧】 当你需要在一个较长对话中添加一个小修改时,不要说一大段新的提示词——只说"在上面的第 X 点上做如下修改……",利用 AI 对之前内容的记忆。
启示三:知道什么时候该重启对话。
当对话变长到一定程度,你会注意到两个变化:模型开始"忘记"早期讨论的内容(上下文窗口限制),同时每次输入的 Token 因为要携带整个历史对话而变得很大。这时候,与其继续堆积 Token,不如开启一个新对话,把关键背景浓缩成一段话贴进去。
判断什么时候该重启的标准:当你在对话中说到"我之前不是说过吗"的时候——就该重启了。因为这句话意味着 AI 已经"忘记"了你早期的某个重要约定——很可能是因为上下文窗口已经塞满了。这时候即使你继续在这个对话中提醒它,过几轮它可能又"忘了"。
重启的技巧:让 AI 帮你压缩。"帮我把目前对话中已确认的需求、技术选型和约束条件总结成一段 300 字以内的背景说明,我要用它来开启一个新对话。"——AI 会帮你做上下文压缩。你拿着一份精确的摘要开启新对话,效率远高于在旧对话中继续"推"。
假设你每天和 AI 进行 30 次对话,平均每次消耗 5K 输入 Token + 3K 输出 Token。
按 Claude 3.5 Sonnet 的 API 价格($3/M 输入,$15/M 输出)计算:
如果你是订阅制用户(每月 $20),你的实际使用量远低于你如果按量付费的费用——这也是为什么对个人来说,订阅制通常是更划算的选择。但即使你不直接付"Token 费",你的效率仍然受 Token 使用方式的影响——你每用一个多余的 Token,都在占用 AI 的注意力,都在影响它理解你真正需求的能力。
用同一个需求,写两版提示词发给 AI:
第一版(挥霍型):"帮我做一个网页应用。嗯……就是一个可以记录每天工作的工具。每一条记录要包含日期、任务名称、用时。可以增删改查。大概就这样吧。谢谢!"
第二版(精简型):"请生成一个工作日结记录工具,功能包括:记录:日期 + 任务名 + 用时(增删改查);前端界面,单页应用;不需要用户登录,数据用 localStorage 存储。"
对比两版输出的 Token 消耗差异。让 AI 帮你估计每次对话消耗了多少 Token。然后问 AI:"我的两个版本各消耗了多少 Token?精简版帮我省了多少 Token 和多少成本?"