如何碎片化学习AI？

今天来分享一个我自己碎片化学习AI的方法。

反直觉的观点

先说一个反直觉的观点：现在学习AI，碎片化学习可能是我们唯一的方式了。

不是因为我们没时间，而是因为一个事物在高速发展的时候，它的知识本来就是碎片化产生出来的。

最前沿的突破往往先出现在推特里面——一个研究员的一篇推文，可能就改变了整个行业的方向。

等到写成研报可能要三个月，等到变成书可能要一年，等到变成课程，黄花菜都凉了。

所以问题不是说要不要碎片化学习——其实你根本就没有选择——而是怎么把这些碎片装进一个结构里面，让它们变成你真正的认知。

黄仁勋的五层框架

今天的分享一个我自己在用的框架，来自黄仁勋的一次分享。

五层结构，从上到下分别是：能源 → 芯片 → 基建 → 大模型 → 应用

在具体讲每一层之前，先说说这个框架最关键的一点——每一层它都被下面一层卡脖子。

什么是"卡脖子"？

比如说你觉得大模型进步慢了，那你往下看一层——可能因为数据中心的集群稳定性不够，训练老是中断。

那集群为什么不稳定呢？那你再往下看一层——是因为上万张芯片要同步工作，带宽可能跟不上。

那这些芯片为什么这么贵呢？那我们再往下看一层——是因为每一瓦电要换多少算力，其实已经接近物理的极限了。

所以你看，大模型的天花板其实是被能源所决定的。

这个框架的价值

以后你看到任何一条AI新闻，都可以问自己两句话：

这是哪一层的事情？
它会怎么样影响上面那一层？

接下来，我会用一个具体的问题把这五层串一遍，实际体验一下如何用这个框架去学习。

第一层：能源

比如说我们今天要学习这样一个话题：训练一个GPT5级别的模型到底需要哪些东西？

首先，你需要电，需要大量的电。

训练GPT5级别的模型，可能需要一个接近1GW功率的数据中心跑好几个月。

1GW是什么概念呢？

差不多就是一座中型核电站的输出功率
也差不多是100万户家庭同时用电的功率

你会发现，现在这些巨头在打造的下一代数据中心，基本都是1GW起步的。你没有这个1GW，根本就不好意思跟人家打招呼，说"我在建数据中心"。

那建一个这种规模的数据中心要多少钱呢？

算上GPU服务器、冷却系统，整体投入在500亿美元级别。

但一年能带来多少收入呢？大概是100亿到120亿美元左右。

我第一次看到这些数字的时候，突然意识到AI时代的竞争——首先是能源的竞争。大模型只是露出水面的那一角。

第二层：芯片

有了电之后，下一个问题就是这些电怎么变成算力。

这一层的本质问题，就是说每一瓦的电到底能换多少次矩阵乘法。

你可能听说过GPU比CPU更适合AI计算。AI训练本质上是海量的并行计算，GPU天生就适合干这个。

但GPU也不是唯一的选择：

谷歌的TPU这两年性价比也很猛
亚马逊的Trainium走的是便宜量大的路线

所以很多团队现在会去考虑这些替代的方案。

但这里还有一个比算得快不快更加关键的问题——带宽问题。

你想象一下一个庞大的数据中心，里面有上万张的GPU，它们需要不停互相传数据、同步状态。

如果传输速度跟不上芯片，大部分的时间都在等待数据，而不是在算数据。

这也就是为什么HBM这种高带宽的内存会这么贵，这也就是为什么英伟达的NVLINK互联技术会这么值钱。

单卡的算力是一回事，万卡协同又是另外一回事。

第三层：基建

有了厉害的芯片之后，下一个问题就来了——怎么样让上万张芯片一起工作。

这一层的本质，就是规模化和稳定性。

就算一个动作再简单，你要让10万个硬件同时做，然后延迟还不能超过一微秒，这都是极难的工程问题。

而且这里还有一个反直觉的事实——你以为数据中心里面所有芯片都在满负荷运转，但实际上，由于电力的波动、散热问题、芯片的故障、同步开销，大部分时候只能跑到50%的利用率。

而且会经常出错，导致训练中断。

据说OpenAI自从GPT-4O之后，就没有做过完整的大模型预训练了。

不是说不想做，是因为集群撑不住——连续训练几周甚至几个月，中间任何一张卡出问题，都有可能让整个训练重新回滚重来。

所以他们转向了后训练跟强化学习。

相比较而言，后训练跟强化学习对集群的稳定性要求会相对来说低一点。

像你之前用到的o1、o3，现在用到的GPT-5.2，其实用的还是之前的这个基座模型。

你看，最近的大模型能力提升慢慢的放缓，不一定是算法到了瓶颈，有可能是基础设施还没有准备好。

第四层：大模型

终于到了大家可能比较熟悉的部分，但讽刺的是，这一层也是碎片化最严重的一层。

你平时会刷到各种各样的术语：Transformer、Attention、参数量、训练数据规模、预训练、SFT（监督微调）、强化学习……

强化学习呢又会分成RLHF、RLAIF……

这些概念怎么去理解呢？

你可以把大模型训练想象成培养一个人：

阶段	比喻	内容
预训练	读遍天下书	建立一个基本的世界观
SFT	教好好说话	教他怎么回答问题
强化学习	实践试错	让他在实践当中去不断的试错，学会什么是真正好的回答

之前行业的共识是说预训练为王——模型越大、数据越多，效果就越好。

但经过2025年之后，风向变了。后训练和强化学习占据了越来越多的新闻，因为预训练实在太贵了，受限于这个第三层的基建瓶颈。

训练的成本，给大家一个具体的概念：

70亿参数的小模型：训练一次大概几10万美元
700亿参数的中等模型：大概几百万美元训练
像GPT-4这种上万亿参数级别的模型：训练一次就要上亿美元

所以啊，这也就是为什么那些顶尖的研究员年薪能达到几千万美金。他们的价值不在于说这个代码写的好不好，而在于说直觉、品位，决定这上亿美元到底怎么花。

你想，这个方向如果稍微能对一点点，就能省下几个亿；方向如果错一点点呢，可能就几个亿就打水漂了。

第五层：应用

模型训练出来之后，最后一个问题就是——怎么变成人们愿意付费的产品。

这一层决定能不能赚钱。

应用的形态，目前大概可以分成四类：

类别	形态	描述
第一类	Chatbot	问答型，就是你非常熟悉的对话界面
第二类	Copilot	人机协作，人主导，然后AI去辅助
第三类	Agent	任务级智能体，你给他一个任务，然后AI自己会拆解、执行
第四类	Autonomous	系统级别，AI完全自主运行，人只看最后的结果

去年2025年，最成功的两个应用：一个是Cursor，一个是Claude Code。

Claude Code是传统软件深度整合AI能力的典范；Cursor是纯智能体形态的代表作。

一个是改良路线，一个是革命路线，都跑出来了。

2026年，你会看到一个很明显的趋势——大模型的能力其实已经够强了，但应用层还远远没有跟上。

不管是巨头还是创业公司，都会把更多的资源投入到应用层的竞争。甚至OpenAI都很有可能在今年引入广告模式。

这是一个重要的信号：当模型能力趋同的时候，商业模式创新就变得更加重要。

总结

最后来总结一下这个框架对我最大的帮助。

每次我刷到一条新的AI新闻，我就会想到——这是哪一层的事情？

看到有人讨论新的芯片性能 → 放进第二层（芯片）
讨论提示词技巧 → 放进第五层（应用）
看到有人讨论Scaling Law → 放进第四层（大模型）

慢慢的，这些碎片就不再是这个七零八散的知识点了，它会在你的脑子里连成一片的网络。

最后还有一个比较有意思的规律：

层级	特点
越底层	变化影响越大，但发生也越慢
越上层	变化发生越快，但很可能很快就被替代

理解了这一点之后，你就应该知道，应该把更重要的注意力放在哪里了。

我是第四种黑心李超，我们下次见。