如何碎片化学习AI?
今天来分享一个我自己碎片化学习AI的方法。
反直觉的观点
先说一个反直觉的观点:现在学习AI,碎片化学习可能是我们唯一的方式了。
不是因为我们没时间,而是因为一个事物在高速发展的时候,它的知识本来就是碎片化产生出来的。
最前沿的突破往往先出现在推特里面——一个研究员的一篇推文,可能就改变了整个行业的方向。
等到写成研报可能要三个月,等到变成书可能要一年,等到变成课程,黄花菜都凉了。
所以问题不是说要不要碎片化学习——其实你根本就没有选择——而是怎么把这些碎片装进一个结构里面,让它们变成你真正的认知。
黄仁勋的五层框架
今天的分享一个我自己在用的框架,来自黄仁勋的一次分享。
五层结构,从上到下分别是:能源 → 芯片 → 基建 → 大模型 → 应用
在具体讲每一层之前,先说说这个框架最关键的一点——每一层它都被下面一层卡脖子。
什么是"卡脖子"?
比如说你觉得大模型进步慢了,那你往下看一层——可能因为数据中心的集群稳定性不够,训练老是中断。
那集群为什么不稳定呢?那你再往下看一层——是因为上万张芯片要同步工作,带宽可能跟不上。
那这些芯片为什么这么贵呢?那我们再往下看一层——是因为每一瓦电要换多少算力,其实已经接近物理的极限了。
所以你看,大模型的天花板其实是被能源所决定的。
这个框架的价值
以后你看到任何一条AI新闻,都可以问自己两句话:
- 这是哪一层的事情?
- 它会怎么样影响上面那一层?
接下来,我会用一个具体的问题把这五层串一遍,实际体验一下如何用这个框架去学习。
第一层:能源
比如说我们今天要学习这样一个话题:训练一个GPT5级别的模型到底需要哪些东西?
首先,你需要电,需要大量的电。
训练GPT5级别的模型,可能需要一个接近1GW功率的数据中心跑好几个月。
1GW是什么概念呢?
- 差不多就是一座中型核电站的输出功率
- 也差不多是100万户家庭同时用电的功率
你会发现,现在这些巨头在打造的下一代数据中心,基本都是1GW起步的。你没有这个1GW,根本就不好意思跟人家打招呼,说"我在建数据中心"。
那建一个这种规模的数据中心要多少钱呢?
算上GPU服务器、冷却系统,整体投入在500亿美元级别。
但一年能带来多少收入呢?大概是100亿到120亿美元左右。
我第一次看到这些数字的时候,突然意识到AI时代的竞争——首先是能源的竞争。大模型只是露出水面的那一角。
第二层:芯片
有了电之后,下一个问题就是这些电怎么变成算力。
这一层的本质问题,就是说每一瓦的电到底能换多少次矩阵乘法。
你可能听说过GPU比CPU更适合AI计算。AI训练本质上是海量的并行计算,GPU天生就适合干这个。
但GPU也不是唯一的选择:
- 谷歌的TPU这两年性价比也很猛
- 亚马逊的Trainium走的是便宜量大的路线
所以很多团队现在会去考虑这些替代的方案。
但这里还有一个比算得快不快更加关键的问题——带宽问题。
你想象一下一个庞大的数据中心,里面有上万张的GPU,它们需要不停互相传数据、同步状态。
如果传输速度跟不上芯片,大部分的时间都在等待数据,而不是在算数据。
这也就是为什么HBM这种高带宽的内存会这么贵,这也就是为什么英伟达的NVLINK互联技术会这么值钱。
单卡的算力是一回事,万卡协同又是另外一回事。
第三层:基建
有了厉害的芯片之后,下一个问题就来了——怎么样让上万张芯片一起工作。
这一层的本质,就是规模化和稳定性。
就算一个动作再简单,你要让10万个硬件同时做,然后延迟还不能超过一微秒,这都是极难的工程问题。
而且这里还有一个反直觉的事实——你以为数据中心里面所有芯片都在满负荷运转,但实际上,由于电力的波动、散热问题、芯片的故障、同步开销,大部分时候只能跑到50%的利用率。
而且会经常出错,导致训练中断。
据说OpenAI自从GPT-4O之后,就没有做过完整的大模型预训练了。
不是说不想做,是因为集群撑不住——连续训练几周甚至几个月,中间任何一张卡出问题,都有可能让整个训练重新回滚重来。
所以他们转向了后训练跟强化学习。
相比较而言,后训练跟强化学习对集群的稳定性要求会相对来说低一点。
像你之前用到的o1、o3,现在用到的GPT-5.2,其实用的还是之前的这个基座模型。
你看,最近的大模型能力提升慢慢的放缓,不一定是算法到了瓶颈,有可能是基础设施还没有准备好。
第四层:大模型
终于到了大家可能比较熟悉的部分,但讽刺的是,这一层也是碎片化最严重的一层。
你平时会刷到各种各样的术语:Transformer、Attention、参数量、训练数据规模、预训练、SFT(监督微调)、强化学习……
强化学习呢又会分成RLHF、RLAIF……
这些概念怎么去理解呢?
你可以把大模型训练想象成培养一个人:
| 阶段 | 比喻 | 内容 |
|---|---|---|
| 预训练 | 读遍天下书 | 建立一个基本的世界观 |
| SFT | 教好好说话 | 教他怎么回答问题 |
| 强化学习 | 实践试错 | 让他在实践当中去不断的试错,学会什么是真正好的回答 |
之前行业的共识是说预训练为王——模型越大、数据越多,效果就越好。
但经过2025年之后,风向变了。后训练和强化学习占据了越来越多的新闻,因为预训练实在太贵了,受限于这个第三层的基建瓶颈。
训练的成本,给大家一个具体的概念:
- 70亿参数的小模型:训练一次大概几10万美元
- 700亿参数的中等模型:大概几百万美元训练
- 像GPT-4这种上万亿参数级别的模型:训练一次就要上亿美元
所以啊,这也就是为什么那些顶尖的研究员年薪能达到几千万美金。他们的价值不在于说这个代码写的好不好,而在于说直觉、品位,决定这上亿美元到底怎么花。
你想,这个方向如果稍微能对一点点,就能省下几个亿;方向如果错一点点呢,可能就几个亿就打水漂了。
第五层:应用
模型训练出来之后,最后一个问题就是——怎么变成人们愿意付费的产品。
这一层决定能不能赚钱。
应用的形态,目前大概可以分成四类:
| 类别 | 形态 | 描述 |
|---|---|---|
| 第一类 | Chatbot | 问答型,就是你非常熟悉的对话界面 |
| 第二类 | Copilot | 人机协作,人主导,然后AI去辅助 |
| 第三类 | Agent | 任务级智能体,你给他一个任务,然后AI自己会拆解、执行 |
| 第四类 | Autonomous | 系统级别,AI完全自主运行,人只看最后的结果 |
去年2025年,最成功的两个应用:一个是Cursor,一个是Claude Code。
Claude Code是传统软件深度整合AI能力的典范;Cursor是纯智能体形态的代表作。
一个是改良路线,一个是革命路线,都跑出来了。
2026年,你会看到一个很明显的趋势——大模型的能力其实已经够强了,但应用层还远远没有跟上。
不管是巨头还是创业公司,都会把更多的资源投入到应用层的竞争。甚至OpenAI都很有可能在今年引入广告模式。
这是一个重要的信号:当模型能力趋同的时候,商业模式创新就变得更加重要。
总结
最后来总结一下这个框架对我最大的帮助。
每次我刷到一条新的AI新闻,我就会想到——这是哪一层的事情?
- 看到有人讨论新的芯片性能 → 放进第二层(芯片)
- 讨论提示词技巧 → 放进第五层(应用)
- 看到有人讨论Scaling Law → 放进第四层(大模型)
慢慢的,这些碎片就不再是这个七零八散的知识点了,它会在你的脑子里连成一片的网络。
最后还有一个比较有意思的规律:
| 层级 | 特点 |
|---|---|
| 越底层 | 变化影响越大,但发生也越慢 |
| 越上层 | 变化发生越快,但很可能很快就被替代 |
理解了这一点之后,你就应该知道,应该把更重要的注意力放在哪里了。
我是第四种黑心李超,我们下次见。