DUGUANFU.CLOUD

法律实务 × 科技创新

如何碎片化学习AI?

今天来分享一个我自己碎片化学习AI的方法。

反直觉的观点

先说一个反直觉的观点:现在学习AI,碎片化学习可能是我们唯一的方式了。

不是因为我们没时间,而是因为一个事物在高速发展的时候,它的知识本来就是碎片化产生出来的。

最前沿的突破往往先出现在推特里面——一个研究员的一篇推文,可能就改变了整个行业的方向。

等到写成研报可能要三个月,等到变成书可能要一年,等到变成课程,黄花菜都凉了。

所以问题不是说要不要碎片化学习——其实你根本就没有选择——而是怎么把这些碎片装进一个结构里面,让它们变成你真正的认知。

黄仁勋的五层框架

今天的分享一个我自己在用的框架,来自黄仁勋的一次分享。

五层结构,从上到下分别是:能源 → 芯片 → 基建 → 大模型 → 应用

在具体讲每一层之前,先说说这个框架最关键的一点——每一层它都被下面一层卡脖子

什么是"卡脖子"?

比如说你觉得大模型进步慢了,那你往下看一层——可能因为数据中心的集群稳定性不够,训练老是中断。

那集群为什么不稳定呢?那你再往下看一层——是因为上万张芯片要同步工作,带宽可能跟不上。

那这些芯片为什么这么贵呢?那我们再往下看一层——是因为每一瓦电要换多少算力,其实已经接近物理的极限了。

所以你看,大模型的天花板其实是被能源所决定的。

这个框架的价值

以后你看到任何一条AI新闻,都可以问自己两句话:

接下来,我会用一个具体的问题把这五层串一遍,实际体验一下如何用这个框架去学习。


第一层:能源

比如说我们今天要学习这样一个话题:训练一个GPT5级别的模型到底需要哪些东西?

首先,你需要电,需要大量的电。

训练GPT5级别的模型,可能需要一个接近1GW功率的数据中心跑好几个月。

1GW是什么概念呢?

你会发现,现在这些巨头在打造的下一代数据中心,基本都是1GW起步的。你没有这个1GW,根本就不好意思跟人家打招呼,说"我在建数据中心"。

那建一个这种规模的数据中心要多少钱呢?

算上GPU服务器、冷却系统,整体投入在500亿美元级别

但一年能带来多少收入呢?大概是100亿到120亿美元左右

我第一次看到这些数字的时候,突然意识到AI时代的竞争——首先是能源的竞争。大模型只是露出水面的那一角。


第二层:芯片

有了电之后,下一个问题就是这些电怎么变成算力。

这一层的本质问题,就是说每一瓦的电到底能换多少次矩阵乘法

你可能听说过GPU比CPU更适合AI计算。AI训练本质上是海量的并行计算,GPU天生就适合干这个。

但GPU也不是唯一的选择:

所以很多团队现在会去考虑这些替代的方案。

但这里还有一个比算得快不快更加关键的问题——带宽问题

你想象一下一个庞大的数据中心,里面有上万张的GPU,它们需要不停互相传数据、同步状态。

如果传输速度跟不上芯片,大部分的时间都在等待数据,而不是在算数据。

这也就是为什么HBM这种高带宽的内存会这么贵,这也就是为什么英伟达的NVLINK互联技术会这么值钱。

单卡的算力是一回事,万卡协同又是另外一回事。


第三层:基建

有了厉害的芯片之后,下一个问题就来了——怎么样让上万张芯片一起工作

这一层的本质,就是规模化和稳定性

就算一个动作再简单,你要让10万个硬件同时做,然后延迟还不能超过一微秒,这都是极难的工程问题。

而且这里还有一个反直觉的事实——你以为数据中心里面所有芯片都在满负荷运转,但实际上,由于电力的波动、散热问题、芯片的故障、同步开销,大部分时候只能跑到50%的利用率

而且会经常出错,导致训练中断。

据说OpenAI自从GPT-4O之后,就没有做过完整的大模型预训练了。

不是说不想做,是因为集群撑不住——连续训练几周甚至几个月,中间任何一张卡出问题,都有可能让整个训练重新回滚重来。

所以他们转向了后训练跟强化学习。

相比较而言,后训练跟强化学习对集群的稳定性要求会相对来说低一点。

像你之前用到的o1、o3,现在用到的GPT-5.2,其实用的还是之前的这个基座模型。

你看,最近的大模型能力提升慢慢的放缓,不一定是算法到了瓶颈,有可能是基础设施还没有准备好。


第四层:大模型

终于到了大家可能比较熟悉的部分,但讽刺的是,这一层也是碎片化最严重的一层。

你平时会刷到各种各样的术语:Transformer、Attention、参数量、训练数据规模、预训练、SFT(监督微调)、强化学习……

强化学习呢又会分成RLHF、RLAIF……

这些概念怎么去理解呢?

你可以把大模型训练想象成培养一个人:

阶段 比喻 内容
预训练 读遍天下书 建立一个基本的世界观
SFT 教好好说话 教他怎么回答问题
强化学习 实践试错 让他在实践当中去不断的试错,学会什么是真正好的回答

之前行业的共识是说预训练为王——模型越大、数据越多,效果就越好。

但经过2025年之后,风向变了。后训练和强化学习占据了越来越多的新闻,因为预训练实在太贵了,受限于这个第三层的基建瓶颈。

训练的成本,给大家一个具体的概念:

所以啊,这也就是为什么那些顶尖的研究员年薪能达到几千万美金。他们的价值不在于说这个代码写的好不好,而在于说直觉、品位,决定这上亿美元到底怎么花。

你想,这个方向如果稍微能对一点点,就能省下几个亿;方向如果错一点点呢,可能就几个亿就打水漂了。


第五层:应用

模型训练出来之后,最后一个问题就是——怎么变成人们愿意付费的产品

这一层决定能不能赚钱。

应用的形态,目前大概可以分成四类:

类别 形态 描述
第一类 Chatbot 问答型,就是你非常熟悉的对话界面
第二类 Copilot 人机协作,人主导,然后AI去辅助
第三类 Agent 任务级智能体,你给他一个任务,然后AI自己会拆解、执行
第四类 Autonomous 系统级别,AI完全自主运行,人只看最后的结果

去年2025年,最成功的两个应用:一个是Cursor,一个是Claude Code。

Claude Code是传统软件深度整合AI能力的典范;Cursor是纯智能体形态的代表作。

一个是改良路线,一个是革命路线,都跑出来了。

2026年,你会看到一个很明显的趋势——大模型的能力其实已经够强了,但应用层还远远没有跟上。

不管是巨头还是创业公司,都会把更多的资源投入到应用层的竞争。甚至OpenAI都很有可能在今年引入广告模式。

这是一个重要的信号:当模型能力趋同的时候,商业模式创新就变得更加重要。


总结

最后来总结一下这个框架对我最大的帮助。

每次我刷到一条新的AI新闻,我就会想到——这是哪一层的事情?

慢慢的,这些碎片就不再是这个七零八散的知识点了,它会在你的脑子里连成一片的网络。

最后还有一个比较有意思的规律:

层级 特点
越底层 变化影响越大,但发生也越慢
越上层 变化发生越快,但很可能很快就被替代

理解了这一点之后,你就应该知道,应该把更重要的注意力放在哪里了。


我是第四种黑心李超,我们下次见。