历史 | 极客老墨

大模型发展史：从一篇论文到改变世界大家好，我是极客老墨。有人问过我：学大模型开发，需要搞清楚历史吗？我的答案是：不需要全记，但有几个节点绕不过去。就像你不需要知道 Linux 每一个版本的变化，但如果你不知道 1991 年 Linus 为什么会写内核、不知道 GPL 协议的来历，你就很难理解为什么今天的开源生态长成了现在这个样子。大模型的历史也是一样的道理。这篇文章不是"时间轴背诵手册"，而是帮你搞清楚：每一个关键节点留下了什么技术遗产，以及这些遗产如何层层叠加，构成了你今天调用 API 时那个"黑盒"里的底层逻辑。第一阶段：奠基期（2017–2019）——骨架确立，两条路线分叉在 2017 年之前，AI 语言模型靠 RNN 和 LSTM 驱动。这两种架构有一个致命弱点：序列化处理——它们必须一个词一个词地读，前面没读完，后面没法算。这就导致了两个问题：长文本里的前后关联容易丢失，训练也难以并行，规模扩不上去。这个局面被一篇论文打破了。 Transformer 诞生（2017 年 6 月） Google Brain 团队的 Ashish Vaswani 等人发表了 Attention Is All You Need，提出了 Transformer 架构，核心是"自注意力机制（Self-Attention）"。它的革命性在哪里？一句话：让模型在处理一个词的时候，能同时看到整个句子里所有词的关联权重，而不是只看"左边刚读过的"。并且这个计算是可以并行的——GPU 的算力第一次被大模型充分用上了。 Transformer 由 Encoder（理解）和 Decoder（生成）两部分组成，可以灵活组合。这个设计直接决定了后来大模型的两条技术路线。老墨说： Transformer 是大模型的底层骨架，今天你用的 GPT、Claude、DeepSeek，技术根基都在这篇 2017 年的论文里。你可以不懂数学，但"自注意力"这个词要知道它是干什么的。两条路线分叉（2018 年） Transformer 出来之后，OpenAI 和 Google 各自选了一条路。 GPT-1（2018 年 6 月，OpenAI）：只用 Decoder，专注文本生成。1.17 亿参数，在约 5GB 的书籍语料上预训练，验证了"预训练+微调"在生成任务上的可行性。能力有限，但确立了 GPT 系列"纯 Decoder 生成式"的路线。 ...