大模型发展史:从一篇论文到改变世界

大模型发展史:从一篇论文到改变世界 大家好,我是极客老墨。 有人问过我:学大模型开发,需要搞清楚历史吗? 我的答案是:不需要全记,但有几个节点绕不过去。就像你不需要知道 Linux 每一个版本的变化,但如果你不知道 1991 年 Linus 为什么会写内核、不知道 GPL 协议的来历,你就很难理解为什么今天的开源生态长成了现在这个样子。 大模型的历史也是一样的道理。 这篇文章不是"时间轴背诵手册",而是帮你搞清楚:每一个关键节点留下了什么技术遗产,以及这些遗产如何层层叠加,构成了你今天调用 API 时那个"黑盒"里的底层逻辑。 第一阶段:奠基期(2017–2019)——骨架确立,两条路线分叉 在 2017 年之前,AI 语言模型靠 RNN 和 LSTM 驱动。这两种架构有一个致命弱点:序列化处理——它们必须一个词一个词地读,前面没读完,后面没法算。这就导致了两个问题:长文本里的前后关联容易丢失,训练也难以并行,规模扩不上去。 这个局面被一篇论文打破了。 Transformer 诞生(2017 年 6 月) Google Brain 团队的 Ashish Vaswani 等人发表了 Attention Is All You Need,提出了 Transformer 架构,核心是"自注意力机制(Self-Attention)"。 它的革命性在哪里?一句话:让模型在处理一个词的时候,能同时看到整个句子里所有词的关联权重,而不是只看"左边刚读过的"。 并且这个计算是可以并行的——GPU 的算力第一次被大模型充分用上了。 Transformer 由 Encoder(理解)和 Decoder(生成)两部分组成,可以灵活组合。这个设计直接决定了后来大模型的两条技术路线。 老墨说: Transformer 是大模型的底层骨架,今天你用的 GPT、Claude、DeepSeek,技术根基都在这篇 2017 年的论文里。你可以不懂数学,但"自注意力"这个词要知道它是干什么的。 两条路线分叉(2018 年) Transformer 出来之后,OpenAI 和 Google 各自选了一条路。 GPT-1(2018 年 6 月,OpenAI):只用 Decoder,专注文本生成。1.17 亿参数,在约 5GB 的书籍语料上预训练,验证了"预训练+微调"在生成任务上的可行性。能力有限,但确立了 GPT 系列"纯 Decoder 生成式"的路线。 ...

2026-04-30 · 4 min · 688 words · 老墨