大模型发展史：从一篇论文到改变世界

大家好，我是极客老墨。

有人问过我：学大模型开发，需要搞清楚历史吗？

我的答案是：不需要全记，但有几个节点绕不过去。就像你不需要知道 Linux 每一个版本的变化，但如果你不知道 1991 年 Linus 为什么会写内核、不知道 GPL 协议的来历，你就很难理解为什么今天的开源生态长成了现在这个样子。

大模型的历史也是一样的道理。

这篇文章不是"时间轴背诵手册"，而是帮你搞清楚：每一个关键节点留下了什么技术遗产，以及这些遗产如何层层叠加，构成了你今天调用 API 时那个"黑盒"里的底层逻辑。

第一阶段：奠基期（2017–2019）——骨架确立，两条路线分叉

在 2017 年之前，AI 语言模型靠 RNN 和 LSTM 驱动。这两种架构有一个致命弱点：序列化处理——它们必须一个词一个词地读，前面没读完，后面没法算。这就导致了两个问题：长文本里的前后关联容易丢失，训练也难以并行，规模扩不上去。

这个局面被一篇论文打破了。

Transformer 诞生（2017 年 6 月）

Google Brain 团队的 Ashish Vaswani 等人发表了 Attention Is All You Need，提出了 Transformer 架构，核心是"自注意力机制（Self-Attention）"。

它的革命性在哪里？一句话：让模型在处理一个词的时候，能同时看到整个句子里所有词的关联权重，而不是只看"左边刚读过的"。 并且这个计算是可以并行的——GPU 的算力第一次被大模型充分用上了。

Transformer 由 Encoder（理解）和 Decoder（生成）两部分组成，可以灵活组合。这个设计直接决定了后来大模型的两条技术路线。

老墨说： Transformer 是大模型的底层骨架，今天你用的 GPT、Claude、DeepSeek，技术根基都在这篇 2017 年的论文里。你可以不懂数学，但"自注意力"这个词要知道它是干什么的。

两条路线分叉（2018 年）

Transformer 出来之后，OpenAI 和 Google 各自选了一条路。

GPT-1（2018 年 6 月，OpenAI）：只用 Decoder，专注文本生成。1.17 亿参数，在约 5GB 的书籍语料上预训练，验证了"预训练+微调"在生成任务上的可行性。能力有限，但确立了 GPT 系列"纯 Decoder 生成式"的路线。

BERT（2018 年 10 月，Google）：只用 Encoder，专注文本理解。有 Base（1.1 亿参数）和 Large（3.4 亿参数）两个版本，通过"掩码语言模型"预训练，能双向理解上下文。在 11 项 NLP 基准任务上刷新 SOTA，成为文本理解领域的标杆。

这两条路线的分叉意义深远：生成式（GPT 系列）走向了今天的 ChatGPT；理解式（BERT 系列）则深入搜索、问答、NER 等场景，也是国内百度 ERNIE 系列的起点。

2019 年的其他进展：

GPT-2（2019 年 2 月）：参数从 GPT-1 的 1.17 亿扩大到 15 亿，首次实现零样本学习——无需微调，直接完成翻译、摘要任务。OpenAI 当时认为它"太危险"，一开始拒绝完整开源（后来全部公开了）。
T5（2019 年 10 月，Google）：把所有 NLP 任务统一成"文本→文本"格式，简化了多任务学习框架。
ERNIE 1.0（2019 年 12 月，百度）：首次把知识图谱融入预训练，“知识增强"思路从这里发端。

第二阶段：爆发期（2020–2022）——规模竞赛，能力涌现

Transformer 骨架确立了，接下来的问题变成：往里塞多少参数、喂多少数据，模型能变多强？

这个阶段的主旋律是"堆规模”。

GPT-3：千亿参数时代开幕（2020 年 5 月）

OpenAI 把参数堆到了 1750 亿，是 GPT-2 的 117 倍。训练数据约 570GB，用了 1024 块 V100，训练成本约 460 万美元。

参数多了，出现了之前没有的能力——这个现象被称为 “涌现能力（Emergent Abilities）” ：模型规模超过某个阈值之后，突然会做训练时从没专门练过的事情，比如推理、代码生成、跨语言翻译。

更重要的是 In-Context Learning（上下文学习）：你不需要微调模型，只要在 prompt 里给几个例子，它就能完成同类任务。这直接催生了"Prompt 工程"这个新职业。

GPT-3 没有开源，只提供 API 调用——这是大模型"API 服务化"商业模式的起点。

老墨说： GPT-3 证明了"缩放定律（Scaling Law）"：参数量和数据量与能力正相关。这个发现改变了整个行业的研发策略，此后几年，大家比的就是谁堆得更大。

PaLM：纯 Decoder 的极限探索（2022 年 4 月）

Google 发布了 PaLM（Pathways Language Model），540 亿参数，同样是纯 Decoder 架构（不是 Encoder-Decoder）。训练数据约 7800 亿 tokens，在数学推理、逻辑推理、多语言处理上的表现超越了 GPT-3。

PaLM 只用于 Google 内部，未对外开放 API，主要用于优化搜索和 Workspace 产品。它的意义在于为 Gemini 系列铺路，也是 Google 在大模型参数规模上与 OpenAI 正面竞争的一次重要尝试。

Chinchilla：用数据打败参数（2022 年 3 月）

就在大家都在比谁的参数多的时候，DeepMind 发了一篇让行业重新思考的论文，并附带了模型 Chinchilla。

论文 Training Compute-Optimal Large Language Models 的核心结论是：用相同的算力，与其堆更多参数，不如喂更多数据。 模型参数量和训练 token 量应该"等比例增长"，此前大家训练的模型普遍"数据喂得不够"。

Chinchilla 只有 700 亿参数，但用 1.4 万亿 tokens 训练——是同期 GPT-3 的 3.4 倍数据量。结果：用 GPT-3 十分之一的推理成本，达到了接近 PaLM（5400 亿参数）的性能。

这篇论文重新定义了大模型的训练哲学，也直接推动了后来"小参数+海量数据"路线（如 LLaMA 系列）的崛起。

ChatGPT：大模型破圈（2022 年 11 月 30 日）

上面那些模型，都是研究圈里的事。ChatGPT 把大模型带进了所有人的生活。

基础模型是 GPT-3.5（约 1750 亿参数），关键改变是加了 RLHF（Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习）：让人类标注者给模型输出打分，训练一个"奖励模型"，再用这个奖励模型持续优化生成模型。结果是让 AI 从"能回答"进化成了"愿意好好回答"。

两个月，1 亿月活用户。史上增长最快的消费级应用。

老墨说： RLHF 解决的不是"模型能不能做"的问题，而是"模型愿不愿意按你的方式做"的问题。这个差别，决定了 ChatGPT 和之前所有大模型在用户体验上的本质区别。

2021–2022 年的其他进展：

国产大模型起步：百度 ERNIE 3.0 Titan（千亿级）、华为盘古 α（1000 亿参数）、清华 GLM-130B（中英双语）相继发布。
LLaMA 1（2023 年 2 月，Meta）：70 亿、130 亿、700 亿等多个版本，完全开源，掀起了开源大模型生态的浪潮。

第三阶段：普及期（2023）——多模态、百模大战、效率革命

ChatGPT 引爆之后，整个行业都动了。2023 年的主旋律是三个并行：多模态能力跃升、国内百模大战、开源模型崛起。

GPT-4：多模态时代开幕（2023 年 3 月）

参数未公开（专家推测是万亿级 MoE 架构），但对开发者来说，有三点关键：

第一，真正的多模态：同时接受文本和图像输入，能看图表、读手写文字、理解截图里的代码。这是质变，不是量变。

第二，推理能力飞跃：通过了律师资格考试（前 10%），通过了美国医学执照考试。以前你会怀疑大模型能不能胜任专业任务，GPT-4 之后这个疑问基本消散了。

第三，幻觉率大幅下降：生成内容的准确性显著提升，开始可以用于法律、医疗、金融等对准确性有要求的场景。

上下文窗口从 8K 升级到 32K tokens。API 开放，商业化模式成熟（每月 20 美元的 ChatGPT Plus，或按 token 计费的 API）。

Mixtral 8x7B：MoE 走向主流（2023 年 12 月）

Mistral AI 发布了 Mixtral 8x7B，这是 MoE（混合专家）架构大规模普及的标志性事件。

MoE 的逻辑是：不是每次推理都激活全部参数，而是让不同"专家模型"按需激活。Mixtral 总参数约 560 亿，但推理时只激活约 140 亿（两个专家），性能接近 700 亿参数的密集模型，速度快 2-3 倍，成本低一半。

完全开源，可商用，可本地部署——MoE 架构从此成为国内外大模型的主流选择（DeepSeek-V3、豆包、GLM-4.5 都用了这个架构）。

国内百模大战（2023 年 4 月–12 月）

GPT-4 发布两周后，国内科技公司的 PPT 上开始密集出现"大模型战略"四个字。

百度文心一言（ERNIE 4.0）：3 月发布，知识增强路线，中文理解强，率先支持多模态
阿里通义千问：4 月发布，深度绑定阿里云，电商、金融场景优先
腾讯混元：9 月发布，整合微信、腾讯云、游戏生态
字节云雀（豆包前身）：10 月发布，长上下文+多模态，抖音、飞书生态协同
智谱 GLM-4：12 月发布，代码生成能力突出，开源友好

MiniMax、Kimi（月之暗面）、DeepSeek 等初创公司也在这一年相继冒头，聚焦"长上下文"“低成本"“垂直场景”，差异化竞争。

老墨说： 百模大战的本质是"占位”——谁先把大模型能力接进自家生态，谁就在 AI 时代握住了入口。对开发者来说，这一年的最大红利是：接口越来越标准化（几乎全部兼容 OpenAI 格式），换模型的成本越来越低。

其他进展：

Llama 2（2023 年 7 月，Meta）：开源可商用，70 亿/130 亿/700 亿三个版本，开源模型的能力下限被大幅拉高。
PEFT 技术普及：QLoRA、LoRA 等参数高效微调方案成熟，微调成本降到个人开发者可以承担的水平——不用 A100 集群，一张消费级 GPU 就能微调 70 亿参数的模型。

第四阶段：成熟期（2024–2026）——长上下文、Agent 化、国产突围

大模型从"令人惊叹的新玩具"变成了"需要认真集成的基础设施"。

Claude 3 系列：长上下文的标杆（2024 年 3 月）

Anthropic 发布 Claude 3（Opus / Sonnet / Haiku 三个版本），有几个数字值得记住：

Opus 版 context window 达 100 万 tokens：约等于 75 万个英文单词，一整个中型代码库可以丢进去让它看
幻觉率：Anthropic 对外宣称降至行业最低，生成内容严谨性明显优于同期 GPT-4

Claude 3 系列建立了"高准确性场景首选 Claude"的市场认知。之后 Claude 持续迭代，Sonnet 4 的 API context window 进一步扩展到 1M tokens。

Gemini 1.5 + GPT-4o：多模态进入实时时代（2024 年 5 月）

Gemini 1.5（Google）：context window 达 100 万 tokens（后来扩展到 1000 万 tokens 实验版），更重要的是实现了文本、图像、音频、视频的原生多模态统一——不是不同模型拼接，而是同一个模型同时理解多种输入。

GPT-4o（OpenAI）：o 代表"omni"，即全模态。支持实时语音对话，反应速度接近人类交谈节奏，推理速度比 GPT-4 快 2 倍，调用成本降低 50%。GPT-4o 之后，AI 对话产品开始从"打字交互"向"语音交互"迁移。

DeepSeek：用 1% 的成本打出顶级水准（2024 年末–2025 年初）

国产大模型里，DeepSeek 是最值得单独讲的。

2025年的1月20日，正当大家都在准备春节假期的时候，DeepSeek突然发布DeepSeek-R1 推理模型，轰动全球。核心原因：用极低算力和成本，做出对标 GPT‑o1 的推理能力，同时全栈开源、价格击穿行业，直接打破 “堆算力 = 强 AI” 的行业铁律，重塑全球大模型竞争格局。

据网上小道消息透露，梁文锋当时在武装的守护下在家吃了团圆饭。

DeepSeek的旗舰模型主要有两款：

DeepSeek-V3：671 亿总参数（MoE，37 亿激活），训练成本约为 GPT-4 的 1%，代码生成和数学推理能力达到全球顶级水准。完全开源，接口兼容 OpenAI 格式。API 调用价格约为 GPT-4o 的 1/30。
DeepSeek-R1：推理旗舰，内置长思维链（Chain of Thought），在数学、逻辑、复杂推理任务上进一步突破，同样开源。

DeepSeek 的出现打破了一个"常识"：顶级大模型不再需要顶级算力预算。这对国内开发者是实质性利好——同样的性能，开发成本大幅下降。

国产大模型全面成熟（2024–2025 年）

豆包（字节）：MoE 架构，支持 256K 上下文，多模态全栈，API 极低成本（约 0.0008 元/千 tokens），与抖音、飞书深度绑定
Kimi（月之暗面）：2M tokens 上下文，视觉编程能力突出（截图直接生成前端代码），长文档处理场景首选
GLM-4.5（2025 年 7 月，智谱 AI）：MoE 架构，355B 总参 / 32B 激活，代码生成和 Agent 工具调用能力突出，开源，MIT 协议可商用
GLM-5（2026 年 2 月，智谱 AI）：参数约为 GLM-4.5 的 2 倍，Coding 和 Agent 能力全球第三、开源第一，体感逼近 Claude Opus 4.5，专注复杂系统工程和长周期 Agent 任务；2026 年 3 月进一步迭代发布 GLM-5.1
通义千问、文心一言：强化企业级服务，专注行业微调（金融、医疗、教育），支持私有化部署

老墨说： 2024–2025 年是国产大模型真正成熟的两年。不是因为参数最大，而是因为在"性价比、中文能力、接口兼容性、本地部署"这几个对国内开发者最实际的维度上，真正做到了可用、好用。

2025–2026 年：Agent 化、轻量化、多模型协同

这一阶段的核心词不再是"参数多少"，而是 “大模型能干什么活”。

Agent 化：大模型具备了"自主规划→工具调用→多步骤执行"的能力，可以自动写代码、搜索信息、操作浏览器、处理工作流。你可以把它理解成：大模型从"会说话的助手"变成了"能干活的员工"。
轻量化：百亿参数以下的小模型性能逼近大模型，可以在手机、边缘设备上运行。端侧 AI 进入实用阶段。
多模型协同：一个应用里同时调用多个模型已经很普遍——用 Claude 处理长文档，用 DeepSeek-R1 做复杂推理，用豆包生成图像，API 格式兼容，调度成本低。

老墨说：2025年11月，开源Agent OpenClaw的首次发布和迅速走红，让AI从只能聊天的伙伴变成了"真正能干活的AI智能助手"，彻底拉低了智能体开发与落地的门槛，重塑了 AI 智能体的开发范式与应用生态，是开源智能体从 “原型实验” 走向 “生产落地” 的里程碑。

核心里程碑速查表

时间	事件	核心突破	留下了什么
2017.06	Transformer 诞生	自注意力机制，并行计算	所有现代大模型的底层骨架
2018.06	GPT-1	纯 Decoder，预训练+微调	生成式大模型路线确立
2018.10	BERT	纯 Encoder，双向理解	理解式大模型路线，NLP 各项任务 SOTA
2019.02	GPT-2（15 亿参数）	零样本学习	证明规模带来新能力
2020.05	GPT-3（1750 亿参数）	涌现能力，In-Context Learning	缩放定律，Prompt 工程，API 商业化
2022.03	Chinchilla	数据量比参数量更重要	重新定义训练哲学，推动 LLaMA 路线
2022.04	PaLM（540 亿参数）	强推理，多语言，纯 Decoder	Gemini 系列的前身
2022.11	ChatGPT	RLHF，多轮对话对齐	AIGC 全民化，Prompt 技术普及
2023.02	LLaMA 1（Meta）	开源多规格模型	开源大模型生态起点
2023.03	GPT-4	多模态，强推理，32K 上下文	多模态时代开启
2023.12	Mixtral 8x7B	MoE 架构，开源可商用	MoE 成为主流架构
2023 全年	国内百模大战	中文能力，本地化，生态绑定	国产大模型体系成型
2024.03	Claude 3 系列	1M tokens 上下文，低幻觉	长文本处理场景标杆
2024.05	GPT-4o / Gemini 1.5	实时多模态，超长上下文	交互从文字走向语音/视频
2024–2025	DeepSeek-V3 / R1	1% 成本，顶级水准，开源	打破"大模型必须大预算"的认知
2026.02	GLM-5（智谱 AI）	Coding/Agent 开源第一，逼近 Claude Opus	国产开源大模型能力跃升新标杆
2025–2026	Agent 化、轻量化	自主执行，端侧部署	大模型从工具变成生产力基础设施

老墨总结

回头看这段历史，有一条隐约的主线：技术每一次突破，都是为了解决上一个阶段的瓶颈。

Transformer 解决了 RNN 的并行瓶颈；GPT-3 证明了规模的价值；Chinchilla 纠正了"只堆参数"的偏差；RLHF 解决了"模型能做但不愿意好好做"的对齐问题；MoE 解决了大参数的推理成本问题；Agent 在解决"模型能说但不能做"的行动力问题。

每一步都踩在前一步的肩膀上。

作为开发者，你不需要精通每一个技术细节，但你需要知道：你今天用的 API 背后，是这些积累叠加出来的。知道历史，在遇到具体问题时（比如为什么 context 超长后质量下降，为什么某些任务要用推理模型），你才有直觉去找方向，而不是盲目试探。

下一篇，我们进入大模型的工作原理——从"输入→Token→推理→输出"，把这个黑盒拆开来看看里面有什么。

文章有帮助？转发给同样在踩坑的朋友。有不同意见？评论区见。

关注公众号：极客老墨

更多 AI 应用开发、工程实践和效率工具分享，欢迎扫码关注。

大模型发展史：从一篇论文到改变世界#

第一阶段：奠基期（2017–2019）——骨架确立，两条路线分叉#

Transformer 诞生（2017 年 6 月）#

两条路线分叉（2018 年）#

第二阶段：爆发期（2020–2022）——规模竞赛，能力涌现#

GPT-3：千亿参数时代开幕（2020 年 5 月）#

PaLM：纯 Decoder 的极限探索（2022 年 4 月）#

Chinchilla：用数据打败参数（2022 年 3 月）#

ChatGPT：大模型破圈（2022 年 11 月 30 日）#

第三阶段：普及期（2023）——多模态、百模大战、效率革命#

GPT-4：多模态时代开幕（2023 年 3 月）#

Mixtral 8x7B：MoE 走向主流（2023 年 12 月）#

国内百模大战（2023 年 4 月–12 月）#

第四阶段：成熟期（2024–2026）——长上下文、Agent 化、国产突围#

Claude 3 系列：长上下文的标杆（2024 年 3 月）#

Gemini 1.5 + GPT-4o：多模态进入实时时代（2024 年 5 月）#

DeepSeek：用 1% 的成本打出顶级水准（2024 年末–2025 年初）#

国产大模型全面成熟（2024–2025 年）#

2025–2026 年：Agent 化、轻量化、多模型协同#

核心里程碑速查表#

老墨总结#

相关阅读