Pretraining

大模型是怎么炼成的：从训练数据到你手里的 API 大家好，我是极客老墨。你有没有想过：ChatGPT、DeepSeek，这些大模型是怎么"造"出来的？很多人用了大半年 AI，依然不知道答案。他们知道模型很强，但不知道强从哪来；知道调 temperature 能改变风格，但不知道为什么。这种"只会开车、不知道发动机"的状态，限制了你对 AI 能力边界的判断，也限制了你设计 AI 应用的想象力。这篇文章要做一件事：把大模型从"一堆原始数据"到"你手里的 API"这条完整链路讲清楚。普通人能看懂，开发者能用上。第一段：模型是怎么被造出来的大模型的诞生，分四个阶段，缺一不可。 flowchart TD A["海量原始数据网页/书籍/代码/论文"] --> B["预训练 Next Token Prediction"] B --> C["指令微调 SFT 教模型听懂人话"] C --> D["强化学习对齐 RLHF 教模型说对的话"] D --> E["量化 & 部署压缩上线"] E --> F["你调用的 API"] 阶段一：预训练——从"0"开始读书预训练是整个大模型能力的根基。这个阶段，模型什么都不知道，就像一张白纸。研究团队先从互联网抓取海量文本的网页数据、Wikipedia、GitHub 代码库、arXiv 论文、书籍……DeepSeek-V3 的预训练数据量超过 14.8 万亿个 Token。这是什么概念？一个人一天读 8 小时，读完大概需要 2 万年。有了数据，然后呢？训练任务出乎意料地简单：给你前面的词，猜下一个词。输入：「人工智能是」目标：预测「一」输入：「人工智能是一」目标：预测「种」输入：「人工智能是一种」目标：预测「模拟」就这么一个任务，重复几十亿次。模型每猜错一次，就调整内部参数，让下次猜得准一点——这个调整过程叫反向传播（Backpropagation）。 ...