大模型是怎么炼成的:从训练数据到你手里的 API

大模型是怎么炼成的:从训练数据到你手里的 API 大家好,我是极客老墨。 你有没有想过:ChatGPT、DeepSeek,这些大模型是怎么"造"出来的? 很多人用了大半年 AI,依然不知道答案。他们知道模型很强,但不知道强从哪来;知道调 temperature 能改变风格,但不知道为什么。这种"只会开车、不知道发动机"的状态,限制了你对 AI 能力边界的判断,也限制了你设计 AI 应用的想象力。 这篇文章要做一件事:把大模型从"一堆原始数据"到"你手里的 API"这条完整链路讲清楚。 普通人能看懂,开发者能用上。 第一段:模型是怎么被造出来的 大模型的诞生,分四个阶段,缺一不可。 flowchart TD A["海量原始数据 网页/书籍/代码/论文"] --> B["预训练 Next Token Prediction"] B --> C["指令微调 SFT 教模型听懂人话"] C --> D["强化学习对齐 RLHF 教模型说对的话"] D --> E["量化 & 部署 压缩上线"] E --> F["你调用的 API"] 阶段一:预训练——从"0"开始读书 预训练是整个大模型能力的根基。这个阶段,模型什么都不知道,就像一张白纸。 研究团队先从互联网抓取海量文本的网页数据、Wikipedia、GitHub 代码库、arXiv 论文、书籍……DeepSeek-V3 的预训练数据量超过 14.8 万亿个 Token。这是什么概念?一个人一天读 8 小时,读完大概需要 2 万年。 有了数据,然后呢?训练任务出乎意料地简单:给你前面的词,猜下一个词。 输入:「人工智能是」 目标:预测「一」 输入:「人工智能是一」 目标:预测「种」 输入:「人工智能是一种」 目标:预测「模拟」 就这么一个任务,重复几十亿次。模型每猜错一次,就调整内部参数,让下次猜得准一点——这个调整过程叫反向传播(Backpropagation)。 ...

2026-05-04 · 3 min · 528 words · 老墨