Temperature

大模型是怎么炼成的：从训练数据到你手里的 API 大家好，我是极客老墨。你有没有想过：ChatGPT、DeepSeek，这些大模型是怎么"造"出来的？很多人用了大半年 AI，依然不知道答案。他们知道模型很强，但不知道强从哪来；知道调 temperature 能改变风格，但不知道为什么。这种"只会开车、不知道发动机"的状态，限制了你对 AI 能力边界的判断，也限制了你设计 AI 应用的想象力。这篇文章要做一件事：把大模型从"一堆原始数据"到"你手里的 API"这条完整链路讲清楚。普通人能看懂，开发者能用上。第一段：模型是怎么被造出来的大模型的诞生，分四个阶段，缺一不可。 flowchart TD A["海量原始数据网页/书籍/代码/论文"] --> B["预训练 Next Token Prediction"] B --> C["指令微调 SFT 教模型听懂人话"] C --> D["强化学习对齐 RLHF 教模型说对的话"] D --> E["量化 & 部署压缩上线"] E --> F["你调用的 API"] 阶段一：预训练——从"0"开始读书预训练是整个大模型能力的根基。这个阶段，模型什么都不知道，就像一张白纸。研究团队先从互联网抓取海量文本的网页数据、Wikipedia、GitHub 代码库、arXiv 论文、书籍……DeepSeek-V3 的预训练数据量超过 14.8 万亿个 Token。这是什么概念？一个人一天读 8 小时，读完大概需要 2 万年。有了数据，然后呢？训练任务出乎意料地简单：给你前面的词，猜下一个词。输入：「人工智能是」目标：预测「一」输入：「人工智能是一」目标：预测「种」输入：「人工智能是一种」目标：预测「模拟」就这么一个任务，重复几十亿次。模型每猜错一次，就调整内部参数，让下次猜得准一点——这个调整过程叫反向传播（Backpropagation）。 ...

大模型 API 核心参数：调对了事半功倍，调错了钱打水漂大家好，我是极客老墨。我刚开始接大模型 API 时，最容易犯的毛病就是把所有问题都往 prompt 上推。输出不稳定，先改 prompt；JSON 解析失败，继续改 prompt；账单涨了，还想着是不是 prompt 不够精简。改到最后，prompt 越写越长，接口却还是像没装仪表盘的车，能跑，但不知道哪里在烧钱、哪里在抖。这篇不讲玄学调参。我就按一个常见场景来讲：做一个客服工单摘要接口。输入是一段用户和客服的对话，输出要稳定变成这样的 JSON： 1{ 2 "summary": "用户咨询退款到账时间，客服告知预计 3-5 个工作日", 3 "category": "refund", 4 "risk_level": "low", 5 "next_action": "等待退款到账" 6} 这个接口看着简单，真接到业务里会遇到四个问题：有时输出一段自然语言，JSON 解析直接炸。有时写到一半停了，字段缺一截。有时同一条工单跑两次，分类不一致。有时为了一个简单摘要开了推理模式，成本和延迟都上去了。这些问题不全是 prompt 的锅。后来我才把 API 参数当成方向盘、油门、刹车和仪表盘来看：prompt 负责告诉模型要去哪，参数负责控制它怎么走、走多远、花多少钱、异常时怎么停下来。本文以 DeepSeek API 为主线。DeepSeek 当前官方文档里，Chat Completions 的模型 ID 是 deepseek-v4-flash 和 deepseek-v4-pro；deepseek-chat、deepseek-reasoner 仍可兼容，但官方已说明将于 2026/07/24 弃用。下面的参数口径按本文撰写时查阅的官方文档编写，后续以官方最新文档为准。 model：我会先选一辆够用的车客服工单摘要这类任务，第一版通常不需要最强模型。它不是奥数题，也不是复杂代码审查，核心是稳定抽取、分类、压缩信息。 DeepSeek 当前官方模型表里有两个主模型： model 适合什么 deepseek-v4-flash 延迟、成本更敏感的通用任务，比如摘要、分类、提取、普通问答 deepseek-v4-pro 更复杂的推理、规划、工具调用、代码分析官方还保留了两个兼容别名： deepseek-chat：对应 deepseek-v4-flash 的非 thinking 模式。 deepseek-reasoner：对应 deepseek-v4-flash 的 thinking 模式。这里我会先做一个保守判断：能用 deepseek-v4-flash 跑稳，就先不上 deepseek-v4-pro；能关 thinking 跑稳，就先不开 thinking。 ...