什么是大模型：开发者必须搞清楚的核心概念

大家好，我是极客老墨。

2022 年 11 月 30 日，OpenAI 悄悄上线了一个叫 ChatGPT 的产品。没有发布会，没有大规模营销，结果五天内注册用户突破 100 万，两个月后破 1 亿——成为史上用户增长最快的消费级应用。

这一年，我第一次在终端里用 API 让它写了段 Go 代码，代码是对的。我盯着屏幕看了很久，心里有个声音说：这东西不一样。

这篇文章的目标很简单：搞清楚大模型是什么，从哪来，现在有哪些主流选择，以及作为开发者你需要知道哪些核心概念。不涉及数学，不涉及训练原理，只讲和开发直接相关的部分。

大模型是什么

大模型（Large Language Model，LLM），本质是基于海量文本数据训练出来的神经网络模型，通过学习语言的统计规律，获得了理解和生成自然语言的能力。核心参数规模通常在百亿级以上——这也是"大"的由来。

一个直白的类比：你可以把大模型想象成一个读过人类几乎所有书籍、论文、代码、对话记录的人。它没有真正的"理解"，但它见过的模式足够多，所以当你给它一段输入，它能预测出"接下来最合理的内容是什么"——而这个"预测"往往精准得令人惊讶。

对开发者来说，有三件事最重要：

调用方式：你不需要自己训练模型。通过 API，几行代码就能接入 GPT、DeepSeek、Claude 等顶级模型的能力
核心价值：大模型把自然语言变成了一种编程接口——你用人话描述需求，它输出结果，极大降低了 AI 功能的开发门槛
能力边界：参数规模决定了模型的能力上限，但训练数据质量、微调策略同样关键。参数多不等于万能

老墨说： 别被"大"字唬住。大模型对开发者的意义就一句话：用 API 调用别人训好的模型，你只管写业务逻辑。

大模型从哪来：关键发展节点

大模型的演进不需要全记，但有几个节点值得了解——它们直接决定了今天你能用到的技术基础。

2017 年：Transformer 诞生

Google 发表了论文 Attention Is All You Need，提出了 Transformer 架构。这篇论文是今天几乎所有大模型的技术根基。在它之前，语言模型用 RNN（循环神经网络），慢且难以并行训练；Transformer 引入了自注意力机制，让模型能同时关注序列中所有位置的关联，训练效率和能力都大幅提升。

2020 年：GPT-3 开启规模时代

OpenAI 发布 GPT-3（1750 亿参数），首次证明了"规模即能力"——只要参数足够大、数据足够多，模型会涌现出意想不到的新能力。这一发现改变了整个 AI 研究方向。

2022 年：ChatGPT 引爆应用层

OpenAI 在 GPT-3.5 基础上加入了 RLHF（基于人类反馈的强化学习），让模型从"能回答"进化为"愿意好好回答"——ChatGPT 由此诞生。它把大模型从研究室带进了主流应用。

2024 年至今：生态成熟，进入开发者红利期

这一阶段的关键词是：能力趋于稳定、API 成本大幅下降、开源模型崛起、生态工具完善。对开发者来说，这是最好的入场时机——无需关注底层训练，直接调用 API 即可构建应用。

老墨说： 学大模型不用从 Transformer 原理学起，就像开车不需要先懂发动机原理。但知道几个关键节点，能帮你理解为什么某些能力是现在这个样子，出问题时也更容易定位原因。

主流大模型选型：开发者视角

市面上的大模型已经超过 100 个，但真正值得开发者关注的，就那么几个。以下按国际/国内分类，聚焦开发实操最相关的特性。

国际主流

GPT 系列（OpenAI）

通用能力天花板，生态最成熟。多模态（文本、图像、语音、视频）、代码生成、Function Calling、结构化输出，该有的都有。API 文档完善，社区资源最丰富，遇到问题 Stack Overflow 和 GitHub 几乎都有答案。

当前旗舰是 GPT-4.1，context window 达 1M tokens，在代码生成和指令遵循上全面超越 GPT-4o。GPT-4o 仍在维护，context window 128K tokens，适合成本敏感场景。

劣势是价格偏高，国内访问需要代理。适合对能力要求高、有出海场景、或者做原型验证的项目。

Claude 系列（Anthropic）

长上下文处理和指令遵循是亮点。当前旗舰 Claude Sonnet 4，API 上 context window 达 1M tokens，处理超长文档、多轮复杂对话时表现稳定。生成内容严谨，幻觉率相对低，适合对准确性要求高的场景（法律、技术文档分析）。

API 文档对开发者友好，支持 OpenAI 兼容格式，切换成本低。国内访问同样需要代理。

Gemini 系列（Google DeepMind）

原生多模态能力最强——文本、图像、音频、视频、代码全模态理解与生成。Gemini 3 Pro（2025 年 11 月发布）支持 1M tokens 的 context window，Gemini 3.1 Pro（2026 年 2 月发布）是其迭代升级版，推理和多模态能力进一步加强，output tokens 扩展到 64K。

与 Google 生态（Android、Workspace、搜索）深度集成，适合多模态应用和需要超大上下文处理的场景。国内同样需要代理。API 参考：Gemini API Developer Guide。

国内主流

DeepSeek（杭州深度求索）

性价比最高，是当前国内开发者的首选。DeepSeek-V3 API 价格极低（约 GPT-4.1 的 1/30），同时保持了接近顶级水平的代码生成和推理能力。

采用 MoE（混合专家）架构：参数总量大，但每次推理只激活部分参数，所以速度快、成本低。支持 128K context window。V3 和 R1 均开源可本地部署。接口完全兼容 OpenAI 格式，只需替换 baseURL 即可无缝切换。

DeepSeek-R1 是推理增强版，内置长思维链（Chain of Thought），适合数学、逻辑、复杂推理类任务，但响应较慢且 token 消耗多，日常问答场景用 V3 更划算。

豆包（字节跳动）

多模态能力全面，同样采用 MoE 架构，长上下文支持到 256K tokens。在字节生态（飞书、抖音、火山引擎）内集成简单，适合构建企业级中文应用。价格也很有竞争力，约 0.0008 元/千 tokens。

通义千问（阿里）

阿里云生态的首选。与阿里系服务（OSS、函数计算、DashScope）集成方便，适合已在阿里云上有基础设施的团队。中文处理能力优秀，行业版本（金融、医疗）有专门优化。

GLM 系列（智谱 AI）

清华系背景，最新的 GLM-4.5 采用 MoE 架构（355B 总参数，32B 激活参数），在代码生成和 Agent 工具调用方面表现突出。开源友好，GLM-4-9B 等轻量模型可在消费级 GPU 上本地部署，适合有本地化需求的场景。

Kimi（月之暗面）

超长上下文是核心差异点，支持 200 万 tokens 输入，号称"能读完一整本书"。视觉理解能力强，可从 UI 截图直接生成前端代码，适合长文档分析和视觉编程场景。

文心一言（百度）

中文语境理解精准，与百度生态（搜索、地图、文库）深度联动。支持本地化部署，适合对数据安全有要求的企业场景。

老墨说： 不要一开始就纠结选哪个模型。对于大多数入门项目，用 DeepSeek-V3——便宜、能力强、接口和 OpenAI 完全兼容，学会了可以无缝切换到任何其他模型。

开发者必须懂的四个核心概念

大模型的分工类型

市面上的模型并非同一种东西，叫"大模型"只是习惯说法。按用途分，至少有五类：

LLM（语言模型）— 生成文字，最常见

给输入生成输出，日常说的"大模型"几乎都指这类。内部又分几个子类型：

子类型	代表模型	特点
Instruct / Chat	Qwen2.5-Instruct、GPT-4o	指令遵循，直接问答，最常用
推理型（Reasoning）	DeepSeek-R1、QwQ	回答前先输出 `<think>` 推理链，擅长数学/逻辑，但慢、token 消耗大
代码型	DeepSeek-Coder、Qwen2.5-Coder	代码生成、补全、调试专项优化
Base（基座）	Qwen2.5-14B（无 Instruct 后缀）	未做指令微调，通常用于继续训练，不直接对话

Instruct 和 Reasoning 的区别容易混淆——同一个问题"重疾险怎么理赔"，Instruct 模型直接给答案，Reasoning 模型先在脑子里"打草稿"推导半天再给答案。答案质量差不多，但 Reasoning 多花几秒、多消耗几百 token。客服、问答、写作等高频场景用 Instruct，数学证明、复杂逻辑推理才需要 Reasoning。

Embedding（向量模型）— 把文字变向量

不生成文字，输出是一个高维数字数组（向量），用于衡量两段文字的语义距离。

"重疾险理赔流程"   →  [0.12, -0.87, 0.34, ...]  (1024 个数字)
"大病保险申请步骤"  →  [0.11, -0.85, 0.36, ...]  ← 数字接近，语义相似
"今天天气怎么样"   →  [0.89,  0.23, -0.71, ...]  ← 数字差很远，语义无关

主要用途：RAG 知识库检索、语义搜索、文档去重、内容聚类。代表模型：qwen3-embedding、bge-m3、text-embedding-3-small。

Reranker（重排模型）— 精排相关性

固定搭配 Embedding 使用。Embedding 检索速度快但精度有限（把文字压缩成向量时会丢失细节），Reranker 把"问题 + 文档"放在一起做精细比对，输出一个相关性分数，不生成文字。

典型流程：Embedding 从知识库粗筛 20 条（快）→ Reranker 精排取 Top 5（准）→ LLM 基于这 5 条生成回答。代表模型：qwen3-reranker、bge-reranker-v2-m3。

多模态模型 — 处理图片 / 音频 / 视频

处理非文字输入，或生成非文字输出：

子类型	代表模型	能做什么
视觉理解（VLM）	Qwen2.5-VL、LLaVA	看图说话、OCR、图表分析
语音识别（ASR）	Whisper	语音转文字
文字转语音（TTS）	CosyVoice、Edge-TTS	文字转语音
图像生成	Stable Diffusion、FLUX	文字生图
视频生成	Wan2.1、可灵 3.0	文字 / 图片生视频

分类 / 结构化输出模型 — 输出固定标签

不生成自由文本，输出固定结构：情感分析（正面 / 负面 / 中性）、意图识别（咨询 / 投诉 / 理赔）、实体抽取（从文本中识别人名、金额、日期）。在 RAG 应用里常用来做用户意图分流，判断该走哪条检索路径。

老墨说： 一个典型的 AI 应用往往同时用到多种模型——RAG 客服系统里，Embedding 模型负责检索，Reranker 负责精排，LLM 负责生成回答，三者分工协作，缺一不可。不要把"大模型"当成一个东西，它是一个生态。

多模态

“模态"就是信息的类型：文本、图片、音频、视频是不同的模态。多模态大模型能跨模态理解和生成——比如输入一段文字，生成对应图片；或者上传一张产品截图，让模型写出对应的介绍文案。

从开发角度，多模态意味着你可以在一个 API 调用里混合多种类型的输入，而不用对接多个单一能力的模型。

Token

Token 是大模型处理文本的最小单位，不等于一个字或一个词，而是分词算法切割后的"文字碎片”。

粗略估算：

英文：1 个单词 ≈ 1–1.3 tokens
中文：1 个汉字 ≈ 1–2 tokens
一篇 1000 字的中文文章 ≈ 1500–2000 tokens

Token 是大模型计费的基本单位——你发送的输入（prompt）和模型返回的输出都会被计入 token 用量。控制 token 消耗是大模型应用开发里绕不开的成本话题。

Context Window（上下文窗口）

每次请求，模型能"看到"的信息总量有上限，这个上限就是 context window，单位是 tokens。以下是 2026 年初各主流模型的参数（以官方 API 文档为准）：

模型	Context Window
GPT-4.1	1M tokens
GPT-4o	128K tokens
Claude Sonnet 4（API）	1M tokens
DeepSeek-V3	128K tokens
Gemini 3.1 Pro	1M tokens
Kimi	2M tokens

这个数字决定了你的应用能处理多长的文档、能维持多长的对话历史。超出上限，早期内容会被截断丢弃——这是多轮对话设计里的核心约束，后面的章节会详细展开。

老墨说： 1M tokens 大约等于 75 万个英文单词，相当于《哈利·波特》全集。但 context 越长，推理成本越高、速度越慢。实际工程里，用够用就行，别追着大 context 跑。

选型速查

LLM 选型

场景	推荐
日常开发 / 快速入门	DeepSeek-V3
代码生成 / 复杂推理	DeepSeek-R1、GLM-4.5、GPT-4.1
超长文档处理	Kimi、Claude Sonnet 4、Gemini 3.1 Pro
多模态（图/视频）	Gemini 3.1 Pro、豆包、GPT-4.1
中文企业应用	豆包、文心、通义千问
出海 / 严谨场景	Claude Sonnet 4、GPT-4.1
本地化私有部署	Qwen2.5-Instruct（开源）、DeepSeek-V3（开源）

Embedding / Reranker 选型

场景	推荐
中文 RAG（本地部署）	qwen3-embedding + qwen3-reranker
中文 RAG（三模态混合检索）	bge-m3 + bge-reranker-v2-m3
英文 RAG（API）	text-embedding-3-small（OpenAI）

老墨总结

大模型本质是一个"学过海量数据的预测机器"，通过 API 把这个能力暴露给开发者调用。理解它的三个核心概念——Token（计费单元）、Context Window（记忆上限）、多模态（跨类型能力）——就能应对后续 90% 的开发场景。

选型不要过度纠结：入门用 DeepSeek，生产环境根据场景按上面的表格选，接口都兼容 OpenAI 格式，随时可以切换。

有一点值得额外说：大模型迭代速度极快，这篇文章里的参数数字可能几个月就过时了。养成看官方文档的习惯，比背参数重要得多——今天的 context window 大小，明天可能就翻倍了。

下一篇，我们会把大模型的发展时间线拆得更细，看清楚每个阶段留下了什么技术遗产，以及为什么今天的大模型长成了现在这个样子。

文章有帮助？转发给同样在踩坑的朋友。有不同意见？评论区见。

关注公众号：极客老墨

更多 AI 应用开发、工程实践和效率工具分享，欢迎扫码关注。

什么是大模型：开发者必须搞清楚的核心概念#

大模型是什么#

大模型从哪来：关键发展节点#

主流大模型选型：开发者视角#

国际主流#

国内主流#

开发者必须懂的四个核心概念#

大模型的分工类型#

多模态#

Token#

Context Window（上下文窗口）#

选型速查#

老墨总结#

相关阅读