什么是大模型:开发者必须搞清楚的核心概念

大家好,我是极客老墨。

2022 年 11 月 30 日,OpenAI 悄悄上线了一个叫 ChatGPT 的产品。没有发布会,没有大规模营销,结果五天内注册用户突破 100 万,两个月后破 1 亿——成为史上用户增长最快的消费级应用

这一年,我第一次在终端里用 API 让它写了段 Go 代码,代码是对的。我盯着屏幕看了很久,心里有个声音说:这东西不一样。

这篇文章的目标很简单:搞清楚大模型是什么,从哪来,现在有哪些主流选择,以及作为开发者你需要知道哪些核心概念。不涉及数学,不涉及训练原理,只讲和开发直接相关的部分。

大模型是什么

大模型(Large Language Model,LLM),本质是基于海量文本数据训练出来的神经网络模型,通过学习语言的统计规律,获得了理解和生成自然语言的能力。核心参数规模通常在百亿级以上——这也是"大"的由来。

一个直白的类比:你可以把大模型想象成一个读过人类几乎所有书籍、论文、代码、对话记录的人。它没有真正的"理解",但它见过的模式足够多,所以当你给它一段输入,它能预测出"接下来最合理的内容是什么"——而这个"预测"往往精准得令人惊讶。

对开发者来说,有三件事最重要:

  • 调用方式:你不需要自己训练模型。通过 API,几行代码就能接入 GPT、DeepSeek、Claude 等顶级模型的能力
  • 核心价值:大模型把自然语言变成了一种编程接口——你用人话描述需求,它输出结果,极大降低了 AI 功能的开发门槛
  • 能力边界:参数规模决定了模型的能力上限,但训练数据质量、微调策略同样关键。参数多不等于万能

老墨说: 别被"大"字唬住。大模型对开发者的意义就一句话:用 API 调用别人训好的模型,你只管写业务逻辑。


大模型从哪来:关键发展节点

大模型的演进不需要全记,但有几个节点值得了解——它们直接决定了今天你能用到的技术基础。

2017 年:Transformer 诞生

Google 发表了论文 Attention Is All You Need,提出了 Transformer 架构。这篇论文是今天几乎所有大模型的技术根基。在它之前,语言模型用 RNN(循环神经网络),慢且难以并行训练;Transformer 引入了自注意力机制,让模型能同时关注序列中所有位置的关联,训练效率和能力都大幅提升。

2020 年:GPT-3 开启规模时代

OpenAI 发布 GPT-3(1750 亿参数),首次证明了"规模即能力"——只要参数足够大、数据足够多,模型会涌现出意想不到的新能力。这一发现改变了整个 AI 研究方向。

2022 年:ChatGPT 引爆应用层

OpenAI 在 GPT-3.5 基础上加入了 RLHF(基于人类反馈的强化学习),让模型从"能回答"进化为"愿意好好回答"——ChatGPT 由此诞生。它把大模型从研究室带进了主流应用。

2024 年至今:生态成熟,进入开发者红利期

这一阶段的关键词是:能力趋于稳定、API 成本大幅下降、开源模型崛起、生态工具完善。对开发者来说,这是最好的入场时机——无需关注底层训练,直接调用 API 即可构建应用。

老墨说: 学大模型不用从 Transformer 原理学起,就像开车不需要先懂发动机原理。但知道几个关键节点,能帮你理解为什么某些能力是现在这个样子,出问题时也更容易定位原因。


主流大模型选型:开发者视角

市面上的大模型已经超过 100 个,但真正值得开发者关注的,就那么几个。以下按国际/国内分类,聚焦开发实操最相关的特性。

国际主流

GPT 系列(OpenAI)

通用能力天花板,生态最成熟。多模态(文本、图像、语音、视频)、代码生成、Function Calling、结构化输出,该有的都有。API 文档完善,社区资源最丰富,遇到问题 Stack Overflow 和 GitHub 几乎都有答案。

当前旗舰是 GPT-4.1,context window 达 1M tokens,在代码生成和指令遵循上全面超越 GPT-4o。GPT-4o 仍在维护,context window 128K tokens,适合成本敏感场景。

劣势是价格偏高,国内访问需要代理。适合对能力要求高、有出海场景、或者做原型验证的项目。

Claude 系列(Anthropic)

长上下文处理和指令遵循是亮点。当前旗舰 Claude Sonnet 4,API 上 context window 达 1M tokens,处理超长文档、多轮复杂对话时表现稳定。生成内容严谨,幻觉率相对低,适合对准确性要求高的场景(法律、技术文档分析)。

API 文档对开发者友好,支持 OpenAI 兼容格式,切换成本低。国内访问同样需要代理。

Gemini 系列(Google DeepMind)

原生多模态能力最强——文本、图像、音频、视频、代码全模态理解与生成。Gemini 3 Pro(2025 年 11 月发布)支持 1M tokens 的 context window,Gemini 3.1 Pro(2026 年 2 月发布)是其迭代升级版,推理和多模态能力进一步加强,output tokens 扩展到 64K。

与 Google 生态(Android、Workspace、搜索)深度集成,适合多模态应用和需要超大上下文处理的场景。国内同样需要代理。API 参考:Gemini API Developer Guide

国内主流

DeepSeek(杭州深度求索)

性价比最高,是当前国内开发者的首选。DeepSeek-V3 API 价格极低(约 GPT-4.1 的 1/30),同时保持了接近顶级水平的代码生成和推理能力。

采用 MoE(混合专家)架构:参数总量大,但每次推理只激活部分参数,所以速度快、成本低。支持 128K context window。V3 和 R1 均开源可本地部署。接口完全兼容 OpenAI 格式,只需替换 baseURL 即可无缝切换。

DeepSeek-R1 是推理增强版,内置长思维链(Chain of Thought),适合数学、逻辑、复杂推理类任务,但响应较慢且 token 消耗多,日常问答场景用 V3 更划算。

豆包(字节跳动)

多模态能力全面,同样采用 MoE 架构,长上下文支持到 256K tokens。在字节生态(飞书、抖音、火山引擎)内集成简单,适合构建企业级中文应用。价格也很有竞争力,约 0.0008 元/千 tokens。

通义千问(阿里)

阿里云生态的首选。与阿里系服务(OSS、函数计算、DashScope)集成方便,适合已在阿里云上有基础设施的团队。中文处理能力优秀,行业版本(金融、医疗)有专门优化。

GLM 系列(智谱 AI)

清华系背景,最新的 GLM-4.5 采用 MoE 架构(355B 总参数,32B 激活参数),在代码生成和 Agent 工具调用方面表现突出。开源友好,GLM-4-9B 等轻量模型可在消费级 GPU 上本地部署,适合有本地化需求的场景。

Kimi(月之暗面)

超长上下文是核心差异点,支持 200 万 tokens 输入,号称"能读完一整本书"。视觉理解能力强,可从 UI 截图直接生成前端代码,适合长文档分析和视觉编程场景。

文心一言(百度)

中文语境理解精准,与百度生态(搜索、地图、文库)深度联动。支持本地化部署,适合对数据安全有要求的企业场景。

老墨说: 不要一开始就纠结选哪个模型。对于大多数入门项目,用 DeepSeek-V3——便宜、能力强、接口和 OpenAI 完全兼容,学会了可以无缝切换到任何其他模型。


开发者必须懂的四个核心概念

大模型的分工类型

市面上的模型并非同一种东西,叫"大模型"只是习惯说法。按用途分,至少有五类:

  • LLM(语言模型)— 生成文字,最常见

给输入生成输出,日常说的"大模型"几乎都指这类。内部又分几个子类型:

子类型代表模型特点
Instruct / ChatQwen2.5-Instruct、GPT-4o指令遵循,直接问答,最常用
推理型(Reasoning)DeepSeek-R1、QwQ回答前先输出 <think> 推理链,擅长数学/逻辑,但慢、token 消耗大
代码型DeepSeek-Coder、Qwen2.5-Coder代码生成、补全、调试专项优化
Base(基座)Qwen2.5-14B(无 Instruct 后缀)未做指令微调,通常用于继续训练,不直接对话

Instruct 和 Reasoning 的区别容易混淆——同一个问题"重疾险怎么理赔",Instruct 模型直接给答案,Reasoning 模型先在脑子里"打草稿"推导半天再给答案。答案质量差不多,但 Reasoning 多花几秒、多消耗几百 token。客服、问答、写作等高频场景用 Instruct,数学证明、复杂逻辑推理才需要 Reasoning。

  • Embedding(向量模型)— 把文字变向量

不生成文字,输出是一个高维数字数组(向量),用于衡量两段文字的语义距离。

"重疾险理赔流程"   →  [0.12, -0.87, 0.34, ...]  (1024 个数字)
"大病保险申请步骤"  →  [0.11, -0.85, 0.36, ...]  ← 数字接近,语义相似
"今天天气怎么样"   →  [0.89,  0.23, -0.71, ...]  ← 数字差很远,语义无关

主要用途:RAG 知识库检索、语义搜索、文档去重、内容聚类。代表模型:qwen3-embeddingbge-m3text-embedding-3-small

  • Reranker(重排模型)— 精排相关性

固定搭配 Embedding 使用。Embedding 检索速度快但精度有限(把文字压缩成向量时会丢失细节),Reranker 把"问题 + 文档"放在一起做精细比对,输出一个相关性分数,不生成文字。

典型流程:Embedding 从知识库粗筛 20 条(快)→ Reranker 精排取 Top 5(准)→ LLM 基于这 5 条生成回答。代表模型:qwen3-rerankerbge-reranker-v2-m3

  • 多模态模型 — 处理图片 / 音频 / 视频

处理非文字输入,或生成非文字输出:

子类型代表模型能做什么
视觉理解(VLM)Qwen2.5-VL、LLaVA看图说话、OCR、图表分析
语音识别(ASR)Whisper语音转文字
文字转语音(TTS)CosyVoice、Edge-TTS文字转语音
图像生成Stable Diffusion、FLUX文字生图
视频生成Wan2.1、可灵 3.0文字 / 图片生视频
  • 分类 / 结构化输出模型 — 输出固定标签

不生成自由文本,输出固定结构:情感分析(正面 / 负面 / 中性)、意图识别(咨询 / 投诉 / 理赔)、实体抽取(从文本中识别人名、金额、日期)。在 RAG 应用里常用来做用户意图分流,判断该走哪条检索路径。

老墨说: 一个典型的 AI 应用往往同时用到多种模型——RAG 客服系统里,Embedding 模型负责检索,Reranker 负责精排,LLM 负责生成回答,三者分工协作,缺一不可。不要把"大模型"当成一个东西,它是一个生态。


多模态

“模态"就是信息的类型:文本、图片、音频、视频是不同的模态。多模态大模型能跨模态理解和生成——比如输入一段文字,生成对应图片;或者上传一张产品截图,让模型写出对应的介绍文案。

从开发角度,多模态意味着你可以在一个 API 调用里混合多种类型的输入,而不用对接多个单一能力的模型。

Token

Token 是大模型处理文本的最小单位,不等于一个字或一个词,而是分词算法切割后的"文字碎片”。

粗略估算:

  • 英文:1 个单词 ≈ 1–1.3 tokens
  • 中文:1 个汉字 ≈ 1–2 tokens
  • 一篇 1000 字的中文文章 ≈ 1500–2000 tokens

Token 是大模型计费的基本单位——你发送的输入(prompt)和模型返回的输出都会被计入 token 用量。控制 token 消耗是大模型应用开发里绕不开的成本话题。

Context Window(上下文窗口)

每次请求,模型能"看到"的信息总量有上限,这个上限就是 context window,单位是 tokens。以下是 2026 年初各主流模型的参数(以官方 API 文档为准):

模型Context Window
GPT-4.11M tokens
GPT-4o128K tokens
Claude Sonnet 4(API)1M tokens
DeepSeek-V3128K tokens
Gemini 3.1 Pro1M tokens
Kimi2M tokens

这个数字决定了你的应用能处理多长的文档、能维持多长的对话历史。超出上限,早期内容会被截断丢弃——这是多轮对话设计里的核心约束,后面的章节会详细展开。

老墨说: 1M tokens 大约等于 75 万个英文单词,相当于《哈利·波特》全集。但 context 越长,推理成本越高、速度越慢。实际工程里,用够用就行,别追着大 context 跑


选型速查

  • LLM 选型
场景推荐
日常开发 / 快速入门DeepSeek-V3
代码生成 / 复杂推理DeepSeek-R1、GLM-4.5、GPT-4.1
超长文档处理Kimi、Claude Sonnet 4、Gemini 3.1 Pro
多模态(图/视频)Gemini 3.1 Pro、豆包、GPT-4.1
中文企业应用豆包、文心、通义千问
出海 / 严谨场景Claude Sonnet 4、GPT-4.1
本地化私有部署Qwen2.5-Instruct(开源)、DeepSeek-V3(开源)
  • Embedding / Reranker 选型
场景推荐
中文 RAG(本地部署)qwen3-embedding + qwen3-reranker
中文 RAG(三模态混合检索)bge-m3 + bge-reranker-v2-m3
英文 RAG(API)text-embedding-3-small(OpenAI)

老墨总结

大模型本质是一个"学过海量数据的预测机器",通过 API 把这个能力暴露给开发者调用。理解它的三个核心概念——Token(计费单元)、Context Window(记忆上限)、多模态(跨类型能力)——就能应对后续 90% 的开发场景。

选型不要过度纠结:入门用 DeepSeek,生产环境根据场景按上面的表格选,接口都兼容 OpenAI 格式,随时可以切换。

有一点值得额外说:大模型迭代速度极快,这篇文章里的参数数字可能几个月就过时了。养成看官方文档的习惯,比背参数重要得多——今天的 context window 大小,明天可能就翻倍了。

下一篇,我们会把大模型的发展时间线拆得更细,看清楚每个阶段留下了什么技术遗产,以及为什么今天的大模型长成了现在这个样子。


文章有帮助?转发给同样在踩坑的朋友。有不同意见?评论区见。

关注公众号:极客老墨

更多 AI 应用开发、工程实践和效率工具分享,欢迎扫码关注。

极客老墨微信公众号二维码

相关阅读