入门 | 极客老墨

什么是大模型：开发者必须搞清楚的核心概念大家好，我是极客老墨。 2022 年 11 月 30 日，OpenAI 悄悄上线了一个叫 ChatGPT 的产品。没有发布会，没有大规模营销，结果五天内注册用户突破 100 万，两个月后破 1 亿——成为史上用户增长最快的消费级应用。这一年，我第一次在终端里用 API 让它写了段 Go 代码，代码是对的。我盯着屏幕看了很久，心里有个声音说：这东西不一样。这篇文章的目标很简单：搞清楚大模型是什么，从哪来，现在有哪些主流选择，以及作为开发者你需要知道哪些核心概念。不涉及数学，不涉及训练原理，只讲和开发直接相关的部分。大模型是什么大模型（Large Language Model，LLM），本质是基于海量文本数据训练出来的神经网络模型，通过学习语言的统计规律，获得了理解和生成自然语言的能力。核心参数规模通常在百亿级以上——这也是"大"的由来。一个直白的类比：你可以把大模型想象成一个读过人类几乎所有书籍、论文、代码、对话记录的人。它没有真正的"理解"，但它见过的模式足够多，所以当你给它一段输入，它能预测出"接下来最合理的内容是什么"——而这个"预测"往往精准得令人惊讶。对开发者来说，有三件事最重要：调用方式：你不需要自己训练模型。通过 API，几行代码就能接入 GPT、DeepSeek、Claude 等顶级模型的能力核心价值：大模型把自然语言变成了一种编程接口——你用人话描述需求，它输出结果，极大降低了 AI 功能的开发门槛能力边界：参数规模决定了模型的能力上限，但训练数据质量、微调策略同样关键。参数多不等于万能老墨说：别被"大"字唬住。大模型对开发者的意义就一句话：用 API 调用别人训好的模型，你只管写业务逻辑。大模型从哪来：关键发展节点大模型的演进不需要全记，但有几个节点值得了解——它们直接决定了今天你能用到的技术基础。 2017 年：Transformer 诞生 Google 发表了论文 Attention Is All You Need，提出了 Transformer 架构。这篇论文是今天几乎所有大模型的技术根基。在它之前，语言模型用 RNN（循环神经网络），慢且难以并行训练；Transformer 引入了自注意力机制，让模型能同时关注序列中所有位置的关联，训练效率和能力都大幅提升。 2020 年：GPT-3 开启规模时代 OpenAI 发布 GPT-3（1750 亿参数），首次证明了"规模即能力"——只要参数足够大、数据足够多，模型会涌现出意想不到的新能力。这一发现改变了整个 AI 研究方向。 2022 年：ChatGPT 引爆应用层 ...