Token

Token是怎么来的：大模型计费和上下文管理的底层逻辑大家好，我是极客老墨。上一篇讲大模型工作原理时，Token 出现了很多次。这一篇专门把它讲透——不是因为概念难，而是因为它的每一个细节都直接影响你的 API 账单和代码行为。成本超支、上下文莫名截断、多轮对话"失忆"——这些新手最常踩的坑，根子都在 Token 上。一、Token 是什么：BPE 分词不是按字切 Token(中文翻译定义为“词元”) 是大模型处理文本的最小单位。但很多人对它有一个根本性的误解：Token 不等于字，不等于词，更不等于汉字。主流大模型（包括 DeepSeek）使用的分词算法叫 BPE（Byte-Pair Encoding，字节对编码）。它的逻辑是：从字节出发，统计语料中最高频的字节对，反复合并，最终形成一个包含几万到十几万个"子词单元"的词表。结果就是：Token 的边界是由训练语料的统计规律决定的，不是人为规定的。 # 英文示例（DeepSeek tokenizer） "developer" → ["developer"] # 1 token（高频词，整词入表） "tokenization" → ["token", "ization"] # 2 tokens（低频长词，拆分） "DeepSeek" → ["Deep", "Seek"] # 2 tokens（专有名词） # 中文示例 "大模型" → ["大", "模型"] # 2 tokens（"模型"是高频词组） "量子纠缠" → ["量", "子", "纠", "缠"] # 4 tokens（低频，逐字） "API" → ["API"] # 1 token 中英文的核心差异： ...