大模型如何"记住"你说过的话:多轮对话机制与 Go 实操

大模型如何"记住"你说过的话:多轮对话机制与 Go 实操 大家好,我是极客老墨。 我刚开始做 AI 应用的时候,有个直觉假设:“模型后台应该有个数据库,记住了我的聊天记录。“后来才发现完全不是这么回事。 主流大模型 API 都是"无状态”(Stateless)的。 每一次你发请求过去,它都完全不记得你之前说过什么。之所以它能接住你的话茬,是因为开发者每次都把之前的聊天记录打包发给了它。 这篇就来聊聊,怎么在 Go 代码里实现这种"人工记忆”。 一、多轮对话的本质:以存储换记忆 在 API 调用层面,模型并不负责存储对话历史。实现多轮对话的公式其实很简单: $$新请求 = 对话历史 + 当前问题$$ 每次你提问,你的程序都要从内存(或数据库)里把之前的对话翻出来,拼成一个数组发过去。模型读完这一长串,才能理解你说的"它"是指谁,或者"接着说"是要说什么。 1sequenceDiagram 2 participant User as 用户 3 participant App as 你的 Go 应用 4 participant LLM as 大模型 (DeepSeek) 5 6 User->>App: 1. "你好,我是老墨" 7 App->>LLM: POST [User: 你好,我是老墨] 8 LLM-->>App: "你好,老墨!" 9 App-->>User: "你好,老墨!" 10 11 Note over App: 内存存储: [User: 你好, Assistant: 你好老墨] 12 13 User->>App: 2. "我刚才说我叫什么?" 14 App->>LLM: POST [User: 你好, Assistant: 你好, User: 我刚才说我叫什么?] 15 LLM-->>App: "你刚才说你叫老墨。" 16 App-->>User: "你刚才说你叫老墨。" 二、Messages 数组的三大角色 在标准的 chat/completions 接口中,messages 数组是唯一的上下文载体。它由三种角色组成: ...

2026-06-27 · 6 min · 1243 words · 老墨

开发者如何接管大模型:API 调用逻辑深度拆解

开发者如何接管大模型:API 调用逻辑深度拆解 大家好,我是极客老墨。 做大模型开发,最爽的一点就在于:你不需要懂怎么训练模型,你只需要懂怎么把它”接管”进你的业务系统。 我刚开始做 AI 应用时,也把 API 调用理解成”发个 POST、收个字符串”,结果一上生产就翻车:成本失控、超时、流式中断、JSON 解析失败、缓存命中率低得可怜。 2026 年这套活,已经从”能调通”升级成”调得稳、调得省、调得可观测”。尤其 DeepSeek V4 的 thinking mode、上下文缓存、流式输出,让 API 层直接从”胶水层”变成了”核心工程层”。 这篇我就按真实项目视角,把 API 调用链路从协议到代码,从错误恢复到成本控制,彻底掰开讲清楚。 一、先立一个工程观:调用模型,本质是远程协作 把模型 API 想成“远程同事”会更容易理解: 你发的请求体,不只是参数,而是任务工单。 返回的 token,不只是文本,而是这个同事边想边说的过程。 usage 字段,不只是统计,而是你的财务报表。 我早期总把调用失败归因于”模型智商不够”,后来复盘发现 70% 的问题是工程姿势不对:上下文组织烂、超时策略缺失、重试机制粗暴、流式解析不规范。 老墨说: 你要把 API 当成数据库连接池一样认真管理。对待数据库你不会裸奔重试,对待大模型也不该。 二、2026 版:开发者与模型的“分工协议” 在 AI 应用开发中,分工正在变得更加精密: 模型厂商 (DeepSeek/OpenAI):负责烧钱买卡,并把能力封装成兼容 OpenAI 协议的 HTTPS 接口。 开发者 (你):不只是写业务逻辑,更像一个”流量调度员 + 成本控制官”——通过 thinking 参数和 reasoning_effort 平衡速度与深度,通过优化 Prompt 结构提高缓存命中率,再通过超时/重试/降级把稳定性托住。 这种分工决定了开发者的核心价值:不是调 Prompt 的手感,而是把成本、质量和稳定性三件事同时管住。 官方参考: DeepSeek Chat 接口:Create Chat Completion DeepSeek Thinking Mode:Thinking Mode DeepSeek 上下文缓存:Context Caching OpenAI 结构化输出:Structured Outputs 三、API 调用的生命周期:2026 增强版 一次现代大模型 API 调用(以 chat/completions 接口为例)遵循以下生命周期: ...

2026-06-24 · 4 min · 686 words · 老墨

开发者必备的"饭碗":大模型应用开发工具链全景图

开发者必备的"饭碗":大模型应用开发工具链全景图 大家好,我是极客老墨。 前几篇讲完了大模型的工作逻辑、Token、上下文和 API 参数。到这里,已经不能只停留在“会调接口”了。真正做项目时,问题会很快变成另一组: 代码应该让 AI 在 IDE 里补,还是交给终端 Agent 改? 一个功能要不要让 Codex 或 Claude Code 自己开分支、跑测试、提 PR? DeepSeek 便宜,但工具链怎么接?有没有 Claude Code 之外的选择? Prompt 改了以后,怎么知道不是“感觉变好了”? Agent 能跑命令、改文件、连 MCP,权限边界怎么收住? 这就是工具链的价值。 2024 年以前,很多人说“AI 编程工具”,其实是在说补全插件。2025 年以后,重点明显变了:Coding Agent 开始进入真实工程流程。它不只是补一行代码,而是能读仓库、改文件、跑命令、看测试、解释 diff,甚至在云端并行处理多个任务。 所以这篇不再按“工具排行榜”写。更实用的方式,是按一条大模型应用开发流水线来拆:模型底座、编码 Agent、Agent 应用框架、本地调试、评测观测、Go 生态,以及上线前的权限和成本控制。 本文按 2026-06-19 可查到的公开资料整理。AI 工具更新很快,具体模型名、价格、可用地区和安装方式,以官方文档为准。 一、模型 API 平台:先把底座选稳 大模型应用的底座还是 API。工具再花哨,最后都要回到三件事:能力、成本、稳定性。 1. DeepSeek:低成本长上下文,适合大量工程试错 DeepSeek 当前官方模型表里,主模型是 deepseek-v4-flash 和 deepseek-v4-pro。官方文档显示二者都支持 1M context、JSON Output、Tool Calls 和 Thinking Mode,OpenAI 格式 base URL 是 https://api.deepseek.com,同时也提供 Anthropic 格式入口。 ...

2026-06-20 · 5 min · 990 words · 老墨

大模型 API 核心参数:调对了事半功倍,调错了钱打水漂

大模型 API 核心参数:调对了事半功倍,调错了钱打水漂 大家好,我是极客老墨。 我刚开始接大模型 API 时,最容易犯的毛病就是把所有问题都往 prompt 上推。输出不稳定,先改 prompt;JSON 解析失败,继续改 prompt;账单涨了,还想着是不是 prompt 不够精简。改到最后,prompt 越写越长,接口却还是像没装仪表盘的车,能跑,但不知道哪里在烧钱、哪里在抖。 这篇不讲玄学调参。我就按一个常见场景来讲:做一个客服工单摘要接口。 输入是一段用户和客服的对话,输出要稳定变成这样的 JSON: 1{ 2 "summary": "用户咨询退款到账时间,客服告知预计 3-5 个工作日", 3 "category": "refund", 4 "risk_level": "low", 5 "next_action": "等待退款到账" 6} 这个接口看着简单,真接到业务里会遇到四个问题: 有时输出一段自然语言,JSON 解析直接炸。 有时写到一半停了,字段缺一截。 有时同一条工单跑两次,分类不一致。 有时为了一个简单摘要开了推理模式,成本和延迟都上去了。 这些问题不全是 prompt 的锅。后来我才把 API 参数当成方向盘、油门、刹车和仪表盘来看:prompt 负责告诉模型要去哪,参数负责控制它怎么走、走多远、花多少钱、异常时怎么停下来。 本文以 DeepSeek API 为主线。DeepSeek 当前官方文档里,Chat Completions 的模型 ID 是 deepseek-v4-flash 和 deepseek-v4-pro;deepseek-chat、deepseek-reasoner 仍可兼容,但官方已说明将于 2026/07/24 弃用。下面的参数口径按本文撰写时查阅的官方文档编写,后续以官方最新文档为准。 model:先选一辆够用的车 客服工单摘要这类任务,第一版通常不需要最强模型。它不是奥数题,也不是复杂代码审查,核心是稳定抽取、分类、压缩信息。 DeepSeek 当前官方模型表里有两个主模型: model 适合什么 deepseek-v4-flash 延迟、成本更敏感的通用任务,比如摘要、分类、提取、普通问答 deepseek-v4-pro 更复杂的推理、规划、工具调用、代码分析 官方还保留了两个兼容别名: deepseek-chat:对应 deepseek-v4-flash 的非 thinking 模式。 deepseek-reasoner:对应 deepseek-v4-flash 的 thinking 模式。 这里有个很实用的判断:能用 deepseek-v4-flash 跑稳,就先不上 deepseek-v4-pro;能关 thinking 跑稳,就先不开 thinking。 ...

2026-06-17 · 10 min · 1987 words · 老墨

Token 是什么:大模型计费和上下文管理的底层逻辑

Token是怎么来的:大模型计费和上下文管理的底层逻辑 大家好,我是极客老墨。 上一篇讲大模型工作原理时,Token 出现了很多次。这一篇专门把它讲透——不是因为概念难,而是因为它的每一个细节都直接影响你的 API 账单和代码行为。 成本超支、上下文莫名截断、多轮对话"失忆"——这些新手最常踩的坑,根子都在 Token 上。 一、Token 是什么:BPE 分词不是按字切 Token(中文翻译定义为“词元”) 是大模型处理文本的最小单位。但很多人对它有一个根本性的误解:Token 不等于字,不等于词,更不等于汉字。 主流大模型(包括 DeepSeek)使用的分词算法叫 BPE(Byte-Pair Encoding,字节对编码)。它的逻辑是:从字节出发,统计语料中最高频的字节对,反复合并,最终形成一个包含几万到十几万个"子词单元"的词表。 结果就是:Token 的边界是由训练语料的统计规律决定的,不是人为规定的。 1# 英文示例(DeepSeek tokenizer) 2"developer" → ["developer"] # 1 token(高频词,整词入表) 3"tokenization" → ["token", "ization"] # 2 tokens(低频长词,拆分) 4"DeepSeek" → ["Deep", "Seek"] # 2 tokens(专有名词) 5 6# 中文示例 7"大模型" → ["大", "模型"] # 2 tokens("模型"是高频词组) 8"量子纠缠" → ["量", "子", "纠", "缠"] # 4 tokens(低频,逐字) 9"API" → ["API"] # 1 token 中英文的核心差异: ...

2026-06-13 · 6 min · 1111 words · 老墨

大模型是怎么炼成的:从训练数据到你手里的 API

大模型是怎么炼成的:从训练数据到你手里的 API 大家好,我是极客老墨。 你有没有想过:ChatGPT、DeepSeek,这些大模型是怎么"造"出来的? 很多人用了大半年 AI,依然不知道答案。他们知道模型很强,但不知道强从哪来;知道调 temperature 能改变风格,但不知道为什么。这种"只会开车、不知道发动机"的状态,限制了你对 AI 能力边界的判断,也限制了你设计 AI 应用的想象力。 这篇文章要做一件事:把大模型从"一堆原始数据"到"你手里的 API"这条完整链路讲清楚。 普通人能看懂,开发者能用上。 第一段:模型是怎么被造出来的 大模型的诞生,分四个阶段,缺一不可。 1flowchart TD 2 A["海量原始数据 3 网页/书籍/代码/论文"] --> B["预训练 4 Next Token Prediction"] 5 B --> C["指令微调 SFT 6 教模型听懂人话"] 7 C --> D["强化学习对齐 RLHF 8 教模型说对的话"] 9 D --> E["量化 & 部署 10 压缩上线"] 11 E --> F["你调用的 API"] 阶段一:预训练——从"0"开始读书 预训练是整个大模型能力的根基。这个阶段,模型什么都不知道,就像一张白纸。 研究团队先从互联网抓取海量文本的网页数据、Wikipedia、GitHub 代码库、arXiv 论文、书籍……DeepSeek-V3 的预训练数据量超过 14.8 万亿个 Token。这是什么概念?一个人一天读 8 小时,读完大概需要 2 万年。 ...

2026-06-10 · 3 min · 595 words · 老墨

大模型能干什么:六大核心应用场景拆解

大模型能干什么:六大核心应用场景拆解 大家好,我是极客老墨。 有个问题我被问过很多次:大模型除了聊天,还能干什么? 这个问题背后藏着一个更深的困惑:我学大模型开发,到底能做出什么东西?值不值得投入时间? 值得。但前提是你得搞清楚它的边界——哪些场景是大模型真正擅长的,哪些是现在能落地的,哪些是看着很美但开发成本极高的。 这篇文章拆解六个核心场景:文生文、文生图、文生视频、语音交互、数字人、智能问答。每个场景我会讲清楚技术本质是什么、真实能力边界在哪里、开发者能拿它做什么,以及一个 Go 开发者该从哪里切入。 不堆概念,只讲和开发直接相关的部分。 一、文生文:最成熟,也最容易被低估 技术本质 文生文(Text-to-Text)是所有大模型能力的基础层。给定一段文本输入,模型输出文本结果——翻译、摘要、续写、代码生成、问答、分类、抽取,本质都是这个范式。 它的核心机制是自回归生成(Autoregressive Generation):模型逐个 token 预测,每次预测都以前面所有内容为条件。这意味着它天然支持任意长度的输出,也意味着它的"思考"过程是线性的、不可并行的。 能力边界 文生文做得好的事:结构化生成、风格迁移、代码辅助、信息抽取、分类标注。 文生文目前还做不好的事:精确计算(数学运算容易出错)、实时数据(知识截止限制)、高度确定性任务(每次输出有随机性)。 2026 年之后,推理模型(DeepSeek-R1、OpenAI o3)的出现让数学和逻辑推理能力大幅提升——但这是专门设计了长思维链的推理模型,普通对话模型仍然存在上述限制。 开发者能做什么 1用户需求 → Prompt → 大模型 → 文本输出 → 业务逻辑处理 这是最简单的链路,也是 90% 的大模型应用的骨架。几个典型落地方向: 代码辅助:接入 IDE 插件,或者独立的代码问答服务。输入自然语言描述,输出对应语言的实现代码。DeepSeek-V3 在代码生成上性价比极高,是首选。 文档处理:上传合同、技术文档、会议记录,提取关键信息、生成摘要、回答问题。结合 RAG(后面的模块会详细讲),可以大幅减少幻觉。 内容生成:营销文案、邮件草稿、产品描述、SEO 内容。注意:大模型不是完美的,高质量内容生成必须加人工审核环节。 结构化抽取:从非结构化文本中提取 JSON 格式的数据,配合 Function Calling 或 Structured Output,可以直接对接业务数据库。 老墨说: 文生文不只是"聊天",它是一个可编程的文本处理引擎。你用自然语言定义规则,它按规则处理任意输入——这是一种新的编程范式,比你写正则表达式和 if-else 强大得多,也灵活得多。 二、文生图:创意的民主化 技术本质 文生图(Text-to-Image)的主流技术路线是扩散模型(Diffusion Model)——从随机噪声出发,在文本描述的引导下,迭代去噪,最终生成图像。代表模型有 Stable Diffusion、DALL·E 3、Midjourney、Flux。 这和文生文用的技术栈完全不同。大多数大模型 API 平台(OpenAI、智谱、火山引擎)会把文生图单独封装成一个 API 端点,你不需要了解扩散过程,直接调用即可。 ...

2026-06-06 · 3 min · 511 words · 老墨

大模型发展史:从一篇论文到改变世界

大模型发展史:从一篇论文到改变世界 大家好,我是极客老墨。 有人问过我:学大模型开发,需要搞清楚历史吗? 我的答案是:不需要全记,但有几个节点绕不过去。就像你不需要知道 Linux 每一个版本的变化,但如果你不知道 1991 年 Linus 为什么会写内核、不知道 GPL 协议的来历,你就很难理解为什么今天的开源生态长成了现在这个样子。 大模型的历史也是一样的道理。 这篇文章不是"时间轴背诵手册",而是帮你搞清楚:每一个关键节点留下了什么技术遗产,以及这些遗产如何层层叠加,构成了你今天调用 API 时那个"黑盒"里的底层逻辑。 第一阶段:奠基期(2017–2019)——骨架确立,两条路线分叉 在 2017 年之前,AI 语言模型靠 RNN 和 LSTM 驱动。这两种架构有一个致命弱点:序列化处理——它们必须一个词一个词地读,前面没读完,后面没法算。这就导致了两个问题:长文本里的前后关联容易丢失,训练也难以并行,规模扩不上去。 这个局面被一篇论文打破了。 Transformer 诞生(2017 年 6 月) Google Brain 团队的 Ashish Vaswani 等人发表了 Attention Is All You Need,提出了 Transformer 架构,核心是"自注意力机制(Self-Attention)"。 它的革命性在哪里?一句话:让模型在处理一个词的时候,能同时看到整个句子里所有词的关联权重,而不是只看"左边刚读过的"。 并且这个计算是可以并行的——GPU 的算力第一次被大模型充分用上了。 Transformer 由 Encoder(理解)和 Decoder(生成)两部分组成,可以灵活组合。这个设计直接决定了后来大模型的两条技术路线。 老墨说: Transformer 是大模型的底层骨架,今天你用的 GPT、Claude、DeepSeek,技术根基都在这篇 2017 年的论文里。你可以不懂数学,但"自注意力"这个词要知道它是干什么的。 两条路线分叉(2018 年) Transformer 出来之后,OpenAI 和 Google 各自选了一条路。 GPT-1(2018 年 6 月,OpenAI):只用 Decoder,专注文本生成。1.17 亿参数,在约 5GB 的书籍语料上预训练,验证了"预训练+微调"在生成任务上的可行性。能力有限,但确立了 GPT 系列"纯 Decoder 生成式"的路线。 ...

2026-06-03 · 4 min · 688 words · 老墨

什么是大模型:开发者必须搞清楚的核心概念

什么是大模型:开发者必须搞清楚的核心概念 大家好,我是极客老墨。 2022 年 11 月 30 日,OpenAI 悄悄上线了一个叫 ChatGPT 的产品。没有发布会,没有大规模营销,结果五天内注册用户突破 100 万,两个月后破 1 亿——成为史上用户增长最快的消费级应用。 这一年,我第一次在终端里用 API 让它写了段 Go 代码,代码是对的。我盯着屏幕看了很久,心里有个声音说:这东西不一样。 这篇文章的目标很简单:搞清楚大模型是什么,从哪来,现在有哪些主流选择,以及作为开发者你需要知道哪些核心概念。不涉及数学,不涉及训练原理,只讲和开发直接相关的部分。 大模型是什么 大模型(Large Language Model,LLM),本质是基于海量文本数据训练出来的神经网络模型,通过学习语言的统计规律,获得了理解和生成自然语言的能力。核心参数规模通常在百亿级以上——这也是"大"的由来。 一个直白的类比:你可以把大模型想象成一个读过人类几乎所有书籍、论文、代码、对话记录的人。它没有真正的"理解",但它见过的模式足够多,所以当你给它一段输入,它能预测出"接下来最合理的内容是什么"——而这个"预测"往往精准得令人惊讶。 对开发者来说,有三件事最重要: 调用方式:你不需要自己训练模型。通过 API,几行代码就能接入 GPT、DeepSeek、Claude 等顶级模型的能力 核心价值:大模型把自然语言变成了一种编程接口——你用人话描述需求,它输出结果,极大降低了 AI 功能的开发门槛 能力边界:参数规模决定了模型的能力上限,但训练数据质量、微调策略同样关键。参数多不等于万能 老墨说: 别被"大"字唬住。大模型对开发者的意义就一句话:用 API 调用别人训好的模型,你只管写业务逻辑。 大模型从哪来:关键发展节点 大模型的演进不需要全记,但有几个节点值得了解——它们直接决定了今天你能用到的技术基础。 2017 年:Transformer 诞生 Google 发表了论文 Attention Is All You Need,提出了 Transformer 架构。这篇论文是今天几乎所有大模型的技术根基。在它之前,语言模型用 RNN(循环神经网络),慢且难以并行训练;Transformer 引入了自注意力机制,让模型能同时关注序列中所有位置的关联,训练效率和能力都大幅提升。 2020 年:GPT-3 开启规模时代 OpenAI 发布 GPT-3(1750 亿参数),首次证明了"规模即能力"——只要参数足够大、数据足够多,模型会涌现出意想不到的新能力。这一发现改变了整个 AI 研究方向。 2022 年:ChatGPT 引爆应用层 ...

2026-05-30 · 3 min · 513 words · 老墨

用 AI Skills 武装你的写作流程,从此告别重复劳动

用 AI Skills 武装你的写作流程,从此告别重复劳动 每次让 AI 帮我写技术文章,我都得重新交代一遍:“你是一个有 20 年经验的工程师,语言要接地气,开头要有钩子,结尾要总结,不要废话……” 打完这段话,文章还没开始写,我已经累了。 这就是我开始研究 Agent Skills 的起点。研究完之后,我只想说:早该有这东西了。 一、什么是 Agent Skills? 2025 年 12 月 18 日,Anthropic 把 Agent Skills 作为一个开放标准发布出来,规范地址在 agentskills.io。OpenAI Codex、GitHub Copilot、VS Code 等主流平台随后跟进支持。 官方文档对 Skills 的定义是: Skills are reusable, filesystem-based resources that provide Claude with domain-specific expertise: workflows, context, and best practices that transform general-purpose agents into specialists. 翻译成人话:Skill 是一个文件夹。里面放着你对 AI 的"专项培训材料"。当 AI 遇到匹配的任务时,它会自动加载这个文件夹里的内容,按照你的规范工作——不用你每次都重新解释。 用一个生活比喻:你雇了一位新助理,第一次你花了两个小时教她公司的排版规范、写作风格、邮件模板。从第二次起,你只需要说"按老规矩来",她就能做对。Skill 就是那份"老规矩"的电子版。 老墨说: Skill 解决的核心问题是重复交代——把每次对话都要说的上下文、规范、工作流程,封装成一个可复用的模块。 ...

2026-04-02 · 4 min · 681 words · 老墨

Accio Work真的30分钟给我搞了shopify店铺

大家好,我是极客老墨。 最近一直在研究各种 Claw,自 OpenClaw 大火之后,确实有非常多的 Claw 相继诞生。你别说,真的一个比一个好用,QClaw 能够配合 ima伴你搞定全自动知识库;悟空帮你搞笑完成日程、文档、会议,还能帮你搜索、分析电商热销商品、比价……它们虽然专注的点不同,但都结合自己的产品主打一个全自动化。 今天,我想分享的这个是一款做跨境电商的利器 —— Accio Work,这玩意儿不光全程指导完成Shopify独立站的搭建,还帮我组建一个运营团队,实现真正的团队协作! 我们来看一下什么是 Accio Work。 简单来说,Accio Work 只主打跨境电商的AI工具,内置了非常多的技能和Agent,只要你给它授权,它就能自己写代码、自己装修网站、自己选品和自己上架、售卖商品。 今天,老墨就用我刚开的一个做东南亚市场的“丑萌毛绒玩具”店(怪异实验室 UglyCute Lab)为例,展示一下怎么用 Accio Work 在 30 分钟内把一个空壳店铺跑上线。 第一步:准备一个 Shopify 空壳 Shopify 是加拿大的一个全球跨境电商的平台,任何人都可以在上边开自己的独立店铺,只需要每月交付一定的费用。 不管 AI 多牛,店铺的基础还得你自己建。 打开 Shopify 官网,用邮箱注册一个免费试用账号。 随便起个店铺名字,把基础后台开通。 新注册的账号有3天的免费试用时间,满了之后需要支付1美金的费用,也是给新手一个过渡期。 老墨建议:这个时候不要急着绑信用卡交月租。先把基础跑通,看到店铺成型了再交钱不迟。 第二步:让 Accio Work 帮你分析市场并选品 下载 Accio Work,登录并打开,你可以看到智能体这一个菜单中,有多个Agent,需要用到的就是这个内置的 Shopify Operator,他可以帮我们一步一步把Shopfiy店铺搭建完成。 点击对话,就可以直接开启Shopify店铺构建之旅了,直接告诉他:“我想要在shopify上开设一个面向东南亚地区的丑萌玩具店铺,帮我策划“, 然后,它就开始进入开店流程,它把整个流程分为了5个节点,引导你一步步完成: 然后,它自动开始做第一阶段的选品调研,它分析了亚马逊、1688等市场上的产品,给出了具体的产品和收益分析: 这个市场分析个人感觉可以参考,但必须集合自己的判断才行,最好是自己去到亚马逊、阿里巴巴调研一下。 第三步:获取 AccessToken 接下来,需要获取 Shopify 的 AccessToken,以便AI能够通过 api 来帮我管理店铺。本来,我一开始创建店铺的时候,AI助手直接给我安装了一个 QuickToken 的插件自动申请 AccessToken,但是不知道为什么现在下架了,只能手动创建了。 ...

2026-03-29 · 1 min · 171 words · 老墨

Vibe Coding 爆火背后的真相:是效率革命,还是程序员的“慢性自杀”?

一、开篇:这词儿咋就火成这样? 大家好,我是极客老墨。 最近刷技术圈,不管你是看 GitHub、掘金,还是抖音 B 站,到处都在提一个词——Vibe Coding。 连柯林斯词典都把它评为 2025 年度词汇。好家伙,一个编程相关的词能火到出圈,上一次还是"Hello World"吧? 但说实话,我第一次听到这词儿时,内心是拒绝的。 啥?Vibe?氛围?编程还能靠氛围?难不成我以前加班写代码是因为"氛围不对"?😂 直到用了这大半年的时间,才发现:这玩意儿,还真有点东西。 今天,咱就用大白话,把这个看似高深的概念给你讲透。不管你是不懂代码的小白,还是跟我一样的老程序员,看完都能明白:Vibe Coding 到底是啥,它跟咱们以前写代码有啥不一样,以及——你到底要不要用它。 二、先说结论:Vibe Coding 不是玄学 2.1 官方定义 Vibe Coding,中文有人翻译成"氛围编程"或"即兴编程",是由 OpenAI 联合创始人、前特斯拉 AI 总监 Andrej Karpathy 在 2025 年 2 月 通过 X 平台(原 Twitter) 首次提出的。 推文原文:“There’s a new kind of coding I call ‘vibe coding’, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.” 中文翻译:“有一种新的编程方式,我称之为’Vibe Coding’——你完全沉浸在感觉中,拥抱指数级增长,然后忘记代码的存在。” Karpathy 后来在 2025 年 8 月 25 日又发布了一条详细分享自己 Vibe Coding 心得的推文,引发了谷歌实验室产品总监等业界大咖的讨论 查看推文。 这个概念迅速走红,并在 2025 年 11 月被柯林斯词典评为年度词汇 来源:百度百科。 ...

2026-03-27 · 4 min · 691 words · 老墨

OpenClaw多Agent实战:从0到1搭多角色协作机器人,踩遍所有坑!

各位极客老铁,老墨又来填坑了! 最近深耕OpenClaw多Agent模式,目标很简单:让main机器人当调度员,mr(市场研究员)、pm(产品经理)、dev(开发工程师)各干各的活,形成一个小型AI协作团队。但过程真的一言难尽,从命令行操作到飞书配置,踩了N个暗坑,今天把完整搭建流程+避坑指南甩给你们,全程实操,跟着走不迷路——毕竟老墨从不玩虚的,只讲能落地的干货! 为什么需要多个Agent呢? 先交代背景:很多老铁会问,搞一个main机器人不就够了?为啥非要折腾多个Agent? 老墨实测总结:单Agent就是“万金油”,啥都能做但啥都不精——比如让一个机器人既做市场调研、又做产品规划、还写代码,做的事情太多了,记忆存储也会庞大,很容易出现“AI幻觉”。 我要搭建的多Agent架构,核心是「1个调度Agent(main/小墨)+ 3个功能Agent(mr/pm/dev)」,所有Agent接入飞书群组,实现“@对应角色触发对应响应”,目前已完成群组呼叫、私聊,协同工作还需进一步研究,看后文详述。 多Agent的核心价值,就是「分工明确、各司其职」:main机器人当调度员,负责统筹需求、分配任务;mr专注市场调研,pm聚焦产品规划,dev专攻技术实现,既避免了单Agent的混乱,又能提升响应效率和专业性,后续还能实现协同工作,搭建一个小型AI协作团队。 顺便说一句,为了使用飞书插件最新的能力,我把openclaw原生的飞书插件替换成了,我测试了一下,他们的配置是兼容的,你可以不用按照我的来,如果配置不兼容你可以参考飞书官方插件使用文档和OpenClaw飞书官方文档。 前言 由于OpenClaw版本更新非常快,文档更新不及时,网上查询资料时老墨也深受其害,配置各不相同,非常麻烦。所以老墨这里把环境标清楚,避免你跳坑: OpenClaw版本: 我的是 2026.3.13,非常影响后文讲述的配置,不同版本差异非常大,如果你的版本与我不一致,那么你需要注意 系统环境: Windows 10,这个影响不是很大,主要注意windows和linux路径上的区别即可 另外,你可以了解一下飞书的id设计,每一个机器人看到的你的 openid并不是一样的,如果你用到了需要特别注意: openid:以 ou 开头,格式为 ou_xxx 群聊的id: 以 oc 开头,格式为 oc_xxx Appid: 飞书机器人的appid格式时 cli_xxx 一、第一步:添加多个工作区(多Agent的基础,别瞎建目录) OpenClaw的多Agent,本质是「每个Agent对应一个独立工作区」,工作区里存着该Agent的身份配置(soul.md/identity.md等)、日志和任务数据,这一步是基础,建错路径后续全白搭。 很多新手上来就手动建文件夹,结果OpenClaw识别不到,老墨实测:用命令行创建最稳妥,自动关联配置,避免路径错乱。 先查看一下你的agent列表: 1openclaw agents list 你应该看到你本地有一个主agent,现在可以添加几个了: 1openclaw agents add mr --workspace ~/.openclaw/workspace-mr 2openclaw agents add pm --workspace ~/.openclaw/workspace-pm 3openclaw agents add dev --workspace ~/.openclaw/workspace-dev 这里展示一下我后台添加的一个writer的截图: 这里我指定工作目录在我的用户目录下的 .openclaw中,与主Agent一致。 如果你加错了,你可以删除: 1openclaw agents remove dev 创建完成后,你的~/.openclaw/openclaw.json配置文件的"agents"节点下会有"list"子节点,里边对应了你添加的多个agent,你可以修改这个配置,比如指定不同的模型: ...

2026-03-20 · 3 min · 487 words · 老墨

养虾必备的 10 个 Skills,最后一个是真神

大家好,我是极客老墨。 今天我们来盘点 OpenClaw 社区公认、高频实用的十大核心 Skills,按「安全打底→基础核心→场景提效→进阶成长」排序,覆盖你做内容创作、开发运维、日常自动化的全场景需求,老墨亲测,文末附一键安装指令。 什么是 Skill? 如果没有Skill,你会发现你的 OpenClaw 功能会非常有限。装上 Skill,相当于给它插上了翅膀,让它变得强大且聪明。 你可以把 OpenClaw 想象成一部手机,它的 Skill 就是手机里的APP:它本质上是一个可以独立运行的插件和应用程序,大模型根据需要按需调用它实现某些特定的功能。 比如 file-organizer(文件管理 Skill)是 “文件管理器 APP”,agent-browser 是 “浏览器自动化 APP”;这些 Skill 是独立的可执行程序,有自己的代码、依赖、配置,安装后能直接运行;你对 OpenClaw 说 “整理我的桌面文件”,OpenClaw 会调用 file-organizer 这个 Skill 直接执行,无需大模型额外处理。 去哪里找 Skill? 官方有个 ClawHub,这是 OpenClaw 的 Skill 社区。 我给老铁安装OpenClaw的时候一般都会把官方的 clawhub Skill装上,这样就可以通过对话的方式让 OpenClaw 自己安装 Skills 了。 但 ClawHub 经常限速,我现在更推荐用腾讯的 skillhub,国内访问更快。 安装方式: 方式1:对话安装(推荐) 直接和 OpenClaw 说: 1根据 https://skillhub-1388575217.cos.ap-guangzhou.myqcloud.com/install/skillhub.md 安装Skillhub商店。 方式2:命令行安装(macOS/Linux) 1curl -fsSL https://skillhub-1251783334.cos.ap-guangzhou.myqcloud.com/install/install.sh | bash ...

2026-03-13 · 2 min · 356 words · 老墨

OpenClaw这一套自动化流程下来,再也不需要我自己手动发图文了

大家好,我是极客老墨。 前几天折腾了一整天,终于把"每日一Go"的自动化流程跑通了。说实话,搞完的那一刻,我坐在椅子上发了会儿呆——这玩意儿真的能自己干活了? 让我从头说说这事儿。 起因:不想每天手动发图 做公众号的都知道,每天发图文是个体力活。选题、写题、生成代码图、上传素材、创建草稿、发布……一套下来,半小时没了。 我就在想:能不能让小墨(我的智能AI助理)自己干这事儿? 说干就干。 整个系统长这样 先给你看个整体架构图,不然光说容易晕: 1[题库] → [小墨] → [daily-go-skill] → [图片生成] 2 ↓ 3 [content-publisher] → [微信公众号] 三个核心组件: 1. daily-go-skill 小墨自己写的 skill,专门用来生成 Go 题目的图片。用 Python 实现的,代码高亮直接用现成的库,简单粗暴。 2. content-publisher 这是我自己搞的微信 API 中转服务。为啥要搞这个?因为微信的 appid 和 appsecret 太敏感了,直接放小墨那儿不安全。这个服务跑在我自己的服务器上,小墨只能通过 API 调用,拿不到敏感信息。 3. 题库 小墨自己维护的,用飞书的多维表格。字段包括题目、答案、难度、状态、日期等。后期题库大了可以直接上数据库,但现在飞书够用了。 小墨的工作流程 我给你还原一下它"脑子里"想什么。 第一步:接任务 我说:“小墨,发一道每日一Go到公众号。” 小墨的第一反应:“好的,老大。我先看看题库里有什么。” 第二步:读题库 小墨打开飞书表格,扫了一遍未发布的题目。 1[题库查询] 2- 题目1:Go 的 defer 执行顺序?(已发布) 3- 题目2:slice 和 array 的区别?(已发布) 4- 题目3:map 是并发安全的吗?(未发布)✓ “找到了,就这道吧。” ...

2026-03-09 · 2 min · 270 words · 老墨

重启 OpenClaw,结果崩溃了!

大家好,我是极客老墨。 刚才手贱,把电脑重启了一下。再启动 OpenClaw,结果,起不来了,直接报错。 说实话,那一刻我有点懵。明明之前还好好的,怎么重启一下就挂了? 赶紧检查一下状态: 1$ openclaw health 直接出错: 看错误信息,大概是少了一个模块,@larksuiteoapi/node-sdk。 我第一反应是:这是飞书插件依赖的 SDK 吧? 记得之前启动的时候,总会提示两个飞书插件: 既然 .openclaw 下有一个飞书插件,怎么安装目录下还有一个呢? 难怪冲突。所以我之前是直接把 .openclaw 下的删除了。 现在想想,删错了。 到官方文档看看这个错误信息,找到了: 大概明白了,@larksuiteoapi/node-sdk 这个库没有兼容最新版本的 OpenClaw。 看来是 OpenClaw 安装包下的插件太旧了,应该删除它才对。 直接删了: 然后重新安装飞书插件: 1$ openclaw plugins install feishu 或者重新发起配置流程,会自动安装这个插件: 1$ openclaw config 虽然还是有那个 plugins.allow 的错误,但是终于可以成功跑起来了…… 老墨总结 折腾完这个 bug,我有几个感悟: 1. 快速迭代是把双刃剑 OpenClaw 更新太快了,这事儿有好有坏。 好处是功能迭代快、问题修复及时。但坏处是——插件生态跟不上。 2. 备份意识要加强 这次是插件冲突,删错了还能重装。但如果是配置文件丢了、数据坏了呢? 3. 插件生态需要跟上 ...

2026-03-09 · 1 min · 63 words · 老墨

GPT-5.4 来了,全球风靡的 OpenClaw 还能养多久?

大家好,我是极客老墨。 今天我们不聊技术,咱们聊聊 AI 助手的未来。 早上(3月7日)刷到 36氪那条新闻 的时候,我正在用 OpenClaw 帮我整理昨天的代码笔记。标题很刺眼:“GPT-5.4 发布,OpenClaw 的能力要被替代?” 我愣了一下,然后笑了。 不是因为觉得 OpenClaw 真的会被替代,而是这种"替代论"太熟悉了。去年这个时候,大家还在讨论 Copilot 会不会让程序员失业;今年,轮到了 OpenClaw。 说实话,GPT-5.4 的发布确实让我挺激动的。不是看新闻激动,而是因为我之前在 Cursor 里体验过它。 那种体验,怎么说呢? 就是你写一个函数,它不仅能理解你想干什么,还能主动帮你重构,把那种"能跑但有点丑"的代码,改成"看起来像是精心设计的"样子。有一次我写了个数据处理脚本,逻辑有点绕,它直接给我重写成管道式处理,还附带了注释:“这样更容易测试”。 我当时盯着屏幕看了三秒钟,然后默默删掉了自己原来的代码。 这就是 GPT-5.4 的代码能力。不是简单的补全,是真的在理解你的意图,然后给出更好的方案。 但今天的重点不是这个。 让我真正思考的是另一件事:GPT-5.4 原生支持桌面操作了。 根据那篇文章,OpenAI 把 CUA(Computer Use Ability)直接整合进了模型。这意味着什么?意味着 GPT-5.4 可以直接操作你的电脑,打开浏览器、点击界面、发送邮件、安排日历——基本上就是 OpenClaw 现在做的事,但它是原生的。 相比于 5.2, OSWorld Verified 的测试成绩从 47.3% 提升到 75%,BrowseComp 从 65.8% 提升到 82.7%。 OSWorld Verified: AI 在真实操作系统环境中完成 开放式任务 的能力。 BrowseComp: AI 在 浏览器环境 中完成复杂任务的能力。 数字很枯燥,但背后的意思很清楚:OpenAI 正式入场"AI 操作电脑"这个赛道了。 ...

2026-03-07 · 1 min · 145 words · 老墨

AI 龙虾第一天就给我写了个程序,还会定时爬数据

大家好,我是极客老墨。 经过昨天的艰难跋涉(详见上篇),OpenClaw 终于在 Windows 上跑起来了。第一天使用下来,说实话,这玩意儿比我想象的能干。 让它帮我写代码:经典贪吃蛇游戏 作为技术控,第一个尝试必须是代码!我还是让 小墨(我的AI助理) 帮我写一个经典的贪吃蛇网页游戏。 我直接告诉他:“小墨,帮我写一个贪吃蛇的网页游戏,最后文件直接发给我”。结果他没反应,后来才知道,原来他正卖力的写代码去了,顾不上理我,因为现在数据还没有能力流式返回,必须等他写完了给我我才知道(晚上的「飞书龙虾会直播」我看了,已经有流式返回数据的插件了,后边研究了再来讲) 写完之后,他并没有直接给我文件,而是问我怎么给我这个文件。这里应该是我的提示词没优化好,第一次配合,有点翻车。 再次确认让他发给我,这次就对了。打开游戏一看——界面还不错,完成度100%。就是速度太快了,我玩了几次才适应过来。 第二个任务:自动搜索小红书爆款文案 我的想法很简单:让 AI 助手自动搜索小红书上某个类目的爆款视频标题和内容。 OpenClaw 的做法很硬核——直接本地打开浏览器,像真人一样操作。这也是它完成工作的主要方式:模拟真人操作电脑。 让他搜索小红书,结果告诉我要登录: 登录后,他成功打开浏览器并返回了数据给我: 再次让他搜索 OpenClaw: 这是他打开的网页: 他能够读取网页并返回准确的数据回来。 第三个任务:每日早报功能 我很关注 AI 领域的新闻,所以想让小墨每天定时给我报告最新的新闻和 AI 资讯。我直接告诉他: 1你好,小墨。整理下边的信息发给我 21. 获取今天成都天气 32. 获取今日微博全球新闻榜前10条,标题为微博新闻 43. 获取今日最新的AI相关的新闻资讯前10条,标题为AI咨询 54. 整理成自带链接可以直接点击的简洁文字内容发给我 一开始 prompt 忘记加链接了,补上后,他返回了正确的数据。同样地,他会打开本地浏览器,输入网址自己看,最后返回正确的数据: 最后,我需要每天定时给我,他成功帮我搞定: 一个小插曲,他干完活浏览器没关闭,我提醒他之后他认识到了自己的错误。 可以看到,gateway 控制页面上的“定时任务”菜单中查看,已经加上了这个任务: 晚上看了飞书玩虾大会,几点感悟 晚上看了飞书的玩虾大会直播,看大牛们都是怎么玩龙虾的,有几点感悟: 1. 自动化办公真的来了 飞书与 OpenClaw 集成之后,抓数据、做报表、整理知识库这些日常工作都可以交给 OpenClaw 了。 2. 多只龙虾协同配合 多个龙虾搞到群组中,一起协同配合,形成工作流。这比传统的工作流工具方便得多,而且更智能。龙虾之间在不同的工程中可以互相促进,并变得更智能。 ...

2026-03-06 · 1 min · 166 words · 老墨

为了搞个 AI 助手,我在 Windows 上折腾了整整一天

大家好,我是极客老墨。 说实话,macOS 上装 OpenClaw 那叫一个丝滑,一行命令下去,半小时搞定全部配置。 结果换到 Windows,我心态崩了。 PowerShell 版本不对、权限配置踩坑、飞书机器人配置更是绕得我头晕。整整两天,我差点把电脑砸了。 但搞完之后,我发现 Windows 部署其实没那么难,只是网上没人把坑说清楚。 今天老墨把踩过的坑全抖出来,看完你半小时就能搞定。 我的 Mac 是办公电脑,但我想搞个"永不关机"的 AI 助手 之前(2月份)写了一篇 在 macOS 安装 OpenClaw 的文章,当时国内 IM 应用还没支持。没想到一个月过去,飞书、钉钉、企业微信、QQ 居然全都支持了,更新速度之快! 我的 Mac 是办公电脑,不能 24 小时跑着玩。但我又想要一个随时能召唤的 AI 助手,怎么办? 翻出角落里落灰的 Windows PC,性能没得说,就是有点费电😭。没办法,Mac Mini 一机难求啊,各位有没有 mini PC 可以推荐的? 言归正传,咱们开始。 前置检查:PowerShell 版本这个坑,90% 的人会踩 装之前,先看看你的 PowerShell 版本。低于 7.0,后面装依赖会报错到你怀疑人生。 怎么查?打开 PowerShell(不是 CMD!),输入: 1$PSVersionTable.PSVersion 如果显示的是 5.1,恭喜你,中奖了。 必须升级到 7,不然装 OpenClaw 的时候会报各种奇奇怪怪的错。 升级方法简单到离谱: 打开微软应用商店 搜索 “PowerShell” 点击安装 装完之后,一定要用新打开的 PowerShell 7 窗口,别用原来的旧窗口。 ...

2026-03-05 · 2 min · 391 words · 老墨

2026 年了,这些 AI IDE 还能白嫖

大家好,我是极客老墨。 去年这个时候,我还在纠结要不要订阅 Cursor Pro。今年,我的电脑里装了七八个 AI IDE,一个月下来,花的钱是零。 不是我抠门,是这些工具的免费额度真的够用。写个脚本、改改 Bug、重构代码,基本不用掏钱。当然,如果你是重度用户,每天写几千行代码,那该付费还是得付费。但对于大部分开发者来说,薅羊毛的空间还是很大的。 下面这些工具是我这段时间用下来觉得值得折腾的,有些需要科学上网,有些需要改地区,有些直接某宝买个 Key 就能用。别问我怎么搞,懂的都懂。 为什么需要 AI IDE? 说实话,刚开始我也觉得 AI 写代码是噱头。直到有一次我要写个 Python 脚本处理 JSON 数据,平时可能要查半天文档,结果 Cursor 直接给我生成了,改都不用改。 回想一下,2025 年初的时候,GitHub Copilot 还只能做行内补全,写个函数名它给你补全函数体,仅此而已。那会儿大家还在惊叹"哇,AI 能写代码了"。结果到了 2025 年中,Cursor 出来了,直接能多文件编辑,Cmd+K 一下改十几个文件。再到 2025 年底,Claude 3.5 Sonnet 发布,上下文窗口直接干到 200K,能理解整个项目的代码逻辑。 现在 2026 年初,这才过了一年,AI IDE 已经卷到什么程度了?Windsurf 免费无限补全,Kiro 支持本地模型和自定义工作流,Antigravity 能看懂设计稿直接生成 UI 代码。一年前你还在为 Copilot 的 10 刀月费纠结,现在免费工具多到用不过来。 更夸张的是模型本身的进化速度。GPT-4 刚出来的时候,写个复杂算法还经常出 Bug。现在 Claude 3.5 Sonnet 和 GPT-4 Turbo,不仅能写代码,还能做代码审查、重构、写测试、解释架构。去年你还在担心 AI 会不会抢饭碗,今年你已经在担心不用 AI 会不会被淘汰。 这个速度真的有点吓人,而且仍然再以肉眼可见的速度飞速发展。谁能想到,在2026年初,你只要描述你的需求,AI就能直接给你生成完整的、能够直接运行的前后端代码,包括 UI 设计都能给你实现!虽然编写大型代码还存在一定的问题,但是老墨大胆预测一下,2026年将迎来 AI 齐头并进、百花争艳的盛况! ...

2026-02-23 · 5 min · 969 words · 老墨

2026马年春节,我用AI帮我写了一个嘴替小程序

春节回家,最怕的是什么?不是堵车,不是抢票,而是亲戚的灵魂拷问。 “工资多少啊?” “有对象了吗?” “什么时候买房?” 今年我决定不再被动挨打,用3天时间撸了个"春节嘴替"小程序,让AI帮我练习怼人。更重要的是,整个开发过程几乎全靠AI完成——从产品设计到代码实现,我只是个"提示词工程师"。 先看效果 小程序叫"春节嘴替",核心功能有三个: AI嘴替对话 - 和虚拟亲戚battle,练习高情商回怼 妈妈银行存单 - 生成趣味压岁钱对账单 马年开运头像 - 制作春节专属头像 神仙祝福 - AI生成个性化拜年祝福语 最有意思的是AI嘴替功能。我设计了4个经典角色: 势利眼二姨(儿子阿里P8,逢人就炫) 催婚大姑(见面就问对象) 凡尔赛邻居(女儿在国外"留学") 严肃二舅(体制内,看不起互联网打工人) 每个角色都有完整的人设和攻击策略,AI会根据你的回复动态调整战斗力。如果你怼得好,AI会破防;如果你怼得不够狠,AI会继续压制你。 你可以体验一下,看看效果: AI开发全流程 这个项目最大的特点是:几乎全部由AI来完成。 1. 产品设计:Google AI Studio + Gemini 3.0 Pro Preview 我先把需求丢给Gemini: “我想做一个春节主题的小程序,帮年轻人应对亲戚的尬聊。你帮我设计产品方案。” Gemini给出了完整的PRD文档,包括: 目标用户画像 核心功能定义 技术架构建议 上架物料清单 开发时间表 这份文档直接成为了我的开发指南。AI不仅帮我理清了思路,还提醒我注意内容合规、类目审核等坑点。 2. UI素材:Nano Banana Pro(图片生成) 小程序需要大量视觉素材:角色头像、背景图、装饰元素等。我全部用Google AI Studio的图片生成模型搞定。 典型的Prompt: 1A cute 3D cartoon Chinese aunt character, wearing red traditional clothes, 2holding a smartphone, slightly snobbish expression, pop mart style, 3bright red background, Chinese New Year atmosphere, 8k 生成的图片质量很高,直接就能用。关键是速度快,几秒钟就能出图,比找设计师或自己画快太多了。 ...

2026-02-20 · 2 min · 335 words · 老墨

大模型实战指南(2026年新春版):深度推理与智能体的时代

大模型实战指南(2026年新春版):深度推理与智能体的时代 发布背景速览 2026年初,各大AI公司密集发布新一代大模型,标志着大模型技术进入新的发展阶段: Google Gemini 3.0:2026年1月发布,重点强化多模态能力,在图像和视频处理方面实现重大突破,成为多模态领域的领跑者。 ChatGPT 5.3:OpenAI在2025年底推出GPT-5 Omni后,2026年初发布5.3版本,进一步优化深度推理能力,在复杂逻辑推导方面保持领先。 Claude Opus 4.6:Anthropic在2026年初推出4.6系列,特别针对代码生成和智能体场景进行深度优化,成为开发者的首选工具。 国内模型:阿里通义千问Qwen 3、百度文心一言4.0、字节Seedance 2.0等均在2026年初完成重要更新,在中文理解和特定领域应用上实现突破。 最近被朋友问麻了:“老墨,都2026年了,GPT-5到底值不值那个天价订阅费?” “Claude 4的超长记忆真的不丢包了吗?” “国产模型现在的‘推理能力’是不是真的赶上来了?” 作为一个AI探索的老鸟,我想说:2026年的大模型之战,已经从“生成内容”变成了“解决复杂问题”。 如果说两年前大家还在惊叹AI能写诗、画图,那么现在,如果你不能帮我自主完成一个跨应用的工作流,或者进行长达半小时的深度逻辑推导,那你都不好意思叫顶尖模型。 今天老墨就把压箱底的实测经验掏出来,从实战角度对比国内外主流大模型(2026版)。不玩虚的排行榜,只聊“怎么用、在哪用、值不值得用”。 注意,这里老墨只列出正式发布的、老墨实际使用过的、能够直接上生产环境用的大模型版本,其他的还没有正式发布的版本比如 gpt-5.3-turbo-preview、 Google Gemini 3.0 Pro Preview 等暂不考虑。 此外,评分都是根据老墨的个人使用经验,难免有疏漏。如果有任何错误或建议,请在评论区留言。 先搞懂3个问题:老墨不说废话(2026年版) 1. 大模型现在进化到哪一步了? 别再只盯着“多模态”看了,那在2024年底就已经是标配了。2026年的关键词是: 深度推理(System 2 Thinking):模型不再是只会快思考的“鹦鹉”,它们现在能像人类一样慢下来,进行多步规划、自我反思和纠错。这是解决数学难题和复杂编程的关键。 智能体化(Agents):模型不再是一个等着你提问的聊天框,而是能主动操控浏览器、终端、为你点外卖、订机票的“数字员工”。 记忆与个性化:顶尖模型现在能记住你几个月前说过的话,真正成为了懂你的私人助理,而不是每次都要重新介绍背景。 2. 老墨的评分凭什么? 两年前的那些MMLU基准早就不够看了。现在老墨主要看: 复杂任务成功率:扔给它一个模糊的商业需求,它能不能拆解并最终交付结果? 推理深度与幻觉率:在长链条逻辑推导中,它会不会自己把自己绕晕?(现在幻觉已经大幅降低,但依然存在)。 智能体交互体验:它调用外部工具(如搜索、代码解释器、第三方API)顺不顺手? 3. 国内外模型现在的真实差距? 老墨结论(2026年版): 顶尖战力:OpenAI和Anthropic依然在**“深度推理”和“通用智能体架构”**上引领方向,属于“定义未来”的角色。 多模态王者:Google的Gemini在图像和视频处理方面已经超越ChatGPT,在多模态领域处于绝对领先地位。 中国速度:国内头部大厂(阿里、字节、百度、深求)在应用层打磨得极好,在**特定领域(如中文语境下的复杂任务、性价比代码生成)**已经完全不输甚至局部领先国际巨头, 但是,在图像图像处理、视频处理等多模态领域,仍然有明显的差距。 格局:以前是仰望,现在是慢慢看齐,中国大模型正在以非常快的速度追赶。 国际主流大模型:探索智能上限的先行者 1. GPT-5 Omni (OpenAI) —— 深度推理的绝对王者 最新动态:2025年底发布的重磅炸弹,目前(2026年初)公认的战力天花板。 核心能力:革命性的“慢思考”模式(System 2)。遇到难题时,你会看到它显示“正在规划思路…”,然后进行长达数十步的自我推导和验证。此外,它的原生全模态(视频/音频/文本无缝实时流转)体验极其丝滑。 老墨评价:它是拿来解决你解决不了的问题的。 如果你只是写个邮件,用它属于杀鸡用牛刀。但如果你要设计复杂的软件架构、推导前沿数学猜想,或者需要一个能真正理解视频内容并和你实时语音辩论的AI,GPT-5 Omni是唯一选择。贵是真贵,强是真强。 适合场景:前沿科研、复杂系统设计、需要极高逻辑密度的任务、实时视频/语音深度交互。 老墨评分:9.9分(扣0.1分是因为价格和偶尔的过度思考) 在 Cursor 最新版本中早就支持了 GPT 5.3 版本,老墨也在测试中,目前来看,这是目前地球上写代码最强的“大脑”, 与 Claude Opus 4.6 有点旗鼓相当的味道了,代码理解能力超强,这里暂不赘述,后续在考虑撰文来评测一番。 ...

2026-02-15 · 2 min · 294 words · 老墨

EP03 - 试图驯服一只猛兽:OpenClaw 的 Docker 监狱

EP03 - 试图驯服一只猛兽:OpenClaw 的 Docker 监狱 昨天我在测试 OpenClaw 的 “File System Tool” 时,发生了一件让我冷汗直流的事。 我给它的指令是:“清理一下当前目录的临时文件”。 可能是因为我的 Prompt 写得太随意,它直接把我的整个 ~/Downloads 文件夹给清空了。 幸好那里只有一堆没用的安装包。但如果它删的是我的 ~/Documents 或者 .ssh 密钥呢? 这就是我们在 link:/posts/ai/why-i-choose-openclaw/[] 里提到的代价:强大的能力伴随着巨大的风险。 一个拥有 Shell 权限的 AI Agent,本质上就是一个盯着你键盘随时准备按下回车键的超级用户。在裸机 (Bare Metal) 上直接运行它,无异于把自家大门的钥匙交给一个喝醉了的锁匠。 今天,我们要给这个不仅聪明而且危险的家伙,造一座牢不可破的监狱。 这也是极客生存法则第一条:永远不要信任你的 Agent。 本文涉及本地Native安装的一些知识,你可以阅读上一篇 EP02 来了解它们。 为什么一定要用 Docker? 很多人觉得 Docker 只是为了方便部署。 错。对于 Agent 开发来说,Docker 是保命符。 文件隔离 (Filesystem Isolation): 把它关在 /app 里。它想 rm -rf /?请便,删的只是容器里的文件,我的 Mac 毫发无损。 网络白名单 (Network Whitelist): 我们可以限制它只能访问特定的 API,防止它把我的本地数据传给不知名的服务器。 环境一致性: 你不用担心 Node.js 版本不对,或者缺了什么 Python 库。 手把手构建 “The Cage” 我们不需要什么花哨的 k8s,一个简单的 Dockerfile 和 docker-compose.yml 就够了。 但这里有几个针对 Mac 用户和 Ollama 的关键坑,我都替你踩平了。 ...

2026-02-09 · 3 min · 562 words · 老墨

EP02 - 给你的电脑安装一个数字管家: 安装和搭建 OpenClaw

EP02 - 给你的电脑安装一个数字管家: 安装和搭建 OpenClaw 安装 OpenClaw 暂时抛开官方这些“深奥”的建议,我们先来尝试安装它,下一篇我们再来安全地把它关到“沙盒”中去。安装 OpenClaw 非常简单,只需要一行命令: 1# macos 2curl -fsSL https://openclaw.bot/install.sh | bash 3 4# windows 5iwr -useb https://openclaw.ai/install.ps1 | iex 但是过程中有许多注意的地方,以我的mac为例,我们来看一下安装过程。 终端执行上述命令后,会先检查一些依赖,比如node, npm等,如果你的电脑没有安装,需要先安装: 稍作等待,安装完成后,OpenClaw 会自动执行 OpenClaw doctor 命令,来诊断环境和安装是否正确。 由于我之前安装了旧版的 clawdbot, 它会自动迁移配置信息。 doctor 执行完成后,会自动进行设置,此时会弹出诸多选项让你做出选择,比如配置模型、配置聊天客户端、Skills 等。 最终完成会输出访问的url(默认是 http://127.0.0.1:18789), 就可以在浏览器中打开控制台(dashboard)了. 接入 Telegram (首选) 为什么首选 Telegram? 很遗憾,国内的IM目前 OpenClaw 都不支持, 对于飞书、钉钉的支持据说还在开发中,所以目前我们最好的方式就是选择 Telegram. 因为它是这个星球上对开发者最友好的 IM,没有之一: 不需要手机号验证码,不需要营业执照,不需要企业认证。 你只需要跟一个叫 @BotFather 的机器人聊两句,就能拿到通往 OpenClaw 的钥匙。 极客配置三步走: 搞定 Token 打开 Telegram,搜索 @BotFather (认准蓝标)。 发送指令 /newbot。 给你的机器人起个名字 (比如 MyJarvis) 和用户名 (必须以 bot 结尾,比如 my_jarvis_bot)。 BotFather 会给你一串红色的 Token,长得像这样:123456:ABC-DEF1234ghIkl-zyx57W2v1u123ew11。复制它 切勿外传,否则可能别人就帮你操作你的电脑了! 配置 OpenClaw 如果你之前已经设置了telegram,那么直接下一步。没有配置,则推荐使用交互式配置: 1openclaw channels add 选择 Telegram,然后粘贴 Token。 或者直接修改配置文件 ~/.openclaw/openclaw.json (更 Geek 的方式,不推荐,除非你完全掌握了OpenClaw): 1"channels": { 2 "telegram": { 3 "token": "YOUR_TOKEN_HERE" 4 } 5} 验证与配对 (Pairing) 在 Telegram 里找到你的机器人,点击 Start 或发送 /start。 ...

2026-02-07 · 2 min · 336 words · 老墨

EP01 - 告别 Claude Desktop:为什么我选 OpenClaw 做我的数字管家

EP01 - 告别 Claude Desktop:为什么我选 OpenClaw 做我的数字管家 To be honest,Claude Desktop 发布 MCP (Model Context Protocol) 的时候,我是真的很兴奋。 但那种兴奋只维持了三天。 当你真正试图把 AI 融入工作流时,你会发现 Claude Desktop 有两个致命死穴: 它被困在桌面上:你必须坐在电脑前才能用它。 它是闭源的黑盒:你不知道它怎么处理你的文件,每一条指令都像在把家门钥匙交给那个坐在旧金山办公室的陌生人。 直到我发现了 OpenClaw。 Not Just a Bot, It’s a Gateway 先澄清一个误区:OpenClaw 不仅仅是一个像 Chatbox 那样的“套壳客户端”。 它的本质是一个运行在你本地的 Gateway(网关)。 如果你读过它的官方文档,你会发现它的架构非常 Sex: WhatsApp / Telegram <-> Gateway (Localhost) <-> AI Agent (Tools) 这意味着什么? 这意味着你可以躺在床上用手机发消息(支持 WhatsApp/Telegram 等等几十种聊天客户端),指挥你书房里的 Mac 干重活。 这也是它的口号: “The AI that actually does things.” 我想这也是为什么他会这么大火的原因。 场景 A: 周末出门在外,服务器突然报警。你不用掏出电脑连热点 SSH,直接在 Telegram 里发一句:“查一下 Nginx 为什么挂了”。OpenClaw 帮你跑 tail -f /var/log/nginx/error.log 并总结给你。 场景 B: 路上突然想到一个 Idea。发给 OpenClaw:“记到我的 Obsidian 里,并同步到 GitHub”。它直接操作你本地的文件系统。 你可以到这里看看大家都在用 OpenClaw 做些什么:https://openclaw.ai/showcase ...

2026-02-05 · 2 min · 249 words · 老墨

EP00 - DeepSeek R1 本地部署实战 (Mac篇)

EP00 - DeepSeek R1 本地部署实战 (Mac篇) 摘要: 别被几万块的显卡劝退。你的 MacBook Pro (Apple Silicon) 就是跑 DeepSeek R1 的神器。本文手把手教你用 Ollama 在本地跑起“满血版”推理模型,不仅免费,而且隐私绝对安全。 阅读时间: 5分钟 适用人群: 程序员、科研党、隐私敏感用户 硬件要求: M1/M2/M3/M4 Mac,推荐 16GB+ 内存 为什么要在本地跑 DeepSeek? 隐私安全: 你的代码、私有文档不需要上传到云端,断网也能用。 零延迟响应: 没有网络延迟,交互更丝滑(取决于模型大小)。 无审查: 你懂的。 免费: 不需要订阅费,只消耗电费。 核心工具:Ollama Ollama 是目前 macOS 上体验最好的大模型运行工具,没有之一。它开源免费,支持非常多的大模型,GitHub仓库在 这里, 目前161K的 Star。 用程序员最能听懂的话解释:Ollama 就是大模型界的 Docker。 Docker 让你可以一行命令跑 MySQL / Nginx。 Ollama 让你可以一行命令跑 DeepSeek / Llama3。 它在后台默默做了三件事:驱动 GPU、管理模型文件、提供 API 服务。装了它,你的 Mac 就有了“大脑”。 安装 Ollama 有两种方式: 方式 A: 官网下载 (推荐小白) 访问 ollama.com 下载 macOS 版本并安装。 ...

2026-02-03 · 2 min · 422 words · 老墨