OpenClaw多Agent实战:从0到1搭多角色协作机器人,踩遍所有坑!

各位极客老铁,老墨又来填坑了! 最近深耕OpenClaw多Agent模式,目标很简单:让main机器人当调度员,mr(市场研究员)、pm(产品经理)、dev(开发工程师)各干各的活,形成一个小型AI协作团队。但过程真的一言难尽,从命令行操作到飞书配置,踩了N个暗坑,今天把完整搭建流程+避坑指南甩给你们,全程实操,跟着走不迷路——毕竟老墨从不玩虚的,只讲能落地的干货! 为什么需要多个Agent呢? 先交代背景:很多老铁会问,搞一个main机器人不就够了?为啥非要折腾多个Agent? 老墨实测总结:单Agent就是“万金油”,啥都能做但啥都不精——比如让一个机器人既做市场调研、又做产品规划、还写代码,做的事情太多了,记忆存储也会庞大,很容易出现“AI幻觉”。 我要搭建的多Agent架构,核心是「1个调度Agent(main/小墨)+ 3个功能Agent(mr/pm/dev)」,所有Agent接入飞书群组,实现“@对应角色触发对应响应”,目前已完成群组呼叫、私聊,协同工作还需进一步研究,看后文详述。 多Agent的核心价值,就是「分工明确、各司其职」:main机器人当调度员,负责统筹需求、分配任务;mr专注市场调研,pm聚焦产品规划,dev专攻技术实现,既避免了单Agent的混乱,又能提升响应效率和专业性,后续还能实现协同工作,搭建一个小型AI协作团队。 顺便说一句,为了使用飞书插件最新的能力,我把openclaw原生的飞书插件替换成了,我测试了一下,他们的配置是兼容的,你可以不用按照我的来,如果配置不兼容你可以参考飞书官方插件使用文档和OpenClaw飞书官方文档。 前言 由于OpenClaw版本更新非常快,文档更新不及时,网上查询资料时老墨也深受其害,配置各不相同,非常麻烦。所以老墨这里把环境标清楚,避免你跳坑: OpenClaw版本: 我的是 2026.3.13,非常影响后文讲述的配置,不同版本差异非常大,如果你的版本与我不一致,那么你需要注意 系统环境: Windows 10,这个影响不是很大,主要注意windows和linux路径上的区别即可 另外,你可以了解一下飞书的id设计,每一个机器人看到的你的 openid并不是一样的,如果你用到了需要特别注意: openid:以 ou 开头,格式为 ou_xxx 群聊的id: 以 oc 开头,格式为 oc_xxx Appid: 飞书机器人的appid格式时 cli_xxx 一、第一步:添加多个工作区(多Agent的基础,别瞎建目录) OpenClaw的多Agent,本质是「每个Agent对应一个独立工作区」,工作区里存着该Agent的身份配置(soul.md/identity.md等)、日志和任务数据,这一步是基础,建错路径后续全白搭。 很多新手上来就手动建文件夹,结果OpenClaw识别不到,老墨实测:用命令行创建最稳妥,自动关联配置,避免路径错乱。 先查看一下你的agent列表: 1openclaw agents list 你应该看到你本地有一个主agent,现在可以添加几个了: 1openclaw agents add mr --workspace ~/.openclaw/workspace-mr 2openclaw agents add pm --workspace ~/.openclaw/workspace-pm 3openclaw agents add dev --workspace ~/.openclaw/workspace-dev 这里展示一下我后台添加的一个writer的截图: 这里我指定工作目录在我的用户目录下的 .openclaw中,与主Agent一致。 如果你加错了,你可以删除: 1openclaw agents remove dev 创建完成后,你的~/.openclaw/openclaw.json配置文件的"agents"节点下会有"list"子节点,里边对应了你添加的多个agent,你可以修改这个配置,比如指定不同的模型: ...

2026-03-20 · 3 min · 487 words · 老墨

养虾必备的 10 个 Skills,最后一个是真神

大家好,我是极客老墨。 今天我们来盘点 OpenClaw 社区公认、高频实用的十大核心 Skills,按「安全打底→基础核心→场景提效→进阶成长」排序,覆盖你做内容创作、开发运维、日常自动化的全场景需求,老墨亲测,文末附一键安装指令。 什么是 Skill? 如果没有Skill,你会发现你的 OpenClaw 功能会非常有限。装上 Skill,相当于给它插上了翅膀,让它变得强大且聪明。 你可以把 OpenClaw 想象成一部手机,它的 Skill 就是手机里的APP:它本质上是一个可以独立运行的插件和应用程序,大模型根据需要按需调用它实现某些特定的功能。 比如 file-organizer(文件管理 Skill)是 “文件管理器 APP”,agent-browser 是 “浏览器自动化 APP”;这些 Skill 是独立的可执行程序,有自己的代码、依赖、配置,安装后能直接运行;你对 OpenClaw 说 “整理我的桌面文件”,OpenClaw 会调用 file-organizer 这个 Skill 直接执行,无需大模型额外处理。 去哪里找 Skill? 官方有个 ClawHub,这是 OpenClaw 的 Skill 社区。 我给老铁安装OpenClaw的时候一般都会把官方的 clawhub Skill装上,这样就可以通过对话的方式让 OpenClaw 自己安装 Skills 了。 但 ClawHub 经常限速,我现在更推荐用腾讯的 skillhub,国内访问更快。 安装方式: 方式1:对话安装(推荐) 直接和 OpenClaw 说: 根据 https://skillhub-1388575217.cos.ap-guangzhou.myqcloud.com/install/skillhub.md 安装Skillhub商店。 方式2:命令行安装(macOS/Linux) 1curl -fsSL https://skillhub-1251783334.cos.ap-guangzhou.myqcloud.com/install/install.sh | bash ...

2026-03-13 · 2 min · 356 words · 老墨

OpenClaw这一套自动化流程下来,再也不需要我自己手动发图文了

大家好,我是极客老墨。 前几天折腾了一整天,终于把"每日一Go"的自动化流程跑通了。说实话,搞完的那一刻,我坐在椅子上发了会儿呆——这玩意儿真的能自己干活了? 让我从头说说这事儿。 起因:不想每天手动发图 做公众号的都知道,每天发图文是个体力活。选题、写题、生成代码图、上传素材、创建草稿、发布……一套下来,半小时没了。 我就在想:能不能让小墨(我的智能AI助理)自己干这事儿? 说干就干。 整个系统长这样 先给你看个整体架构图,不然光说容易晕: [题库] → [小墨] → [daily-go-skill] → [图片生成] ↓ [content-publisher] → [微信公众号] 三个核心组件: 1. daily-go-skill 小墨自己写的 skill,专门用来生成 Go 题目的图片。用 Python 实现的,代码高亮直接用现成的库,简单粗暴。 2. content-publisher 这是我自己搞的微信 API 中转服务。为啥要搞这个?因为微信的 appid 和 appsecret 太敏感了,直接放小墨那儿不安全。这个服务跑在我自己的服务器上,小墨只能通过 API 调用,拿不到敏感信息。 3. 题库 小墨自己维护的,用飞书的多维表格。字段包括题目、答案、难度、状态、日期等。后期题库大了可以直接上数据库,但现在飞书够用了。 小墨的工作流程 我给你还原一下它"脑子里"想什么。 第一步:接任务 我说:“小墨,发一道每日一Go到公众号。” 小墨的第一反应:“好的,老大。我先看看题库里有什么。” 第二步:读题库 小墨打开飞书表格,扫了一遍未发布的题目。 [题库查询] - 题目1:Go 的 defer 执行顺序?(已发布) - 题目2:slice 和 array 的区别?(已发布) - 题目3:map 是并发安全的吗?(未发布)✓ “找到了,就这道吧。” 第三步:生成图片 小墨调用 daily-go-skill,把题目传过去。 ...

2026-03-09 · 2 min · 250 words · 老墨

重启 OpenClaw,结果崩溃了!

大家好,我是极客老墨。 刚才手贱,把电脑重启了一下。再启动 OpenClaw,结果,起不来了,直接报错。 说实话,那一刻我有点懵。明明之前还好好的,怎么重启一下就挂了? 赶紧检查一下状态: $ openclaw health 直接出错: 看错误信息,大概是少了一个模块,@larksuiteoapi/node-sdk。 我第一反应是:这是飞书插件依赖的 SDK 吧? 记得之前启动的时候,总会提示两个飞书插件: 既然 .openclaw 下有一个飞书插件,怎么安装目录下还有一个呢? 难怪冲突。所以我之前是直接把 .openclaw 下的删除了。 现在想想,删错了。 到官方文档看看这个错误信息,找到了: 大概明白了,@larksuiteoapi/node-sdk 这个库没有兼容最新版本的 OpenClaw。 看来是 OpenClaw 安装包下的插件太旧了,应该删除它才对。 直接删了: 然后重新安装飞书插件: $ openclaw plugins install feishu 或者重新发起配置流程,会自动安装这个插件: $ openclaw config 虽然还是有那个 plugins.allow 的错误,但是终于可以成功跑起来了…… 老墨总结 折腾完这个 bug,我有几个感悟: 1. 快速迭代是把双刃剑 OpenClaw 更新太快了,这事儿有好有坏。 好处是功能迭代快、问题修复及时。但坏处是——插件生态跟不上。 2. 备份意识要加强 这次是插件冲突,删错了还能重装。但如果是配置文件丢了、数据坏了呢? 3. 插件生态需要跟上 OpenClaw 发展这么快,插件作者也得跟上节奏。 不然用户每次更新都可能踩坑,体验就差了。 ...

2026-03-09 · 1 min · 63 words · 老墨

GPT-5.4 来了,全球风靡的 OpenClaw 还能养多久?

大家好,我是极客老墨。 今天我们不聊技术,咱们聊聊 AI 助手的未来。 早上(3月7日)刷到 36氪那条新闻 的时候,我正在用 OpenClaw 帮我整理昨天的代码笔记。标题很刺眼:“GPT-5.4 发布,OpenClaw 的能力要被替代?” 我愣了一下,然后笑了。 不是因为觉得 OpenClaw 真的会被替代,而是这种"替代论"太熟悉了。去年这个时候,大家还在讨论 Copilot 会不会让程序员失业;今年,轮到了 OpenClaw。 说实话,GPT-5.4 的发布确实让我挺激动的。不是看新闻激动,而是因为我之前在 Cursor 里体验过它。 那种体验,怎么说呢? 就是你写一个函数,它不仅能理解你想干什么,还能主动帮你重构,把那种"能跑但有点丑"的代码,改成"看起来像是精心设计的"样子。有一次我写了个数据处理脚本,逻辑有点绕,它直接给我重写成管道式处理,还附带了注释:“这样更容易测试”。 我当时盯着屏幕看了三秒钟,然后默默删掉了自己原来的代码。 这就是 GPT-5.4 的代码能力。不是简单的补全,是真的在理解你的意图,然后给出更好的方案。 但今天的重点不是这个。 让我真正思考的是另一件事:GPT-5.4 原生支持桌面操作了。 根据那篇文章,OpenAI 把 CUA(Computer Use Ability)直接整合进了模型。这意味着什么?意味着 GPT-5.4 可以直接操作你的电脑,打开浏览器、点击界面、发送邮件、安排日历——基本上就是 OpenClaw 现在做的事,但它是原生的。 相比于 5.2, OSWorld Verified 的测试成绩从 47.3% 提升到 75%,BrowseComp 从 65.8% 提升到 82.7%。 OSWorld Verified: AI 在真实操作系统环境中完成 开放式任务 的能力。 BrowseComp: AI 在 浏览器环境 中完成复杂任务的能力。 数字很枯燥,但背后的意思很清楚:OpenAI 正式入场"AI 操作电脑"这个赛道了。 ...

2026-03-07 · 1 min · 145 words · 老墨

AI 龙虾第一天就给我写了个程序,还会定时爬数据

大家好,我是极客老墨。 经过昨天的艰难跋涉(详见上篇),OpenClaw 终于在 Windows 上跑起来了。第一天使用下来,说实话,这玩意儿比我想象的能干。 让它帮我写代码:经典贪吃蛇游戏 作为技术控,第一个尝试必须是代码!我还是让 小墨(我的AI助理) 帮我写一个经典的贪吃蛇网页游戏。 我直接告诉他:“小墨,帮我写一个贪吃蛇的网页游戏,最后文件直接发给我”。结果他没反应,后来才知道,原来他正卖力的写代码去了,顾不上理我,因为现在数据还没有能力流式返回,必须等他写完了给我我才知道(晚上的「飞书龙虾会直播」我看了,已经有流式返回数据的插件了,后边研究了再来讲) 写完之后,他并没有直接给我文件,而是问我怎么给我这个文件。这里应该是我的提示词没优化好,第一次配合,有点翻车。 再次确认让他发给我,这次就对了。打开游戏一看——界面还不错,完成度100%。就是速度太快了,我玩了几次才适应过来。 第二个任务:自动搜索小红书爆款文案 我的想法很简单:让 AI 助手自动搜索小红书上某个类目的爆款视频标题和内容。 OpenClaw 的做法很硬核——直接本地打开浏览器,像真人一样操作。这也是它完成工作的主要方式:模拟真人操作电脑。 让他搜索小红书,结果告诉我要登录: 登录后,他成功打开浏览器并返回了数据给我: 再次让他搜索 OpenClaw: 这是他打开的网页: 他能够读取网页并返回准确的数据回来。 第三个任务:每日早报功能 我很关注 AI 领域的新闻,所以想让小墨每天定时给我报告最新的新闻和 AI 资讯。我直接告诉他: 1你好,小墨。整理下边的信息发给我 21. 获取今天成都天气 32. 获取今日微博全球新闻榜前10条,标题为微博新闻 43. 获取今日最新的AI相关的新闻资讯前10条,标题为AI咨询 54. 整理成自带链接可以直接点击的简洁文字内容发给我 一开始 prompt 忘记加链接了,补上后,他返回了正确的数据。同样地,他会打开本地浏览器,输入网址自己看,最后返回正确的数据: 最后,我需要每天定时给我,他成功帮我搞定: 一个小插曲,他干完活浏览器没关闭,我提醒他之后他认识到了自己的错误。 可以看到,gateway 控制页面上的“定时任务”菜单中查看,已经加上了这个任务: 晚上看了飞书玩虾大会,几点感悟 晚上看了飞书的玩虾大会直播,看大牛们都是怎么玩龙虾的,有几点感悟: 1. 自动化办公真的来了 飞书与 OpenClaw 集成之后,抓数据、做报表、整理知识库这些日常工作都可以交给 OpenClaw 了。 2. 多只龙虾协同配合 多个龙虾搞到群组中,一起协同配合,形成工作流。这比传统的工作流工具方便得多,而且更智能。龙虾之间在不同的工程中可以互相促进,并变得更智能。 ...

2026-03-06 · 1 min · 166 words · 老墨

为了搞个 AI 助手,我在 Windows 上折腾了整整一天

大家好,我是极客老墨。 说实话,macOS 上装 OpenClaw 那叫一个丝滑,一行命令下去,半小时搞定全部配置。 结果换到 Windows,我心态崩了。 PowerShell 版本不对、权限配置踩坑、飞书机器人配置更是绕得我头晕。整整两天,我差点把电脑砸了。 但搞完之后,我发现 Windows 部署其实没那么难,只是网上没人把坑说清楚。 今天老墨把踩过的坑全抖出来,看完你半小时就能搞定。 我的 Mac 是办公电脑,但我想搞个"永不关机"的 AI 助手 之前(2月份)写了一篇 在 macOS 安装 OpenClaw 的文章,当时国内 IM 应用还没支持。没想到一个月过去,飞书、钉钉、企业微信、QQ 居然全都支持了,更新速度之快! 我的 Mac 是办公电脑,不能 24 小时跑着玩。但我又想要一个随时能召唤的 AI 助手,怎么办? 翻出角落里落灰的 Windows PC,性能没得说,就是有点费电😭。没办法,Mac Mini 一机难求啊,各位有没有 mini PC 可以推荐的? 言归正传,咱们开始。 前置检查:PowerShell 版本这个坑,90% 的人会踩 装之前,先看看你的 PowerShell 版本。低于 7.0,后面装依赖会报错到你怀疑人生。 怎么查?打开 PowerShell(不是 CMD!),输入: 1$PSVersionTable.PSVersion 如果显示的是 5.1,恭喜你,中奖了。 必须升级到 7,不然装 OpenClaw 的时候会报各种奇奇怪怪的错。 升级方法简单到离谱: 打开微软应用商店 搜索 “PowerShell” 点击安装 装完之后,一定要用新打开的 PowerShell 7 窗口,别用原来的旧窗口。 ...

2026-03-05 · 2 min · 391 words · 老墨

2026 年了,这些 AI IDE 还能白嫖

大家好,我是极客老墨。 去年这个时候,我还在纠结要不要订阅 Cursor Pro。今年,我的电脑里装了七八个 AI IDE,一个月下来,花的钱是零。 不是我抠门,是这些工具的免费额度真的够用。写个脚本、改改 Bug、重构代码,基本不用掏钱。当然,如果你是重度用户,每天写几千行代码,那该付费还是得付费。但对于大部分开发者来说,薅羊毛的空间还是很大的。 下面这些工具是我这段时间用下来觉得值得折腾的,有些需要科学上网,有些需要改地区,有些直接某宝买个 Key 就能用。别问我怎么搞,懂的都懂。 为什么需要 AI IDE? 说实话,刚开始我也觉得 AI 写代码是噱头。直到有一次我要写个 Python 脚本处理 JSON 数据,平时可能要查半天文档,结果 Cursor 直接给我生成了,改都不用改。 回想一下,2025 年初的时候,GitHub Copilot 还只能做行内补全,写个函数名它给你补全函数体,仅此而已。那会儿大家还在惊叹"哇,AI 能写代码了"。结果到了 2025 年中,Cursor 出来了,直接能多文件编辑,Cmd+K 一下改十几个文件。再到 2025 年底,Claude 3.5 Sonnet 发布,上下文窗口直接干到 200K,能理解整个项目的代码逻辑。 现在 2026 年初,这才过了一年,AI IDE 已经卷到什么程度了?Windsurf 免费无限补全,Kiro 支持本地模型和自定义工作流,Antigravity 能看懂设计稿直接生成 UI 代码。一年前你还在为 Copilot 的 10 刀月费纠结,现在免费工具多到用不过来。 更夸张的是模型本身的进化速度。GPT-4 刚出来的时候,写个复杂算法还经常出 Bug。现在 Claude 3.5 Sonnet 和 GPT-4 Turbo,不仅能写代码,还能做代码审查、重构、写测试、解释架构。去年你还在担心 AI 会不会抢饭碗,今年你已经在担心不用 AI 会不会被淘汰。 这个速度真的有点吓人,而且仍然再以肉眼可见的速度飞速发展。谁能想到,在2026年初,你只要描述你的需求,AI就能直接给你生成完整的、能够直接运行的前后端代码,包括 UI 设计都能给你实现!虽然编写大型代码还存在一定的问题,但是老墨大胆预测一下,2026年将迎来 AI 齐头并进、百花争艳的盛况! ...

2026-02-23 · 5 min · 969 words · 老墨

2026马年春节,我用AI帮我写了一个嘴替小程序

春节回家,最怕的是什么?不是堵车,不是抢票,而是亲戚的灵魂拷问。 “工资多少啊?” “有对象了吗?” “什么时候买房?” 今年我决定不再被动挨打,用3天时间撸了个"春节嘴替"小程序,让AI帮我练习怼人。更重要的是,整个开发过程几乎全靠AI完成——从产品设计到代码实现,我只是个"提示词工程师"。 先看效果 小程序叫"春节嘴替",核心功能有三个: AI嘴替对话 - 和虚拟亲戚battle,练习高情商回怼 妈妈银行存单 - 生成趣味压岁钱对账单 马年开运头像 - 制作春节专属头像 神仙祝福 - AI生成个性化拜年祝福语 最有意思的是AI嘴替功能。我设计了4个经典角色: 势利眼二姨(儿子阿里P8,逢人就炫) 催婚大姑(见面就问对象) 凡尔赛邻居(女儿在国外"留学") 严肃二舅(体制内,看不起互联网打工人) 每个角色都有完整的人设和攻击策略,AI会根据你的回复动态调整战斗力。如果你怼得好,AI会破防;如果你怼得不够狠,AI会继续压制你。 你可以体验一下,看看效果: AI开发全流程 这个项目最大的特点是:几乎全部由AI来完成。 1. 产品设计:Google AI Studio + Gemini 3.0 Pro Preview 我先把需求丢给Gemini: “我想做一个春节主题的小程序,帮年轻人应对亲戚的尬聊。你帮我设计产品方案。” Gemini给出了完整的PRD文档,包括: 目标用户画像 核心功能定义 技术架构建议 上架物料清单 开发时间表 这份文档直接成为了我的开发指南。AI不仅帮我理清了思路,还提醒我注意内容合规、类目审核等坑点。 2. UI素材:Nano Banana Pro(图片生成) 小程序需要大量视觉素材:角色头像、背景图、装饰元素等。我全部用Google AI Studio的图片生成模型搞定。 典型的Prompt: A cute 3D cartoon Chinese aunt character, wearing red traditional clothes, holding a smartphone, slightly snobbish expression, pop mart style, bright red background, Chinese New Year atmosphere, 8k 生成的图片质量很高,直接就能用。关键是速度快,几秒钟就能出图,比找设计师或自己画快太多了。 ...

2026-02-20 · 2 min · 335 words · 老墨

大模型实战指南(2026年新春版):深度推理与智能体的时代

大模型实战指南(2026年新春版):深度推理与智能体的时代 发布背景速览 2026年初,各大AI公司密集发布新一代大模型,标志着大模型技术进入新的发展阶段: Google Gemini 3.0:2026年1月发布,重点强化多模态能力,在图像和视频处理方面实现重大突破,成为多模态领域的领跑者。 ChatGPT 5.3:OpenAI在2025年底推出GPT-5 Omni后,2026年初发布5.3版本,进一步优化深度推理能力,在复杂逻辑推导方面保持领先。 Claude Opus 4.6:Anthropic在2026年初推出4.6系列,特别针对代码生成和智能体场景进行深度优化,成为开发者的首选工具。 国内模型:阿里通义千问Qwen 3、百度文心一言4.0、字节Seedance 2.0等均在2026年初完成重要更新,在中文理解和特定领域应用上实现突破。 最近被朋友问麻了:“老墨,都2026年了,GPT-5到底值不值那个天价订阅费?” “Claude 4的超长记忆真的不丢包了吗?” “国产模型现在的‘推理能力’是不是真的赶上来了?” 作为一个AI探索的老鸟,我想说:2026年的大模型之战,已经从“生成内容”变成了“解决复杂问题”。 如果说两年前大家还在惊叹AI能写诗、画图,那么现在,如果你不能帮我自主完成一个跨应用的工作流,或者进行长达半小时的深度逻辑推导,那你都不好意思叫顶尖模型。 今天老墨就把压箱底的实测经验掏出来,从实战角度对比国内外主流大模型(2026版)。不玩虚的排行榜,只聊“怎么用、在哪用、值不值得用”。 注意,这里老墨只列出正式发布的、老墨实际使用过的、能够直接上生产环境用的大模型版本,其他的还没有正式发布的版本比如 gpt-5.3-turbo-preview、 Google Gemini 3.0 Pro Preview 等暂不考虑。 此外,评分都是根据老墨的个人使用经验,难免有疏漏。如果有任何错误或建议,请在评论区留言。 先搞懂3个问题:老墨不说废话(2026年版) 1. 大模型现在进化到哪一步了? 别再只盯着“多模态”看了,那在2024年底就已经是标配了。2026年的关键词是: 深度推理(System 2 Thinking):模型不再是只会快思考的“鹦鹉”,它们现在能像人类一样慢下来,进行多步规划、自我反思和纠错。这是解决数学难题和复杂编程的关键。 智能体化(Agents):模型不再是一个等着你提问的聊天框,而是能主动操控浏览器、终端、为你点外卖、订机票的“数字员工”。 记忆与个性化:顶尖模型现在能记住你几个月前说过的话,真正成为了懂你的私人助理,而不是每次都要重新介绍背景。 2. 老墨的评分凭什么? 两年前的那些MMLU基准早就不够看了。现在老墨主要看: 复杂任务成功率:扔给它一个模糊的商业需求,它能不能拆解并最终交付结果? 推理深度与幻觉率:在长链条逻辑推导中,它会不会自己把自己绕晕?(现在幻觉已经大幅降低,但依然存在)。 智能体交互体验:它调用外部工具(如搜索、代码解释器、第三方API)顺不顺手? 3. 国内外模型现在的真实差距? 老墨结论(2026年版): 顶尖战力:OpenAI和Anthropic依然在**“深度推理”和“通用智能体架构”**上引领方向,属于“定义未来”的角色。 多模态王者:Google的Gemini在图像和视频处理方面已经超越ChatGPT,在多模态领域处于绝对领先地位。 中国速度:国内头部大厂(阿里、字节、百度、深求)在应用层打磨得极好,在**特定领域(如中文语境下的复杂任务、性价比代码生成)**已经完全不输甚至局部领先国际巨头, 但是,在图像图像处理、视频处理等多模态领域,仍然有明显的差距。 格局:以前是仰望,现在是慢慢看齐,中国大模型正在以非常快的速度追赶。 国际主流大模型:探索智能上限的先行者 1. GPT-5 Omni (OpenAI) —— 深度推理的绝对王者 最新动态:2025年底发布的重磅炸弹,目前(2026年初)公认的战力天花板。 核心能力:革命性的“慢思考”模式(System 2)。遇到难题时,你会看到它显示“正在规划思路…”,然后进行长达数十步的自我推导和验证。此外,它的原生全模态(视频/音频/文本无缝实时流转)体验极其丝滑。 老墨评价:它是拿来解决你解决不了的问题的。 如果你只是写个邮件,用它属于杀鸡用牛刀。但如果你要设计复杂的软件架构、推导前沿数学猜想,或者需要一个能真正理解视频内容并和你实时语音辩论的AI,GPT-5 Omni是唯一选择。贵是真贵,强是真强。 适合场景:前沿科研、复杂系统设计、需要极高逻辑密度的任务、实时视频/语音深度交互。 老墨评分:9.9分(扣0.1分是因为价格和偶尔的过度思考) 在 Cursor 最新版本中早就支持了 GPT 5.3 版本,老墨也在测试中,目前来看,这是目前地球上写代码最强的“大脑”, 与 Claude Opus 4.6 有点旗鼓相当的味道了,代码理解能力超强,这里暂不赘述,后续在考虑撰文来评测一番。 ...

2026-02-15 · 2 min · 294 words · 老墨

EP03 - 试图驯服一只猛兽:OpenClaw 的 Docker 监狱

EP03 - 试图驯服一只猛兽:OpenClaw 的 Docker 监狱 昨天我在测试 OpenClaw 的 “File System Tool” 时,发生了一件让我冷汗直流的事。 我给它的指令是:“清理一下当前目录的临时文件”。 可能是因为我的 Prompt 写得太随意,它直接把我的整个 ~/Downloads 文件夹给清空了。 幸好那里只有一堆没用的安装包。但如果它删的是我的 ~/Documents 或者 .ssh 密钥呢? 这就是我们在 link:/posts/ai/why-i-choose-openclaw/[] 里提到的代价:强大的能力伴随着巨大的风险。 一个拥有 Shell 权限的 AI Agent,本质上就是一个盯着你键盘随时准备按下回车键的超级用户。在裸机 (Bare Metal) 上直接运行它,无异于把自家大门的钥匙交给一个喝醉了的锁匠。 今天,我们要给这个不仅聪明而且危险的家伙,造一座牢不可破的监狱。 这也是极客生存法则第一条:永远不要信任你的 Agent。 本文涉及本地Native安装的一些知识,你可以阅读上一篇 EP02 来了解它们。 为什么一定要用 Docker? 很多人觉得 Docker 只是为了方便部署。 错。对于 Agent 开发来说,Docker 是保命符。 文件隔离 (Filesystem Isolation): 把它关在 /app 里。它想 rm -rf /?请便,删的只是容器里的文件,我的 Mac 毫发无损。 网络白名单 (Network Whitelist): 我们可以限制它只能访问特定的 API,防止它把我的本地数据传给不知名的服务器。 环境一致性: 你不用担心 Node.js 版本不对,或者缺了什么 Python 库。 手把手构建 “The Cage” 我们不需要什么花哨的 k8s,一个简单的 Dockerfile 和 docker-compose.yml 就够了。 但这里有几个针对 Mac 用户和 Ollama 的关键坑,我都替你踩平了。 ...

2026-02-09 · 3 min · 562 words · 老墨

EP02 - 给你的电脑安装一个数字管家: 安装和搭建 OpenClaw

EP02 - 给你的电脑安装一个数字管家: 安装和搭建 OpenClaw 安装 OpenClaw 暂时抛开官方这些“深奥”的建议,我们先来尝试安装它,下一篇我们再来安全地把它关到“沙盒”中去。安装 OpenClaw 非常简单,只需要一行命令: 1# macos 2curl -fsSL https://openclaw.bot/install.sh | bash 3 4# windows 5iwr -useb https://openclaw.ai/install.ps1 | iex 但是过程中有许多注意的地方,以我的mac为例,我们来看一下安装过程。 终端执行上述命令后,会先检查一些依赖,比如node, npm等,如果你的电脑没有安装,需要先安装: 稍作等待,安装完成后,OpenClaw 会自动执行 OpenClaw doctor 命令,来诊断环境和安装是否正确。 由于我之前安装了旧版的 clawdbot, 它会自动迁移配置信息。 doctor 执行完成后,会自动进行设置,此时会弹出诸多选项让你做出选择,比如配置模型、配置聊天客户端、Skills 等。 最终完成会输出访问的url(默认是 http://127.0.0.1:18789), 就可以在浏览器中打开控制台(dashboard)了. 接入 Telegram (首选) 为什么首选 Telegram? 很遗憾,国内的IM目前 OpenClaw 都不支持, 对于飞书、钉钉的支持据说还在开发中,所以目前我们最好的方式就是选择 Telegram. 因为它是这个星球上对开发者最友好的 IM,没有之一: 不需要手机号验证码,不需要营业执照,不需要企业认证。 你只需要跟一个叫 @BotFather 的机器人聊两句,就能拿到通往 OpenClaw 的钥匙。 极客配置三步走: 搞定 Token 打开 Telegram,搜索 @BotFather (认准蓝标)。 发送指令 /newbot。 给你的机器人起个名字 (比如 MyJarvis) 和用户名 (必须以 bot 结尾,比如 my_jarvis_bot)。 BotFather 会给你一串红色的 Token,长得像这样:123456:ABC-DEF1234ghIkl-zyx57W2v1u123ew11。复制它 切勿外传,否则可能别人就帮你操作你的电脑了! 配置 OpenClaw 如果你之前已经设置了telegram,那么直接下一步。没有配置,则推荐使用交互式配置: 1openclaw channels add 选择 Telegram,然后粘贴 Token。 或者直接修改配置文件 ~/.openclaw/openclaw.json (更 Geek 的方式,不推荐,除非你完全掌握了OpenClaw): 1"channels": { 2 "telegram": { 3 "token": "YOUR_TOKEN_HERE" 4 } 5} 验证与配对 (Pairing) 在 Telegram 里找到你的机器人,点击 Start 或发送 /start。 ...

2026-02-07 · 2 min · 336 words · 老墨

EP01 - 告别 Claude Desktop:为什么我选 OpenClaw 做我的数字管家

EP01 - 告别 Claude Desktop:为什么我选 OpenClaw 做我的数字管家 To be honest,Claude Desktop 发布 MCP (Model Context Protocol) 的时候,我是真的很兴奋。 但那种兴奋只维持了三天。 当你真正试图把 AI 融入工作流时,你会发现 Claude Desktop 有两个致命死穴: 它被困在桌面上:你必须坐在电脑前才能用它。 它是闭源的黑盒:你不知道它怎么处理你的文件,每一条指令都像在把家门钥匙交给那个坐在旧金山办公室的陌生人。 直到我发现了 OpenClaw。 Not Just a Bot, It’s a Gateway 先澄清一个误区:OpenClaw 不仅仅是一个像 Chatbox 那样的“套壳客户端”。 它的本质是一个运行在你本地的 Gateway(网关)。 如果你读过它的官方文档,你会发现它的架构非常 Sex: WhatsApp / Telegram <-> Gateway (Localhost) <-> AI Agent (Tools) 这意味着什么? 这意味着你可以躺在床上用手机发消息(支持 WhatsApp/Telegram 等等几十种聊天客户端),指挥你书房里的 Mac 干重活。 这也是它的口号: “The AI that actually does things.” 我想这也是为什么他会这么大火的原因。 场景 A: 周末出门在外,服务器突然报警。你不用掏出电脑连热点 SSH,直接在 Telegram 里发一句:“查一下 Nginx 为什么挂了”。OpenClaw 帮你跑 tail -f /var/log/nginx/error.log 并总结给你。 场景 B: 路上突然想到一个 Idea。发给 OpenClaw:“记到我的 Obsidian 里,并同步到 GitHub”。它直接操作你本地的文件系统。 你可以到这里看看大家都在用 OpenClaw 做些什么:https://openclaw.ai/showcase ...

2026-02-05 · 2 min · 249 words · 老墨

EP00 - DeepSeek R1 本地部署实战 (Mac篇)

EP00 - DeepSeek R1 本地部署实战 (Mac篇) 摘要: 别被几万块的显卡劝退。你的 MacBook Pro (Apple Silicon) 就是跑 DeepSeek R1 的神器。本文手把手教你用 Ollama 在本地跑起“满血版”推理模型,不仅免费,而且隐私绝对安全。 阅读时间: 5分钟 适用人群: 程序员、科研党、隐私敏感用户 硬件要求: M1/M2/M3/M4 Mac,推荐 16GB+ 内存 为什么要在本地跑 DeepSeek? 隐私安全: 你的代码、私有文档不需要上传到云端,断网也能用。 零延迟响应: 没有网络延迟,交互更丝滑(取决于模型大小)。 无审查: 你懂的。 免费: 不需要订阅费,只消耗电费。 核心工具:Ollama Ollama 是目前 macOS 上体验最好的大模型运行工具,没有之一。它开源免费,支持非常多的大模型,GitHub仓库在 这里, 目前161K的 Star。 用程序员最能听懂的话解释:Ollama 就是大模型界的 Docker。 Docker 让你可以一行命令跑 MySQL / Nginx。 Ollama 让你可以一行命令跑 DeepSeek / Llama3。 它在后台默默做了三件事:驱动 GPU、管理模型文件、提供 API 服务。装了它,你的 Mac 就有了“大脑”。 安装 Ollama 有两种方式: 方式 A: 官网下载 (推荐小白) 访问 ollama.com 下载 macOS 版本并安装。 ...

2026-02-03 · 2 min · 422 words · 老墨