大模型能干什么：六大核心应用场景拆解

大家好，我是极客老墨。

有个问题我被问过很多次：大模型除了聊天，还能干什么？

这个问题背后藏着一个更深的困惑：我学大模型开发，到底能做出什么东西？值不值得投入时间？

值得。但前提是你得搞清楚它的边界——哪些场景是大模型真正擅长的，哪些是现在能落地的，哪些是看着很美但开发成本极高的。

这篇文章拆解六个核心场景：文生文、文生图、文生视频、语音交互、数字人、智能问答。每个场景我会讲清楚技术本质是什么、真实能力边界在哪里、开发者能拿它做什么，以及一个 Go 开发者该从哪里切入。

不堆概念，只讲和开发直接相关的部分。

一、文生文：最成熟，也最容易被低估

技术本质

文生文（Text-to-Text）是所有大模型能力的基础层。给定一段文本输入，模型输出文本结果——翻译、摘要、续写、代码生成、问答、分类、抽取，本质都是这个范式。

它的核心机制是自回归生成（Autoregressive Generation）：模型逐个 token 预测，每次预测都以前面所有内容为条件。这意味着它天然支持任意长度的输出，也意味着它的"思考"过程是线性的、不可并行的。

能力边界

文生文做得好的事：结构化生成、风格迁移、代码辅助、信息抽取、分类标注。

文生文目前还做不好的事：精确计算（数学运算容易出错）、实时数据（知识截止限制）、高度确定性任务（每次输出有随机性）。

2026 年之后，推理模型（DeepSeek-R1、OpenAI o3）的出现让数学和逻辑推理能力大幅提升——但这是专门设计了长思维链的推理模型，普通对话模型仍然存在上述限制。

开发者能做什么

用户需求 → Prompt → 大模型 → 文本输出 → 业务逻辑处理

这是最简单的链路，也是 90% 的大模型应用的骨架。几个典型落地方向：

代码辅助：接入 IDE 插件，或者独立的代码问答服务。输入自然语言描述，输出对应语言的实现代码。DeepSeek-V3 在代码生成上性价比极高，是首选。
文档处理：上传合同、技术文档、会议记录，提取关键信息、生成摘要、回答问题。结合 RAG（后面的模块会详细讲），可以大幅减少幻觉。
内容生成：营销文案、邮件草稿、产品描述、SEO 内容。注意：大模型不是完美的，高质量内容生成必须加人工审核环节。
结构化抽取：从非结构化文本中提取 JSON 格式的数据，配合 Function Calling 或 Structured Output，可以直接对接业务数据库。

老墨说： 文生文不只是"聊天"，它是一个可编程的文本处理引擎。你用自然语言定义规则，它按规则处理任意输入——这是一种新的编程范式，比你写正则表达式和 if-else 强大得多，也灵活得多。

二、文生图：创意的民主化

技术本质

文生图（Text-to-Image）的主流技术路线是扩散模型（Diffusion Model）——从随机噪声出发，在文本描述的引导下，迭代去噪，最终生成图像。代表模型有 Stable Diffusion、DALL·E 3、Midjourney、Flux。

这和文生文用的技术栈完全不同。大多数大模型 API 平台（OpenAI、智谱、火山引擎）会把文生图单独封装成一个 API 端点，你不需要了解扩散过程，直接调用即可。

能力边界

文生图做得好的事：概念图、风格化插图、原型设计、产品可视化、创意概念验证。

文生图目前的局限：文字渲染（图里嵌文字经常出错）、精确还原真实人物（肖像权之外还有生成错误的问题）、极度细节控制（很难让模型完全按你的构图意图生成）。

国内可用的文生图 API：智谱 CogView-3、阿里通义万相、百度 ERNIE-ViLG、字节 Seedream。国际的 DALL·E 3（OpenAI API 可调）、Stable Diffusion（开源自托管）、Flux（可商用开源）。

开发者能做什么

对开发者来说，文生图更多是作为应用里的一个功能模块接入，而不是独立产品。常见场景：

内容平台配图：文章生成后，自动调用文生图 API 生成配图，降低内容生产成本。
电商素材生成：输入产品描述和风格要求，批量生成商品展示图、营销海报。
设计原型：在产品早期阶段，快速生成 UI 原型、概念图，供讨论用，不需要等设计师。

老墨说： 文生图的核心技能不是调 API，而是写 Prompt。同样的模型，“生成一张图"和"生成一张赛博朋克风格、俯视角、霓虹光效、胶片颗粒感的城市夜景图”，输出天差地别。这是一门值得投入时间练习的手艺。

三、AI 视频生成：三种范式、一场格局重构

这个场景变化最快，也是原文错误最多的部分，需要从头讲清楚。

三种生成范式

AI 视频生成不是"文生视频"一个范式，2026 年的主流玩法已经是三种模态并行：

文生视频（Text-to-Video）：输入文字描述，直接生成视频片段。最早普及的范式，适合创意概念快速可视化，但对镜头构图、人物动作的精确控制能力有限。
图生视频（Image-to-Video）：输入一张静态图片作为起始帧，模型负责"让它动起来"。这个范式在实际生产中比文生视频更实用——先用文生图精确控制画面内容，再用图生视频赋予动态，两步组合的可控性远超直接文生视频。
视生视频（Video-to-Video）：以已有视频为参考输入，模型按指令改变风格、动作或场景，同时保留原始视频的镜头语言和结构。这是 Seedance 2.0 带来的关键新能力，让视频生成从"抽卡"变成了"可编辑的素材"。

技术本质

视频生成在技术上是扩散模型向时序维度的扩展——不只要生成每一帧，还要保证帧与帧之间的运动连贯性，计算量是图像生成的指数级。

主流架构已从早期的纯扩散模型，演进为 DiT（Diffusion Transformer） 架构——把 Transformer 的序列建模能力引入扩散过程，让模型能更好地理解时序关系和多模态输入之间的关联。

Sora 的起落：一个值得记住的案例

说 AI 视频绕不开 Sora，但现在必须说清楚它的结局。

OpenAI Sora 于 2024 年 2 月发布技术预览（Technical Report《Video Generation Models as World Simulators》），2025 年 9 月正式上线消费级应用，2026 年 3 月 25 日宣告全面关停——独立 App、开发者 API、ChatGPT 内置视频功能一并下线，距离正式上线仅六个月。

关停的直接原因有两个：一是版权纠纷，以吉卜力为代表的日本内容行业协会 CODA 致函抗议，要求停止使用其内容训练模型；二是国产模型的正面冲击——可灵、Seedance 在能力和成本上已不输 Sora，且 API 对开发者开放。

Sora 的意义在于：它用两年时间向全行业证明了 AI 视频的技术可行性，然后把市场拱手让给了国产模型。

Seedance 2.0：格局重构的标志

2026 年 2 月 12 日，字节跳动发布 Seedance 2.0，这是当前 AI 视频赛道的格局分水岭。

核心突破在于统一多模态架构：同时支持文字、图片、音频、视频四种模态输入，单次请求最多可参考 9 张图片 + 3 段视频 + 3 段音频。这意味着你可以给模型一个参考人物图片、一段背景音乐、一个镜头运动参考视频，让它生成高度可控的结果——从"描述一个画面让它猜"变成了"给足参考让它照做"。

与此同时，快手可灵 3.0（2026 年 1 月）同步完成了文生视频、图生视频、视生视频三种任务的统一多模态架构升级。

两者竞争的结果，是让这个赛道从"展示 Demo"阶段迈入了"工业级可控生成"阶段。

能力边界（2026 年现状）

现在能做好的：15 秒以内短视频、品牌宣传物料、电商产品展示、概念动画、影视分镜预演。

现在还在不断尝试的：超 1 分钟的长叙事视频（一致性问题）、精确的人物对话口型同步、实时生成（延迟仍在秒到分钟级）。

开发者能做什么

图生视频是当下最值得切入的范式：先用文生图（Seedream、DALL·E 3、Flux）精确控制画面构图，再用图生视频 API（即梦 / 可灵）赋予动态，两步组合的可控性和落地成本都比纯文生视频更优。

当前国内已开放 API 的视频生成服务：

平台	模型	支持范式	接入方式
即梦 AI（字节）	Seedance 2.0	文生视频、图生视频、视生视频	火山引擎 API
可灵 AI（快手）	Kling 3.0	文生视频、图生视频	快手开放平台 API
海螺 AI（MiniMax）	—	文生视频、图生视频	MiniMax API
Vidu（生数科技）	Vidu 2.0	文生视频、图生视频	Vidu API

实际落地方向：

电商视频素材：产品图片 → 图生视频，批量生成展示视频，成本远低于实拍
内容创作辅助：脚本 → 文生图（分镜）→ 图生视频（动态化）→ 剪辑合成，实现一人内容工作室
API 聚合层：统一封装多家视频 API，提供一致接口，屏蔽底层差异，做 SaaS 工具

老墨说： Sora 的关停不是 AI 视频的失败，是 OpenAI 在这个赛道失去先发优势后的主动撤退。真正的格局变化是：国产模型凭借开放 API、更低价格、更强的可控性，已经拿下了这个赛道的话语权。 现在是开发者入场图生视频的好时机——不是最成熟，但已经够用，且竞争窗口还在。

四、语音交互：下一个交互入口

技术本质

语音交互分两个方向：

传统链路（三段式）：语音识别（STT）→ 大模型处理 → 语音合成（TTS）。三个独立模型串联，每个环节都有延迟，总延迟通常在 2–4 秒。

端到端语音模型（新范式）：GPT-4o Realtime API 代表的方向——模型直接接受音频输入、输出音频，中间不经过文字转换。端到端延迟可以压缩到 500ms 以内，接近人类对话节奏，支持打断、情绪感知、实时响应。

这个区别对用户体验的影响是本质性的：前者像在和一个总是慢半拍的人说话，后者才像真正的实时对话。

开发者能做什么

三段式方案（成熟，成本低）：适合大多数语音应用场景。OpenAI Whisper（开源，STT）+ DeepSeek/GPT（LLM）+ Edge TTS 或火山引擎 TTS（合成），整个链路可以在 Go 里用标准 HTTP 调用串联。

音频输入 → Whisper API → 文本 → LLM API → 文本 → TTS API → 音频输出

GPT-4o Realtime（端到端，效果好，贵）：通过 WebSocket 实时双向音频流。适合对话质量要求极高的场景，比如 AI 电话客服、实时翻译、语音陪练。国内代理访问有延迟问题，需要评估。

实际的商业落地方向：

AI 客服：替代人工接线，处理常见咨询，识别意图，复杂问题转人工
语音笔记：实时转写，结合 LLM 自动整理成结构化笔记
语言学习：实时对话练习，发音纠错，语境理解

老墨说： 语音交互的"入口价值"被严重低估。手机上大多数交互场景（开车、做饭、运动时）都不适合打字，语音是唯一自然的输入方式。GPT-4o Realtime 发布之后，“AI 打字机"的时代窗口开始关闭，语音原生应用的机会才刚刚打开。

五、数字人：形象背后是多模态融合

技术本质

数字人不是一个单一的大模型场景，而是多项技术的集成：语音合成（TTS）+ 唇形驱动（Lip Sync）+ 表情控制 + 虚拟形象渲染 + 大模型对话。

大模型在其中扮演的角色是"大脑”——负责理解输入、生成回应。其余的形象渲染、口型同步是专门的图形引擎负责的。这意味着开发一个数字人应用，通常需要对接至少三到四个不同的 API 或 SDK。

当前主流的数字人 API 提供商：硅基智能、HeyGen（国际）、腾讯智影、阿里 MOLI。HeyGen 在视频数字人领域最成熟，支持克隆真人声音和形象；国内厂商对合规要求把控更好，本地化服务更稳定。

能力边界

数字人做得好的：视频播报（新闻、课程、产品介绍）、虚拟客服（有固定话术的场景）、品牌 IP 形象（固定虚拟形象的客服或代言人）。

数字人目前的局限：实时交互延迟高（形象渲染本身就慢）、情感表达单薄（表情范围有限）、克隆真人需要严格的版权和伦理审核。

开发者能做什么

对独立开发者来说，直接集成现有 API 是最务实的路线：

大模型负责对话逻辑（DeepSeek / Claude）
TTS 负责语音合成（火山引擎 / Azure）
数字人平台 API 负责形象驱动（HeyGen / 腾讯智影）

三个 API 串联，核心工作量在业务流程的设计和状态管理上，不需要自己做图形渲染。

实际落地方向：

企业培训内容生产：用数字人替代真人录制课程视频，大幅降低内容生产成本
多语言内容克隆：同一个数字人形象，自动生成多语言版本（中英日韩），内容一次制作，多语言分发

老墨说： 数字人产品的护城河不在技术，而在形象版权和内容。技术门槛会不断降低，但一个有辨识度的虚拟 IP 一旦建立，迁移成本极高——这是值得创业者认真考虑的壁垒。

六、智能问答：最成熟的落地场景，也是 RAG 的主战场

技术本质

智能问答（Intelligent Q&A）是文生文的一个特化方向：用户提问，系统从知识库中检索相关内容，结合大模型生成答案。

“直接问大模型"和"基于知识库的智能问答"是两个完全不同的东西。前者依赖模型的训练数据（存在知识截止、幻觉风险）；后者通过 RAG（检索增强生成） 先检索出相关文档片段，再让模型基于这些片段回答，准确性和可验证性大幅提升。

RAG 的基本链路：

用户问题 → 向量化 → 向量数据库检索 → 相关文档片段 → 拼入 Prompt → LLM 生成答案

这是目前大模型应用里最成熟、商业化最广的技术方案。企业知识库、客服机器人、文档助手，背后十有八九是 RAG。

能力边界

智能问答做得好的：封闭域问答（知识库范围内）、文档检索、FAQ 自动化、客服意图识别。

智能问答的局限：开放域问答仍有幻觉风险；实时性数据（今天的股价、最新新闻）需要结合搜索工具调用；多轮对话的上下文管理需要额外设计。

开发者能做什么

这是开发者最容易落地出产品的场景。一个最小可用的 RAG 系统只需要：

文档解析：PDF、Word、Markdown → 纯文本（可用开源库）
向量化：文本 → 向量（OpenAI Embeddings 或本地 Embedding 模型）
向量存储：Milvus、Weaviate、Qdrant（本地）或 Pinecone（云）
检索：余弦相似度，找最近的 Top-K 文档片段
生成：把检索结果塞进 Prompt，让 LLM 回答

在我们这门课的 Module 4（RAG 专题）里，会用 Go 从头实现这个完整链路。这里先建立概念框架。

实际落地方向：

企业内部知识库：员工问 HR 政策、IT 操作手册、销售话术，比搜索更自然
产品文档助手：用户问 API 怎么用、功能怎么配置，自动从文档里找答案
法律/医疗问答：在严格的知识边界内（律所的合同库、医院的诊疗规范）提供精准回答

老墨说： RAG 是大模型落地的"黄金链路”。它解决了一个根本矛盾：大模型的训练数据是静态的，但企业的知识是动态的、私有的。RAG 让大模型能用上企业自己的数据，又不需要重新训练模型——这是今天 80% 企业 AI 项目的底层逻辑。

场景选型速查

场景	落地难度	成本	推荐入手时机
文生文	★☆☆☆☆	极低	现在，第一个练手场景
智能问答（RAG）	★★★☆☆	低–中	现在，最成熟的商业路线
文生图	★★☆☆☆	低–中	现在，作为功能模块接入
图生视频	★★★☆☆	中	现在，国产 API 已成熟，推荐切入
语音交互（三段式）	★★★☆☆	中	现在，多个成熟 API 可用
语音交互（端到端）	★★★★☆	高	现在可探索，注意成本控制
数字人	★★★★☆	高	有明确商业场景再入场
文生视频	★★★★☆	高	国产 API 开放，可评估入场
视生视频	★★★★★	高	2026 年下半年再评估

老墨总结

六个场景，本质上是大模型能力在不同输出模态上的投影：文本、图像、视频、音频、交互形象。理解它们的技术本质和真实边界，比知道"这个场景很厉害"重要得多——因为后者会让你盲目追热点，前者让你知道什么时候该上车、什么时候该等待。

对一个 Go 开发者来说，入场顺序我建议是这样的：

文生文 + 智能问答：先把 API 调用和 Prompt 设计搞扎实，这是一切的基础
RAG：把知识库接进来，这是最有商业价值的一步
语音交互：拓展交互维度，三段式方案成本可控
文生图：按需接入，作为应用的一个功能点
图生视频：国产 API 已开放，文生图+图生视频两步组合是当下最实用的切入点
数字人/视生视频：等技术成熟、商业场景明确再入场

后面几个模块，我们会沿着这个顺序，一个场景一个场景地用 Go 实现出来。

文章有帮助？转发给同样在踩坑的朋友。有不同意见？评论区见。

关注公众号：极客老墨

更多 AI 应用开发、工程实践和效率工具分享，欢迎扫码关注。

大模型能干什么：六大核心应用场景拆解#

一、文生文：最成熟，也最容易被低估#

技术本质#

能力边界#

开发者能做什么#

二、文生图：创意的民主化#

技术本质#

能力边界#

开发者能做什么#

三、AI 视频生成：三种范式、一场格局重构#

三种生成范式#

技术本质#

Sora 的起落：一个值得记住的案例#

Seedance 2.0：格局重构的标志#

能力边界（2026 年现状）#

开发者能做什么#

四、语音交互：下一个交互入口#

技术本质#

开发者能做什么#

五、数字人：形象背后是多模态融合#

技术本质#

能力边界#

开发者能做什么#

六、智能问答：最成熟的落地场景，也是 RAG 的主战场#

技术本质#

能力边界#

开发者能做什么#

场景选型速查#

老墨总结#

相关阅读

大模型能干什么：六大核心应用场景拆解

一、文生文：最成熟，也最容易被低估

技术本质

能力边界

开发者能做什么

二、文生图：创意的民主化

技术本质

能力边界

开发者能做什么

三、AI 视频生成：三种范式、一场格局重构

三种生成范式

技术本质

Sora 的起落：一个值得记住的案例

Seedance 2.0：格局重构的标志

能力边界（2026 年现状）

开发者能做什么

四、语音交互：下一个交互入口

技术本质

开发者能做什么

五、数字人：形象背后是多模态融合

技术本质

能力边界

开发者能做什么

六、智能问答：最成熟的落地场景，也是 RAG 的主战场

技术本质

能力边界

开发者能做什么

场景选型速查

老墨总结