大模型能干什么:六大核心应用场景拆解

大家好,我是极客老墨。

有个问题我被问过很多次:大模型除了聊天,还能干什么?

这个问题背后藏着一个更深的困惑:我学大模型开发,到底能做出什么东西?值不值得投入时间?

值得。但前提是你得搞清楚它的边界——哪些场景是大模型真正擅长的,哪些是现在能落地的,哪些是看着很美但开发成本极高的。

这篇文章拆解六个核心场景:文生文、文生图、文生视频、语音交互、数字人、智能问答。每个场景我会讲清楚技术本质是什么、真实能力边界在哪里、开发者能拿它做什么,以及一个 Go 开发者该从哪里切入。

不堆概念,只讲和开发直接相关的部分。


一、文生文:最成熟,也最容易被低估

技术本质

文生文(Text-to-Text)是所有大模型能力的基础层。给定一段文本输入,模型输出文本结果——翻译、摘要、续写、代码生成、问答、分类、抽取,本质都是这个范式。

它的核心机制是自回归生成(Autoregressive Generation):模型逐个 token 预测,每次预测都以前面所有内容为条件。这意味着它天然支持任意长度的输出,也意味着它的"思考"过程是线性的、不可并行的。

能力边界

文生文做得好的事:结构化生成、风格迁移、代码辅助、信息抽取、分类标注

文生文目前还做不好的事:精确计算(数学运算容易出错)、实时数据(知识截止限制)、高度确定性任务(每次输出有随机性)

2026 年之后,推理模型(DeepSeek-R1、OpenAI o3)的出现让数学和逻辑推理能力大幅提升——但这是专门设计了长思维链的推理模型,普通对话模型仍然存在上述限制。

开发者能做什么

用户需求 → Prompt → 大模型 → 文本输出 → 业务逻辑处理

这是最简单的链路,也是 90% 的大模型应用的骨架。几个典型落地方向:

  • 代码辅助:接入 IDE 插件,或者独立的代码问答服务。输入自然语言描述,输出对应语言的实现代码。DeepSeek-V3 在代码生成上性价比极高,是首选。
  • 文档处理:上传合同、技术文档、会议记录,提取关键信息、生成摘要、回答问题。结合 RAG(后面的模块会详细讲),可以大幅减少幻觉。
  • 内容生成:营销文案、邮件草稿、产品描述、SEO 内容。注意:大模型不是完美的,高质量内容生成必须加人工审核环节。
  • 结构化抽取:从非结构化文本中提取 JSON 格式的数据,配合 Function Calling 或 Structured Output,可以直接对接业务数据库。

老墨说: 文生文不只是"聊天",它是一个可编程的文本处理引擎。你用自然语言定义规则,它按规则处理任意输入——这是一种新的编程范式,比你写正则表达式和 if-else 强大得多,也灵活得多。

二、文生图:创意的民主化

技术本质

文生图(Text-to-Image)的主流技术路线是扩散模型(Diffusion Model)——从随机噪声出发,在文本描述的引导下,迭代去噪,最终生成图像。代表模型有 Stable DiffusionDALL·E 3MidjourneyFlux

这和文生文用的技术栈完全不同。大多数大模型 API 平台(OpenAI、智谱、火山引擎)会把文生图单独封装成一个 API 端点,你不需要了解扩散过程,直接调用即可。

能力边界

文生图做得好的事:概念图、风格化插图、原型设计、产品可视化、创意概念验证

文生图目前的局限:文字渲染(图里嵌文字经常出错)、精确还原真实人物(肖像权之外还有生成错误的问题)、极度细节控制(很难让模型完全按你的构图意图生成)

国内可用的文生图 API:智谱 CogView-3、阿里通义万相、百度 ERNIE-ViLG、字节 Seedream。国际的 DALL·E 3(OpenAI API 可调)、Stable Diffusion(开源自托管)、Flux(可商用开源)。

开发者能做什么

对开发者来说,文生图更多是作为应用里的一个功能模块接入,而不是独立产品。常见场景:

  • 内容平台配图:文章生成后,自动调用文生图 API 生成配图,降低内容生产成本。
  • 电商素材生成:输入产品描述和风格要求,批量生成商品展示图、营销海报。
  • 设计原型:在产品早期阶段,快速生成 UI 原型、概念图,供讨论用,不需要等设计师。

老墨说: 文生图的核心技能不是调 API,而是写 Prompt。同样的模型,“生成一张图"和"生成一张赛博朋克风格、俯视角、霓虹光效、胶片颗粒感的城市夜景图”,输出天差地别。这是一门值得投入时间练习的手艺。

三、AI 视频生成:三种范式、一场格局重构

这个场景变化最快,也是原文错误最多的部分,需要从头讲清楚。

三种生成范式

AI 视频生成不是"文生视频"一个范式,2026 年的主流玩法已经是三种模态并行:

  • 文生视频(Text-to-Video):输入文字描述,直接生成视频片段。最早普及的范式,适合创意概念快速可视化,但对镜头构图、人物动作的精确控制能力有限。
  • 图生视频(Image-to-Video):输入一张静态图片作为起始帧,模型负责"让它动起来"。这个范式在实际生产中比文生视频更实用——先用文生图精确控制画面内容,再用图生视频赋予动态,两步组合的可控性远超直接文生视频。
  • 视生视频(Video-to-Video):以已有视频为参考输入,模型按指令改变风格、动作或场景,同时保留原始视频的镜头语言和结构。这是 Seedance 2.0 带来的关键新能力,让视频生成从"抽卡"变成了"可编辑的素材"。

技术本质

视频生成在技术上是扩散模型向时序维度的扩展——不只要生成每一帧,还要保证帧与帧之间的运动连贯性,计算量是图像生成的指数级。

主流架构已从早期的纯扩散模型,演进为 DiT(Diffusion Transformer) 架构——把 Transformer 的序列建模能力引入扩散过程,让模型能更好地理解时序关系和多模态输入之间的关联。

Sora 的起落:一个值得记住的案例

说 AI 视频绕不开 Sora,但现在必须说清楚它的结局。

OpenAI Sora 于 2024 年 2 月发布技术预览(Technical Report《Video Generation Models as World Simulators》),2025 年 9 月正式上线消费级应用,2026 年 3 月 25 日宣告全面关停——独立 App、开发者 API、ChatGPT 内置视频功能一并下线,距离正式上线仅六个月。

关停的直接原因有两个:一是版权纠纷,以吉卜力为代表的日本内容行业协会 CODA 致函抗议,要求停止使用其内容训练模型;二是国产模型的正面冲击——可灵、Seedance 在能力和成本上已不输 Sora,且 API 对开发者开放。

Sora 的意义在于:它用两年时间向全行业证明了 AI 视频的技术可行性,然后把市场拱手让给了国产模型。

Seedance 2.0:格局重构的标志

2026 年 2 月 12 日,字节跳动发布 Seedance 2.0,这是当前 AI 视频赛道的格局分水岭。

核心突破在于统一多模态架构:同时支持文字、图片、音频、视频四种模态输入,单次请求最多可参考 9 张图片 + 3 段视频 + 3 段音频。这意味着你可以给模型一个参考人物图片、一段背景音乐、一个镜头运动参考视频,让它生成高度可控的结果——从"描述一个画面让它猜"变成了"给足参考让它照做"。

与此同时,快手可灵 3.0(2026 年 1 月)同步完成了文生视频、图生视频、视生视频三种任务的统一多模态架构升级。

两者竞争的结果,是让这个赛道从"展示 Demo"阶段迈入了"工业级可控生成"阶段。

能力边界(2026 年现状)

现在能做好的:15 秒以内短视频、品牌宣传物料、电商产品展示、概念动画、影视分镜预演

现在还在不断尝试的:超 1 分钟的长叙事视频(一致性问题)、精确的人物对话口型同步、实时生成(延迟仍在秒到分钟级)

开发者能做什么

图生视频是当下最值得切入的范式:先用文生图(Seedream、DALL·E 3、Flux)精确控制画面构图,再用图生视频 API(即梦 / 可灵)赋予动态,两步组合的可控性和落地成本都比纯文生视频更优。

当前国内已开放 API 的视频生成服务:

平台模型支持范式接入方式
即梦 AI(字节)Seedance 2.0文生视频、图生视频、视生视频火山引擎 API
可灵 AI(快手)Kling 3.0文生视频、图生视频快手开放平台 API
海螺 AI(MiniMax)文生视频、图生视频MiniMax API
Vidu(生数科技)Vidu 2.0文生视频、图生视频Vidu API

实际落地方向:

  • 电商视频素材:产品图片 → 图生视频,批量生成展示视频,成本远低于实拍
  • 内容创作辅助:脚本 → 文生图(分镜)→ 图生视频(动态化)→ 剪辑合成,实现一人内容工作室
  • API 聚合层:统一封装多家视频 API,提供一致接口,屏蔽底层差异,做 SaaS 工具

老墨说: Sora 的关停不是 AI 视频的失败,是 OpenAI 在这个赛道失去先发优势后的主动撤退。真正的格局变化是:国产模型凭借开放 API、更低价格、更强的可控性,已经拿下了这个赛道的话语权。 现在是开发者入场图生视频的好时机——不是最成熟,但已经够用,且竞争窗口还在。

四、语音交互:下一个交互入口

技术本质

语音交互分两个方向:

传统链路(三段式):语音识别(STT)→ 大模型处理 → 语音合成(TTS)。三个独立模型串联,每个环节都有延迟,总延迟通常在 2–4 秒。

端到端语音模型(新范式)GPT-4o Realtime API 代表的方向——模型直接接受音频输入、输出音频,中间不经过文字转换。端到端延迟可以压缩到 500ms 以内,接近人类对话节奏,支持打断、情绪感知、实时响应。

这个区别对用户体验的影响是本质性的:前者像在和一个总是慢半拍的人说话,后者才像真正的实时对话。

开发者能做什么

三段式方案(成熟,成本低):适合大多数语音应用场景。OpenAI Whisper(开源,STT)+ DeepSeek/GPT(LLM)+ Edge TTS 或火山引擎 TTS(合成),整个链路可以在 Go 里用标准 HTTP 调用串联。

音频输入 → Whisper API → 文本 → LLM API → 文本 → TTS API → 音频输出

GPT-4o Realtime(端到端,效果好,贵):通过 WebSocket 实时双向音频流。适合对话质量要求极高的场景,比如 AI 电话客服、实时翻译、语音陪练。国内代理访问有延迟问题,需要评估。

实际的商业落地方向:

  • AI 客服:替代人工接线,处理常见咨询,识别意图,复杂问题转人工
  • 语音笔记:实时转写,结合 LLM 自动整理成结构化笔记
  • 语言学习:实时对话练习,发音纠错,语境理解

老墨说: 语音交互的"入口价值"被严重低估。手机上大多数交互场景(开车、做饭、运动时)都不适合打字,语音是唯一自然的输入方式。GPT-4o Realtime 发布之后,“AI 打字机"的时代窗口开始关闭,语音原生应用的机会才刚刚打开。


五、数字人:形象背后是多模态融合

技术本质

数字人不是一个单一的大模型场景,而是多项技术的集成:语音合成(TTS)+ 唇形驱动(Lip Sync)+ 表情控制 + 虚拟形象渲染 + 大模型对话

大模型在其中扮演的角色是"大脑”——负责理解输入、生成回应。其余的形象渲染、口型同步是专门的图形引擎负责的。这意味着开发一个数字人应用,通常需要对接至少三到四个不同的 API 或 SDK。

当前主流的数字人 API 提供商:硅基智能、HeyGen(国际)、腾讯智影、阿里 MOLI。HeyGen 在视频数字人领域最成熟,支持克隆真人声音和形象;国内厂商对合规要求把控更好,本地化服务更稳定。

能力边界

数字人做得好的:视频播报(新闻、课程、产品介绍)、虚拟客服(有固定话术的场景)、品牌 IP 形象(固定虚拟形象的客服或代言人)

数字人目前的局限:实时交互延迟高(形象渲染本身就慢)、情感表达单薄(表情范围有限)、克隆真人需要严格的版权和伦理审核

开发者能做什么

对独立开发者来说,直接集成现有 API 是最务实的路线:

  1. 大模型负责对话逻辑(DeepSeek / Claude)
  2. TTS 负责语音合成(火山引擎 / Azure)
  3. 数字人平台 API 负责形象驱动(HeyGen / 腾讯智影)

三个 API 串联,核心工作量在业务流程的设计和状态管理上,不需要自己做图形渲染。

实际落地方向:

  • 企业培训内容生产:用数字人替代真人录制课程视频,大幅降低内容生产成本
  • 多语言内容克隆:同一个数字人形象,自动生成多语言版本(中英日韩),内容一次制作,多语言分发

老墨说: 数字人产品的护城河不在技术,而在形象版权和内容。技术门槛会不断降低,但一个有辨识度的虚拟 IP 一旦建立,迁移成本极高——这是值得创业者认真考虑的壁垒。


六、智能问答:最成熟的落地场景,也是 RAG 的主战场

技术本质

智能问答(Intelligent Q&A)是文生文的一个特化方向:用户提问,系统从知识库中检索相关内容,结合大模型生成答案。

“直接问大模型"和"基于知识库的智能问答"是两个完全不同的东西。前者依赖模型的训练数据(存在知识截止、幻觉风险);后者通过 RAG(检索增强生成) 先检索出相关文档片段,再让模型基于这些片段回答,准确性和可验证性大幅提升。

RAG 的基本链路:

用户问题 → 向量化 → 向量数据库检索 → 相关文档片段 → 拼入 Prompt → LLM 生成答案

这是目前大模型应用里最成熟、商业化最广的技术方案。企业知识库、客服机器人、文档助手,背后十有八九是 RAG。

能力边界

智能问答做得好的:封闭域问答(知识库范围内)、文档检索、FAQ 自动化、客服意图识别

智能问答的局限:开放域问答仍有幻觉风险;实时性数据(今天的股价、最新新闻)需要结合搜索工具调用;多轮对话的上下文管理需要额外设计

开发者能做什么

这是开发者最容易落地出产品的场景。一个最小可用的 RAG 系统只需要:

  • 文档解析:PDF、Word、Markdown → 纯文本(可用开源库)
  • 向量化:文本 → 向量(OpenAI Embeddings 或本地 Embedding 模型)
  • 向量存储:Milvus、Weaviate、Qdrant(本地)或 Pinecone(云)
  • 检索:余弦相似度,找最近的 Top-K 文档片段
  • 生成:把检索结果塞进 Prompt,让 LLM 回答

在我们这门课的 Module 4(RAG 专题)里,会用 Go 从头实现这个完整链路。这里先建立概念框架。

实际落地方向:

  • 企业内部知识库:员工问 HR 政策、IT 操作手册、销售话术,比搜索更自然
  • 产品文档助手:用户问 API 怎么用、功能怎么配置,自动从文档里找答案
  • 法律/医疗问答:在严格的知识边界内(律所的合同库、医院的诊疗规范)提供精准回答

老墨说: RAG 是大模型落地的"黄金链路”。它解决了一个根本矛盾:大模型的训练数据是静态的,但企业的知识是动态的、私有的。RAG 让大模型能用上企业自己的数据,又不需要重新训练模型——这是今天 80% 企业 AI 项目的底层逻辑。


场景选型速查

场景落地难度成本推荐入手时机
文生文★☆☆☆☆极低现在,第一个练手场景
智能问答(RAG)★★★☆☆低–中现在,最成熟的商业路线
文生图★★☆☆☆低–中现在,作为功能模块接入
图生视频★★★☆☆现在,国产 API 已成熟,推荐切入
语音交互(三段式)★★★☆☆现在,多个成熟 API 可用
语音交互(端到端)★★★★☆现在可探索,注意成本控制
数字人★★★★☆有明确商业场景再入场
文生视频★★★★☆国产 API 开放,可评估入场
视生视频★★★★★2026 年下半年再评估

老墨总结

六个场景,本质上是大模型能力在不同输出模态上的投影:文本、图像、视频、音频、交互形象。理解它们的技术本质和真实边界,比知道"这个场景很厉害"重要得多——因为后者会让你盲目追热点,前者让你知道什么时候该上车、什么时候该等待。

对一个 Go 开发者来说,入场顺序我建议是这样的:

  1. 文生文 + 智能问答:先把 API 调用和 Prompt 设计搞扎实,这是一切的基础
  2. RAG:把知识库接进来,这是最有商业价值的一步
  3. 语音交互:拓展交互维度,三段式方案成本可控
  4. 文生图:按需接入,作为应用的一个功能点
  5. 图生视频:国产 API 已开放,文生图+图生视频两步组合是当下最实用的切入点
  6. 数字人/视生视频:等技术成熟、商业场景明确再入场

后面几个模块,我们会沿着这个顺序,一个场景一个场景地用 Go 实现出来。


文章有帮助?转发给同样在踩坑的朋友。有不同意见?评论区见。


关注公众号:极客老墨

更多 AI 应用开发、工程实践和效率工具分享,欢迎扫码关注。

极客老墨微信公众号二维码

相关阅读