大模型的能力有哪些

这里说的“模型本身能力”,建议限定为:

不依赖外部工具、文件系统、数据库、浏览器、Agent 框架时,模型单靠自身参数、上下文窗口和推理机制表现出来的能力。

模型本身能力表

能力类别 具体能力 说明 和任务连续性的关系
语言理解能力 理解用户意图、指令、上下文语义 能看懂用户到底想做什么,而不是只按字面回答 是任务开始的基础;如果意图理解错,后面连续执行都会偏
指令遵循能力 按要求执行格式、语气、约束、步骤 例如“用表格列出”“不要超过 500 字”“保留原意但改逻辑” 决定模型能不能长期遵守任务规则
上下文窗口容量 一次能容纳多少 token 例如 128K、200K、1M token 决定模型能不能看到更长的对话、资料、代码和历史步骤
有效上下文利用能力 在长上下文中找到关键点并保持一致 不是“看得到”就等于“用得好” 任务越长,越依赖它;否则会丢目标、丢约束、前后矛盾
短期工作记忆能力 在当前会话中记住刚才说过的目标和限制 例如记住刚刚问的是“模型本身能力”,不是 Agent 工程 支撑多轮对话连续性
长期抽象保持能力 长时间保持主目标不漂移 比如一直围绕“任务连续性”分析,而不是跑到泛泛讲 AI 是连续任务里的核心能力之一
推理能力 逻辑推导、因果分析、条件判断 包括演绎、归纳、类比、反事实分析 决定模型能不能把复杂问题推下去
规划能力 把目标拆成步骤、顺序、优先级 例如先定义问题,再列时间线,再分析机制 连续任务必须有规划,否则只能单步反应
分解问题能力 把大任务拆成子任务 例如把“任务连续性”拆成上下文、记忆、工具、状态、异步 是从问答走向任务执行的关键
自我检查能力 检查回答是否遗漏、矛盾、跑题 模型可以在生成中做一定程度的校验 影响长任务可靠性,但仍不稳定
错误恢复能力 发现前面判断不对后修正 例如承认“2 分钟问题”不是正式命名,而是 time horizon 的民间说法 连续任务中非常重要,但现在仍是弱点
多步推理稳定性 多轮、多步骤后仍保持逻辑链条 不只是一步答对,而是十几步后还不乱 直接决定任务能持续多久
抽象能力 从案例中提炼概念、模型、框架 例如从 OpenAI、Claude、Manus 中抽象出“外部状态管理” 帮助模型从资料走向洞察
泛化能力 把已知规律迁移到新问题 例如把代码 Agent 的连续性问题迁移到 PPT、研究、排版工作流 决定模型是否能应对非模板化任务
知识能力 参数中存储的通用知识 包括语言、历史、技术、常识、专业知识 提供基础判断,但不保证最新
世界模型能力 对现实系统如何运作的隐含理解 例如知道公司、产品、组织、工具链之间的关系 复杂任务需要它来判断“下一步合理吗”
代码能力 理解、生成、修改、解释代码 包括语法、架构、调试思路、测试思路 是代码 Agent 任务连续性的重要基础
数学能力 计算、公式推导、数量关系判断 不只是算数,也包括建模和约束分析 对数据分析、预算、评估任务有用
多模态理解能力 理解图片、截图、图表、文档视觉结构 例如看 UI 截图、作文扫描图、海报版式 让模型能围绕视觉材料连续工作
生成能力 写作、改写、总结、翻译、创意生成 把理解和推理结果表达成可用输出 是任务交付层能力
风格控制能力 控制语气、文风、专业度、结构 例如正式、口语、批判、教学、咨询风格 长任务中需要保持一致风格
约束满足能力 同时满足多个限制条件 例如“不要太长、用中文、表格、区分事实和推断” 连续任务越复杂,约束越多,越考验这项能力
不确定性识别能力 知道哪些不能确定,哪些需要验证 例如“我不能确认这个说法是不是官方术语” 防止长任务中编造细节
安全边界判断能力 判断哪些请求不能做或需要谨慎 如隐私、医疗、法律、金融、安全风险 影响模型能否可靠地长期执行任务
工具使用判断能力 判断什么时候需要调用工具 注意:这是“判断能力”,不是工具本身 Agent 连续任务中,模型要决定何时搜索、写文件、跑代码、调用 API
行动选择能力 在多个下一步中选一个合理动作 例如先查资料、先总结、先验证、先生成草稿 是 Agent loop 的核心模型能力
结果解释能力 解释为什么这么做、结果代表什么 不只是给答案,还能解释依据和局限 有助于人类监督和接管任务
对齐能力 尽量符合用户真实意图和价值偏好 包括语气、边界、帮助方式 决定连续协作是否顺畅

简化理解

模型本身能力 = 理解能力 + 知识能力 + 上下文能力 + 推理能力 + 规划能力 + 生成能力 + 自我校验能力 + 工具使用判断能力。

不属于纯模型本身的能力

下面这些更偏外部系统或 Agent 架构能力:

不属于纯模型本身的能力 例子
外部长期记忆 用户画像、项目记忆、数据库、向量库
文件系统 todo.md、草稿、代码文件、中间结果
工具执行 浏览器搜索、代码运行、发邮件、改日历
异步执行 后台跑任务、定时任务、任务完成后通知
权限系统 人类确认、审批、沙箱、访问控制
回滚机制 Git、checkpoint、版本管理
多 Agent 协作 研究 Agent、写作 Agent、审稿 Agent、执行 Agent

任务连续性的两层结构

层面 解决什么
模型本身能力 能不能理解、推理、规划、记住当前上下文、选择下一步
Agent 工程能力 能不能保存状态、调用工具、异步执行、回滚、跨会话继续

真正的连续任务能力,通常是两者叠加出来的。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

© 2026 Xiaoxiao’s Weblog. 粤ICP备15088982号