什么是大语言模型(LLM)
大语言模型定义(LLM)
定义: 大语言模型(Large Language Model,简称 LLM)是使用大规模自然语言数据训练而成的深度学习模型,具有对文本的理解与生成能力。
- 它不仅能理解用户输入的自然语言,还能输出连贯、有逻辑、具有上下文关联的内容。
- 可执行的任务包括:问答、翻译、文本总结、代码生成、逻辑推理等。
大语言模型的主要特征
上下文理解能力
- 能追踪对话历史,理解并回应语义连续的问题。
- 举例:连续对话中,模型知道“他”指的是上一个问题提到的人物。
执行复杂任务
- 能进行逻辑推理、情感分析、摘要生成、甚至代码编写。
- 如:分析电影评论的情绪、生成博客摘要、输出 Python 函数。
Prompt 驱动学习方式
- Zero-shot Learning(零样本学习):不提供示例,仅靠自然语言提示执行任务。
- Few-shot Learning(少样本学习):提供 1~3 个示例,模型基于这些示例推理出解决方案。
主流开源与闭源模型对比
按开源/闭源分类
| 类型 | 代表模型 |
|---|---|
| 开源 | LLaMA、BLOOM、DeepSeek、Qwen、ChatGLM、 |
| 闭源 | GPT 系列、Claude、文心一言 |
开源模型类比:自己搭建一台服务器
优点:可控、安全、可修改。
缺点:运维成本高,需要配置显卡、权重文件、加载方式等。
闭源模型类比:租用云服务
优点:即开即用,性能强大,无需部署。
缺点:数据出境、黑盒限制、定价可能较高。
主流模型对比维度
| 大模型 | 机构 | 是否开源 | ||
|---|---|---|---|---|
| GPT-4 | OpenAI | ❌ 否 | API | 综合能力强,生态成熟,稳定性高 |
| Claude 3 | Anthropic | ❌ 否 | API | 长上下文支持强(200K+),安全性好 |
| 文心一言(ERNIE Bot) | 百度 | ❌ 否 | API | 中文优化,集成百度生态 |
| ChatGLM3 | 智谱AI(Zhipu AI) | ✅ 是 | 本地部署 / API | 中文优化好,推理快,有Mix结构 |
| LLaMA 2 / 3 | Meta | ✅ 是 | 本地部署 / API | 社区活跃,适合研究与自定义部署 |
| DeepSeek V3 | 深度求索 | ✅ 是 | 本地 部署/ API | 中文优化,性能优,效率高,支持多模态 |
| 千问 Qwen | 阿里 | ✅ 是 | 本地部署 / API | 中文强,支持长上下文,推理强,应用活跃 |
闭源模型的优势与局限
👍 优势:
- 表现强大,常居排行榜前列(如 GPT-4o)
- 云端部署,无需本地资源
👎 局限:
- 使用成本较高(按 token 收费)
- 无法自定义/微调模型
- 数据传输涉及隐私和合规风险
开源模型的优势与局限
👍 优势:
- 自主可控,可本地部署,无需联网
- 可微调适配特定场景(如医疗问答、教育问答)
- 成本低,适合企业/高校私有部署
👎 局限:
- 单模型能力一般不如 GPT-4o等闭源模型
- 微调与部署需要 GPU 资源及一定工程能力
大模型的能力
擅长的能力领域(当前)
| 能力 | 描述 |
|---|---|
| 文本生成 | 自动撰写文章、文案、邮件等 |
| 信息整合 | 摘要、翻译、知识问答等任务 |
| 代码编写 | 自动生成、补全、修复代码(如 Python、JS) |
| 逻辑推理 | 在提示引导下完成结构化推理(如 Chain-of-Thought) |
| 对话管理 | 支持上下文关联、情绪调节 |
| 多任务执行 | 简单任务规划与指令分解执行 |
不擅长的领域
| 能力限制 | 描述 | 当前改进方向 |
|---|---|---|
| 实时查询 | 默认闭源模型不联网 | 插件或外接 API(如 Perplexity、Bing)支持 |
| 精准计算 | 数学能力有限,易出错 | 可结合 Wolfram Alpha 插件进行数学计算 |
| 上下文一致性 | 长对话易“遗忘”前文内容 | Claude 3、Gemini 1.5 提供超长上下文支持 |
| 信息幻觉 | 可能编造事实、引用错误 | 使用 RAG 技术、提示词优化可缓解 |
| 安全边界 | 无法处理敏感隐私信息 | 不适合用于医疗诊断、法律定案等场景 |
| 多模态限制 | 图像、音频推理尚不成熟 | 存在空间理解与情感识别的瓶颈 |
能力边界的“动态性”
- 技术持续更新,能力边界正在拓宽
- 当前不等于永久不行
什么是Agent智能体
智能体(AI Agents或Agents)是指能够自主感知环境、做出决策并执行行动的系统或程序。根据IBM的定义,智能体是“能够通过设计其工作流和利用可用工具,代表用户或其他系统自主执行任务的系统或程序”[IBM]。英伟达则将智能体描述为“AI 智能体是先进的 AI 系统,旨在根据高级目标自主进行推理,制定计划并执行复杂任务。”,代表了“从简单自动化向能够管理复杂工作流的自主系统过渡”的演进方向[NVIDIA]。
在更专业的学术定义中,百度百科指出:“智能体是指能够感知环境并自主采取行动以实现特定目标的实体。这一概念最早由“人工智能之父”马文·明斯基提出,他认为某些问题可经由社会中的一些个体经过协商后解决,这些个体就是智能体。”[百度百科]
智能体具有以下基本特征:
- 自主性(Autonomy):智能体能够在没有人类或其他实体的直接干预下运行,并对其行动和内部状态具有某种程度的控制。
- 反应性(Reactivity):智能体能够感知其环境,并对环境变化做出实时响应。
- 交互性/社交性(Socialability):智能体能够与其他智能体或人类进行交互和协作。
- 适应性/主动性(Proactivity):智能体能够根据环境变化主动调整其行为策略,适应新的情况。
- 学习能力:许多智能体具有通过经验或数据学习和改进的能力。
智能体的类型
自主智能体 (Autonomous Agents)
自主智能体是一种能够在没有人类干预的情况下,自主执行任务、做出决策和与环境互动的智能系统。它们具有高度的自主性,能够独立地感知环境、做出决策并执行行动,而不需要外部的控制和干预。
反应智能体 (Reactive Agents)
反应智能体主要关注对环境变化的实时响应。使用简单反射模型,根据当前感知做出决策,而不需要复杂的内部状态或长期规划
智能体的发展阶段
OpenAI根据自身技术研发与产品开发提出了通往AGI的五级量表,将AI Agent分为五个阶段,每个阶段代表更高级的能力水平:[51CTO]
- 第1级:聊天机器人 - 具有对话语言技能
- 第2级:实用工具 - 能够执行具体任务
- 第3级:专家助手 - 具有特定领域的专业知识
- 第4级:团队合作者 - 能够与人类团队协作
- 第5级:通用人工智能(AGI) - 具有与人类相当或超越人类的通用智能

智能体的应用
工业自动化
在工业领域,智能体被用于:
- 自动化生产线监控和优化
- 设备预测性维护
- 仓储和物流自动化
- 质量控制和检测
服务业
在服务业,智能体的应用包括:
- 智能客服和客户支持
- 个性化推荐系统
- 智能健康管理
- 智能金融分析和风险管理
医疗健康
在医疗健康领域,智能体被用于:
- 医学影像辅助诊断
- 病人监测和远程医疗
- 药物研发和临床试验优化
- 个性化治疗方案设计
教育
在教育领域,智能体的应用包括:
- 个性化学习推荐系统
- 智能教学助手
- 学习评估和反馈系统
- 虚拟教育助手
娱乐与创意
在娱乐与创意领域,智能体被用于:
- 智能内容创作和推荐
- 游戏AI和虚拟对手
- 数字助手和创意辅助工具
- 虚拟主播和内容生成
Agent 的核心能力模块
| 模块 | 说明 |
|---|---|
| 感知(Perception) | 读取输入内容,包括自然语言、结构化数据、环境状态等 |
| 理解与推理(Reasoning) | 分析任务、拆解目标、制定解决策略 |
| 记忆(Memory) | 保留上下文信息和历史记录,实现持续性交互 |
| 规划(Planning) | 多步骤思考和任务分解能力(如Chain of Thought) |
| 工具调用(Tool Calling) | 结合 API、搜索、代码执行等外部能力完成任务 |
| 执行与反馈(Action) | 执行任务并基于结果做出调整或解释 |
智能体和模型、大模型的区别
| 名词 | 核心概念 |
|---|---|
| AI | 人工智能(AI)是计算机科学的一个分支学科 |
| 模型 | AI系统的核心算法组件,通过从数据中学习规律和模式来实现特定功能常见模型如:预测模型(分类、回归),生成模型(文本、图像生成)等模型是无实体的工具,不具有自主性 |
| 大模型 | 模型的特殊形态,以参数规模巨大(达到百亿、千亿甚至万亿)为显著特征主要用来处理复杂任务和复杂推理,对人类指令有很强的遵循能力 |
| 智能体 | 能够感知环境、自主决策并执行行动以实现特定目标的实体或系统智能体是AI技术落地的系统级应用形式能够形成完整的“感知-决策-行动”闭环 |
智能体架构
单个智能体的构成:
大模型(必选)
Tools(必选)
多个智能体的串联:
LangGraph
Dify、Coze等平台
智能体的调用:
- Python/Node
