Jean's Blog

一个专注软件测试开发技术的个人博客

0%

AI大模型和Agent智能体介绍

什么是大语言模型(LLM)

大语言模型定义(LLM)

定义: 大语言模型(Large Language Model,简称 LLM)是使用大规模自然语言数据训练而成的深度学习模型,具有对文本的理解与生成能力。

  • 它不仅能理解用户输入的自然语言,还能输出连贯、有逻辑、具有上下文关联的内容。
  • 可执行的任务包括:问答、翻译、文本总结、代码生成、逻辑推理等。

大语言模型的主要特征

上下文理解能力

  • 能追踪对话历史,理解并回应语义连续的问题。
  • 举例:连续对话中,模型知道“他”指的是上一个问题提到的人物。

执行复杂任务

  • 能进行逻辑推理、情感分析、摘要生成、甚至代码编写。
  • 如:分析电影评论的情绪、生成博客摘要、输出 Python 函数。

Prompt 驱动学习方式

  • Zero-shot Learning(零样本学习):不提供示例,仅靠自然语言提示执行任务。
  • Few-shot Learning(少样本学习):提供 1~3 个示例,模型基于这些示例推理出解决方案。

主流开源与闭源模型对比

按开源/闭源分类

类型 代表模型
开源 LLaMA、BLOOM、DeepSeek、Qwen、ChatGLM、
闭源 GPT 系列、Claude、文心一言
  • 开源模型类比:自己搭建一台服务器

    • 优点:可控、安全、可修改。

    • 缺点:运维成本高,需要配置显卡、权重文件、加载方式等。

  • 闭源模型类比:租用云服务

    • 优点:即开即用,性能强大,无需部署。

    • 缺点:数据出境、黑盒限制、定价可能较高。

主流模型对比维度

大模型 机构 是否开源
GPT-4 OpenAI ❌ 否 API 综合能力强,生态成熟,稳定性高
Claude 3 Anthropic ❌ 否 API 长上下文支持强(200K+),安全性好
文心一言(ERNIE Bot) 百度 ❌ 否 API 中文优化,集成百度生态
ChatGLM3 智谱AI(Zhipu AI) ✅ 是 本地部署 / API 中文优化好,推理快,有Mix结构
LLaMA 2 / 3 Meta ✅ 是 本地部署 / API 社区活跃,适合研究与自定义部署
DeepSeek V3 深度求索 ✅ 是 本地 部署/ API 中文优化,性能优,效率高,支持多模态
千问 Qwen 阿里 ✅ 是 本地部署 / API 中文强,支持长上下文,推理强,应用活跃

闭源模型的优势与局限

👍 优势:

  • 表现强大,常居排行榜前列(如 GPT-4o)
  • 云端部署,无需本地资源

👎 局限:

  • 使用成本较高(按 token 收费)
  • 无法自定义/微调模型
  • 数据传输涉及隐私和合规风险

开源模型的优势与局限

👍 优势:

  • 自主可控,可本地部署,无需联网
  • 可微调适配特定场景(如医疗问答、教育问答)
  • 成本低,适合企业/高校私有部署

👎 局限:

  • 单模型能力一般不如 GPT-4o等闭源模型
  • 微调与部署需要 GPU 资源及一定工程能力

大模型的能力

擅长的能力领域(当前)

能力 描述
文本生成 自动撰写文章、文案、邮件等
信息整合 摘要、翻译、知识问答等任务
代码编写 自动生成、补全、修复代码(如 Python、JS)
逻辑推理 在提示引导下完成结构化推理(如 Chain-of-Thought)
对话管理 支持上下文关联、情绪调节
多任务执行 简单任务规划与指令分解执行

不擅长的领域

能力限制 描述 当前改进方向
实时查询 默认闭源模型不联网 插件或外接 API(如 Perplexity、Bing)支持
精准计算 数学能力有限,易出错 可结合 Wolfram Alpha 插件进行数学计算
上下文一致性 长对话易“遗忘”前文内容 Claude 3、Gemini 1.5 提供超长上下文支持
信息幻觉 可能编造事实、引用错误 使用 RAG 技术、提示词优化可缓解
安全边界 无法处理敏感隐私信息 不适合用于医疗诊断、法律定案等场景
多模态限制 图像、音频推理尚不成熟 存在空间理解与情感识别的瓶颈

能力边界的“动态性”

  • 技术持续更新,能力边界正在拓宽
  • 当前不等于永久不行

什么是Agent智能体

智能体(AI Agents或Agents)是指能够自主感知环境、做出决策并执行行动的系统或程序。根据IBM的定义,智能体是“能够通过设计其工作流和利用可用工具,代表用户或其他系统自主执行任务的系统或程序”[IBM]。英伟达则将智能体描述为“AI 智能体是先进的 AI 系统,旨在根据高级目标自主进行推理,制定计划并执行复杂任务。”,代表了“从简单自动化向能够管理复杂工作流的自主系统过渡”的演进方向[NVIDIA]。

在更专业的学术定义中,百度百科指出:“智能体是指能够感知环境并自主采取行动以实现特定目标的实体。这一概念最早由“人工智能之父”马文·明斯基提出,他认为某些问题可经由社会中的一些个体经过协商后解决,这些个体就是智能体。”[百度百科]

智能体具有以下基本特征:

  • 自主性(Autonomy):智能体能够在没有人类或其他实体的直接干预下运行,并对其行动和内部状态具有某种程度的控制。
  • 反应性(Reactivity):智能体能够感知其环境,并对环境变化做出实时响应。
  • 交互性/社交性(Socialability):智能体能够与其他智能体或人类进行交互和协作。
  • 适应性/主动性(Proactivity):智能体能够根据环境变化主动调整其行为策略,适应新的情况。
  • 学习能力:许多智能体具有通过经验或数据学习和改进的能力。

智能体的类型

  • 自主智能体 (Autonomous Agents)

    自主智能体是一种能够在没有人类干预的情况下,自主执行任务、做出决策和与环境互动的智能系统。它们具有高度的自主性,能够独立地感知环境、做出决策并执行行动,而不需要外部的控制和干预。

  • 反应智能体 (Reactive Agents)

    反应智能体主要关注对环境变化的实时响应。使用简单反射模型,根据当前感知做出决策,而不需要复杂的内部状态或长期规划

智能体的发展阶段

OpenAI根据自身技术研发与产品开发提出了通往AGI的五级量表,将AI Agent分为五个阶段,每个阶段代表更高级的能力水平:[51CTO]

  1. 第1级:聊天机器人 - 具有对话语言技能
  2. 第2级:实用工具 - 能够执行具体任务
  3. 第3级:专家助手 - 具有特定领域的专业知识
  4. 第4级:团队合作者 - 能够与人类团队协作
  5. 第5级:通用人工智能(AGI) - 具有与人类相当或超越人类的通用智能

image-20250828152117511

智能体的应用

工业自动化

在工业领域,智能体被用于:

  • 自动化生产线监控和优化
  • 设备预测性维护
  • 仓储和物流自动化
  • 质量控制和检测

服务业

在服务业,智能体的应用包括:

  • 智能客服和客户支持
  • 个性化推荐系统
  • 智能健康管理
  • 智能金融分析和风险管理

医疗健康

在医疗健康领域,智能体被用于:

  • 医学影像辅助诊断
  • 病人监测和远程医疗
  • 药物研发和临床试验优化
  • 个性化治疗方案设计

教育

在教育领域,智能体的应用包括:

  • 个性化学习推荐系统
  • 智能教学助手
  • 学习评估和反馈系统
  • 虚拟教育助手

娱乐与创意

在娱乐与创意领域,智能体被用于:

  • 智能内容创作和推荐
  • 游戏AI和虚拟对手
  • 数字助手和创意辅助工具
  • 虚拟主播和内容生成

Agent 的核心能力模块

模块 说明
感知(Perception) 读取输入内容,包括自然语言、结构化数据、环境状态等
理解与推理(Reasoning) 分析任务、拆解目标、制定解决策略
记忆(Memory) 保留上下文信息和历史记录,实现持续性交互
规划(Planning) 多步骤思考和任务分解能力(如Chain of Thought)
工具调用(Tool Calling) 结合 API、搜索、代码执行等外部能力完成任务
执行与反馈(Action) 执行任务并基于结果做出调整或解释

智能体和模型、大模型的区别

名词 核心概念
AI 人工智能(AI)是计算机科学的一个分支学科
模型 AI系统的核心算法组件,通过从数据中学习规律和模式来实现特定功能常见模型如:预测模型(分类、回归),生成模型(文本、图像生成)等模型是无实体的工具,不具有自主性
大模型 模型的特殊形态,以参数规模巨大(达到百亿、千亿甚至万亿)为显著特征主要用来处理复杂任务和复杂推理,对人类指令有很强的遵循能力
智能体 能够感知环境、自主决策并执行行动以实现特定目标的实体或系统智能体是AI技术落地的系统级应用形式能够形成完整的“感知-决策-行动”闭环

智能体架构

  • 单个智能体的构成:

    • 大模型(必选)

    • Tools(必选)

  • 多个智能体的串联:

    • LangGraph

    • Dify、Coze等平台

  • 智能体的调用:

    • Python/Node

image-20250828152606906