C++组 && py组联合授课文档2：AI Agent初步

用户136

用户7154

用户8230

2025年11月29日修改

值得一提的是，我们想要讲述的是现在ai（其实用ai并不准确，叫做llm（large language model）更对一点）在应用方面的相关内容，所以传统的数据分析，机器学习，深度学习并不在这的讨论范围内，之后会另外授课讨论​

关于我们首先要学会使用AI和搜索引擎这档事

Agent基本认知

一、从 AI 应用说起：现在的 AI 系统在干什么

过去我们用 AI，是「调用一个模型 → 输出一个结果」。

•
图像识别：输入图片输出标签（yolo）​

•
语音识别：输入声音输出文本（so-vits-svc）​

•
文本生成：输入提示词输出文本(chatgpt，deepseek)​

现在的 AI 应用已经升级成了「多步骤、多工具、具备记忆和决策能力的系统」，​
 比如：​

•
Copilot 自动生成并执行代码；​

•
ChatGPT 可以访问文件、网页、数据库；​

•
Deepwiki 帮你快速阅读代码。​

这种“能规划、能执行、能用工具”的系统，就是Agent（智能体）。​

二、Agent定义

讨论这个东西，我们需要对他有一个良定义，才能避免过于宽泛/狭隘的讨论，不幸的是，网上许多技术博客并没有给出足够好的定义，like this​

1.
 定义​

Agent 是一个由 LLM 驱动的可感知、可思考、可执行的智能体。​

它可以：

•
感知环境（理解输入、上下文）​

•
规划目标（思考下一步）​

•
调用工具（执行外部操作）​

•
学习记忆（改进行为）...​

AI Agent应该是一个可以同时满足下面两个条件的程序或者系统​

•
核心逻辑由深度学习及其衍生技术实现（尤其是大模型技术）​

•
是一个能够进行任务执行的下游应用，输入和输出都直接面向终端用户​

哪些不是Agent

常用的大模型，只能完成文本交互，无法调用工具

基于知识图谱的问答系统，没有学习记忆改进行为，“智能”程度不足​

C++组 && py组 联合授课文档2：AI Agent初步​