生成式AI時代下的機器學習(2025)

Posted Mar 13, 2025 Updated Mar 25, 2025

By Zhai Wangyuxuan

7 min read

生成式AI時代下的機器學習(2025)

AI 技术突破与未来发展 PART - 第一讲

别急

AI agent PART - 第二讲

来源

生成式AI時代下的機器學習(2025) 第二讲

AI agent 是什么？

传统：人类给予明确指令，一个口令对应 AI 一个动作
AI agent：人类给予目标，AI 自己想办法达成

LLM-based agent 优势

传统：用 RL 来打造，但是只能针对一个任务，并且需要大量训练数据
现在：直接用 LLM，可以使用工具，无限可能

传统：RL 必须定义 Reward，reward 还需要调参（玄学）
现在：反馈更多，更容易修改

AI agent 例子

回合制互动

即时互动

action1 暂未结束，obs2 就来了，需要 agent 立刻停止 action1 转去执行 action2 （例如：带打断的语言通话）
survey 现有语音大模型评测

AI agent 关键能力剖析

AI 如何根据经验调整行为

RAG（数据库是自我经验版）：存在一个 Read 模组，只从 Agent’s Memory 中挑选出来与该 obs 相关的讯息来决策，从而避免一下子读很长很长的记忆
同时，存在一个 Write 模块，来决定 agent 要记录哪些事情，从而避免把一些鸡毛蒜皮的小事记录下来。一种实现方式是使用另一个 AI agent 充当 Write
还有一个 Reflection 模组，对记忆中的内容进行重新反思，抽象化思考，或许可以得到更好的思路。也可以建立一个 Knowledge Graph，以实现经验与经验之间更好的联系。一种实现方式是使用另一个 AI agent 充当 Reflection；
StreamBench benchmark：评测 agent 根据反馈修正自己行为的能力。得出反直觉结论：Negative feedback is unhelpful，与其告诉模型不要做什么，不如直接告诉模型要做什么
Graph RAG
Hippo RAG
Agentic Memory for LLM Agents

AI 如何使用工具

工具：只需要知道怎么使用，不需要知道内部运作原理；可以使用 RAG 作为工具，也可以把另一个模型当作工具
System Prompt: 教模型如何使用工具
- 如何使用所有工具：把使用工具的指令放在 <tool> 与 </tool> 之间，输出放到 <output> 与 </output> 之间
- 使用特定工具：查询某地某时的温度的范式如下 Temperature(location, time)，范例：Temperature('台北', '2025.02.22 14:26')
- 其它：……
- ChatGPT 调用语音模型
如果工具过多怎么办？不可能让 agent 读完所有的说明书后再来运行
- 故将说明书存入 memory 中
- 使用 Tool Selection 模块来选择
- 工具选择与使用论文
Agent 自己打造工具：
- Make tools 后放到 memory 之中
- 自主产生工具论文
AI agent 过度相信类似 RAG 的工具时也可能出错
- AI agent 有一定的判断力
- Internal Knowledge 与 External Knowledge 之间的抗衡
- 什么样的外部知识比较容易说服 AI：符合直觉的，外部知识与模型本身信念差距越大，模型就越不容易相信外部知识；模型对自身知识的信心也会影响是否选择外部知识；
- 相反的外部知识，模型选择哪个？：模型倾向于相信 AI 文章的话，而非人工创作，模型显然存在 bias
- Meta Data 对模型选择的影响：AI 倾向于相信更新的文章；资料来源不影响选择；文章呈现方式影响倾向（例如，模板更好看的文章更容易获取 Claude 的信赖）
使用工具与模型本身能力的平衡
- 用工具并非总是有效率：简单计算，人和 AI 哪个快？

AI 能不能做计划

先生成 plan，再依据 plan 执行 action
planbench: 评估大模型 plan 能力：上古时期论文，2023 年 LLM 难做到
- 有了 o1 后再次评测 planbench：LRM 有很大概率可以解决难题
TravelPlanner: 旅行计划 benchmark：大模型表现极差，犯错原因有：不符合常识；不符合预算要求……
- 使用现成 solver 去做 TravelPlanner：LLM 写一个程序，让这个程序去操控 solver，以规划出符合要求的旅行计划
怎么才能更合理地规划：
- 原始：DFS
- 进阶：带剪枝的 DFS，即模型自问自答，该分支是否有机会？低于某个阈值，就停止该路径
- Tree Search for LM Agents：缺点明显，有些动作覆水难收，执行了就无法回溯
- 那就在模拟环境中搜索：需要一个 World Model，可以让 AI 自己充当一个 World Model，用来模拟环境，自行强化规划能力
- 但是存在过度思考的危险

AI 的腦科學 — 語言模型內部運作機制剖析 PART - 第三讲

来源

生成式AI時代下的機器學習(2025) 第三讲

前置知识

你很熟悉 Transformer 的架构，可参考【機器學習2021】(中文版)

benchmark 评测

MMLU benchmark 评估结果

LLM/MLLM, Hung-Yi Lee

llm/mllm hung-yi lee

This post is licensed under CC BY 4.0 by the author.

AI 技术突破与未来发展 PART - 第一讲

AI agent PART - 第二讲

来源

AI agent 是什么？

LLM-based agent 优势

AI agent 例子

回合制互动

即时互动

AI agent 关键能力剖析

AI 如何根据经验调整行为

AI 如何使用工具

AI 能不能做计划

AI 的腦科學 — 語言模型內部運作機制剖析 PART - 第三讲

来源

前置知识

benchmark 评测

Trending Tags