生成式AI時代下的機器學習(2025)
生成式AI時代下的機器學習(2025)
AI 技术突破与未来发展 PART - 第一讲
- 别急
AI agent PART - 第二讲
来源
AI agent 是什么?
- 传统:人类给予明确指令,一个口令对应 AI 一个动作
- AI agent:人类给予目标,AI 自己想办法达成
LLM-based agent 优势
- 传统:用 RL 来打造,但是只能针对一个任务,并且需要大量训练数据
- 现在:直接用 LLM,可以使用工具,无限可能
- 传统:RL 必须定义 Reward,reward 还需要调参(玄学)
- 现在:反馈更多,更容易修改
AI agent 例子
回合制互动
有一个 observation 就有一个 action
即时互动
action1 暂未结束,obs2 就来了,需要 agent 立刻停止 action1 转去执行 action2 (例如:带打断的语言通话)
AI agent 关键能力剖析
AI 如何根据经验调整行为
RAG(数据库是自我经验版):存在一个 Read 模组,只从 Agent’s Memory 中挑选出来与该 obs 相关的讯息来决策,从而避免一下子读很长很长的记忆
同时,存在一个 Write 模块,来决定 agent 要记录哪些事情,从而避免把一些鸡毛蒜皮的小事记录下来。一种实现方式是使用另一个 AI agent 充当 Write
还有一个 Reflection 模组,对记忆中的内容进行重新反思,抽象化思考,或许可以得到更好的思路。也可以建立一个 Knowledge Graph,以实现经验与经验之间更好的联系。一种实现方式是使用另一个 AI agent 充当 Reflection;
StreamBench benchmark:评测 agent 根据反馈修正自己行为的能力。得出反直觉结论:Negative feedback is unhelpful,与其告诉模型不要做什么,不如直接告诉模型要做什么
AI 如何使用工具
工具:只需要知道怎么使用,不需要知道内部运作原理;可以使用 RAG 作为工具,也可以把另一个模型当作工具
System Prompt: 教模型如何使用工具
如何使用所有工具:
把使用工具的指令放在 <tool> 与 </tool> 之间,输出放到 <output> 与 </output> 之间
使用特定工具:
查询某地某时的温度的范式如下 Temperature(location, time),范例:Temperature('台北', '2025.02.22 14:26')
其它:……
如果工具过多怎么办?不可能让 agent 读完所有的说明书后再来运行
故将说明书存入 memory 中
使用 Tool Selection 模块来选择
Agent 自己打造工具:
Make tools 后放到 memory 之中
AI agent 过度相信类似 RAG 的工具时也可能出错
AI agent 有一定的判断力
Internal Knowledge 与 External Knowledge 之间的抗衡
什么样的外部知识比较容易说服 AI:符合直觉的,外部知识与模型本身信念差距越大,模型就越不容易相信外部知识;模型对自身知识的信心也会影响是否选择外部知识;
相反的外部知识,模型选择哪个?:模型倾向于相信 AI 文章的话,而非人工创作,模型显然存在 bias
Meta Data 对模型选择的影响:AI 倾向于相信更新的文章;资料来源不影响选择;文章呈现方式影响倾向(例如,模板更好看的文章更容易获取 Claude 的信赖)
使用工具与模型本身能力的平衡
- 用工具并非总是有效率:简单计算,人和 AI 哪个快?
AI 能不能做计划
planbench: 评估大模型 plan 能力:上古时期论文,2023 年 LLM 难做到
- 有了 o1 后再次评测 planbench:LRM 有很大概率可以解决难题
TravelPlanner: 旅行计划 benchmark:大模型表现极差,犯错原因有:不符合常识;不符合预算要求……
- 使用现成 solver 去做 TravelPlanner:LLM 写一个程序,让这个程序去操控 solver,以规划出符合要求的旅行计划
怎么才能更合理地规划:
原始:DFS
进阶:带剪枝的 DFS,即模型自问自答,该分支是否有机会?低于某个阈值,就停止该路径
Tree Search for LM Agents:缺点明显,有些动作覆水难收,执行了就无法回溯
那就在模拟环境中搜索:需要一个 World Model,可以让 AI 自己充当一个 World Model,用来模拟环境,自行强化规划能力
AI 的腦科學 — 語言模型內部運作機制剖析 PART - 第三讲
来源
前置知识
- 你很熟悉 Transformer 的架构,可参考 【機器學習2021】(中文版)