Post

生成式AI時代下的機器學習(2025)

生成式AI時代下的機器學習(2025)

生成式AI時代下的機器學習(2025)

AI 技术突破与未来发展 PART - 第一讲

  • 别急

AI agent PART - 第二讲

来源

生成式AI時代下的機器學習(2025) 第二讲

AI agent 是什么?

  • 传统:人类给予明确指令,一个口令对应 AI 一个动作
  • AI agent:人类给予目标,AI 自己想办法达成

LLM-based agent 优势

  • 传统:用 RL 来打造,但是只能针对一个任务,并且需要大量训练数据
  • 现在:直接用 LLM,可以使用工具,无限可能

  • 传统:RL 必须定义 Reward,reward 还需要调参(玄学)
  • 现在:反馈更多,更容易修改

AI agent 例子

回合制互动

即时互动

AI agent 关键能力剖析

AI 如何根据经验调整行为

  • RAG(数据库是自我经验版):存在一个 Read 模组,只从 Agent’s Memory 中挑选出来与该 obs 相关的讯息来决策,从而避免一下子读很长很长的记忆

  • 同时,存在一个 Write 模块,来决定 agent 要记录哪些事情,从而避免把一些鸡毛蒜皮的小事记录下来。一种实现方式是使用另一个 AI agent 充当 Write

  • 还有一个 Reflection 模组,对记忆中的内容进行重新反思,抽象化思考,或许可以得到更好的思路。也可以建立一个 Knowledge Graph,以实现经验与经验之间更好的联系。一种实现方式是使用另一个 AI agent 充当 Reflection;

  • StreamBench benchmark:评测 agent 根据反馈修正自己行为的能力。得出反直觉结论:Negative feedback is unhelpful,与其告诉模型不要做什么,不如直接告诉模型要做什么

  • Graph RAG

  • Hippo RAG

  • Agentic Memory for LLM Agents

AI 如何使用工具

  • 工具:只需要知道怎么使用,不需要知道内部运作原理;可以使用 RAG 作为工具,也可以把另一个模型当作工具

  • System Prompt: 教模型如何使用工具

    • 如何使用所有工具:把使用工具的指令放在 <tool> 与 </tool> 之间,输出放到 <output> 与 </output> 之间

    • 使用特定工具:查询某地某时的温度的范式如下 Temperature(location, time),范例:Temperature('台北', '2025.02.22 14:26')

    • 其它:……

    • ChatGPT 调用语音模型

  • 如果工具过多怎么办?不可能让 agent 读完所有的说明书后再来运行

  • Agent 自己打造工具:

  • AI agent 过度相信类似 RAG 的工具时也可能出错

    • AI agent 有一定的判断力

    • Internal Knowledge 与 External Knowledge 之间的抗衡

    • 什么样的外部知识比较容易说服 AI:符合直觉的,外部知识与模型本身信念差距越大,模型就越不容易相信外部知识;模型对自身知识的信心也会影响是否选择外部知识;

    • 相反的外部知识,模型选择哪个?:模型倾向于相信 AI 文章的话,而非人工创作,模型显然存在 bias

    • Meta Data 对模型选择的影响:AI 倾向于相信更新的文章;资料来源不影响选择;文章呈现方式影响倾向(例如,模板更好看的文章更容易获取 Claude 的信赖)

  • 使用工具与模型本身能力的平衡

    • 用工具并非总是有效率:简单计算,人和 AI 哪个快?

AI 能不能做计划

AI 的腦科學 — 語言模型內部運作機制剖析 PART - 第三讲

来源

生成式AI時代下的機器學習(2025) 第三讲

前置知识

benchmark 评测

This post is licensed under CC BY 4.0 by the author.