Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles

ICML 2023
paper
code
紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。

Intro

文章提出了一种新的模仿学习算法,名为 MAPS(Max-aggregation Active Policy Selection)和其变体 MAPS-SE(Max-aggregation Active Policy Selection with Active State Exploration),用于从多个次优的黑盒专家(oracle)中进行策略改进。这些专家在所有状态下并不总是相互超越,这就带来了一个挑战:如何主动决定使用哪个oracle,以及在哪个状态下使用。
文章的主要贡献包括:

  1. 提出了 MAPS 和 MAPS-SE 算法,它们通过主动选择要模仿的oracle并改进它们的价值函数估计来执行模仿学习。
  2. MAPS-SE 算法额外利用了一个主动状态探索标准,根据其状态值的不确定性来决定应该探索哪些状态。
  3. 提供了对 MAPS 和 MAPS-SE 的全面理论分析,并证明了它们在样本效率方面比现有的策略改进算法有优势。
  4. 通过在 DeepMind Control Suite 中的广泛控制任务上的实验,展示了 MAPS-SE 如何通过从多个 oracle 进行状态模仿学习显著加速策略优化。

Method

首先采用和MAMBA相同的对max-aggregations baseline的定义
在这里插入图片描述
MAMBA一个主要的问题其高样本复杂度。MAMBA 基于 f ^ max ⁡ \hat{f}^{\max} f^max 估计策略梯度,并且策略随机均匀地采样oracle,导致算法需要长时间的episode识别给定状态的最佳oracle,因为它的策略是在随机均匀地采样预言机。因此,MAMBA 容易出现大量误差累积。此外,MAMBA 在选择状态进行roll-out时没有控制梯度估计的逼近误差。因此,本工作旨在通过主动选择oracle并通过主动状态探索来控制状态的不确定性来减少估计器的逼近误差。

算法的两个主要组件:主动策略选择和主动状态探索。在主动策略选择中,MAPS 利用上置信界限(UCB)的概念来决定在线学习过程中应该选择哪个oracle进行展开。在主动状态探索中,MAPS-SE 基于当前状态的不确定性来决定是否继续使用学习者策略或切换到选定的oracle。

Active Policy Selection

提出结合UCB选择Oracle,在离散空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + 2 H 2 log ⁡ 2 δ N k ( s t ) , ( 4 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sqrt{\frac{2H^{2}\log\frac{2}{\delta}}{N_{k}\left(s_{t}\right)}}, (4) k=argk[K]maxV^k(st)+Nk(st)2H2logδ2 ,(4)
对连续空间下有
k ⋆ = arg ⁡ max ⁡ k ∈ [ K ] V ^ k ( s t ) + σ k ( s t ) . ( 5 ) k_{\star}=\arg\max_{k\in[K]}\hat{V}^{k}(s_{t})+\sigma_{k}\left(s_{t}\right). (5) k=argk[K]maxV^k(st)+σk(st).(5)
其中 V ^ π k ( s t ) ≐ 1 N k ( s t ) ∑ i = 1 N k ( s t ) ∑ j H λ j r ( s j , a j ) , ( 6 ) \hat{V}^{\pi_k}\left(s_t\right)\doteq\frac{1}{N_k\left(s_t\right)}\sum_{i=1}^{N_k\left(s_t\right)}\sum_{j}^{H}\lambda^jr\left(s_j,a_j\right), (6) V^πk(st)Nk(st)1i=1Nk(st)jHλjr(sj,aj),(6)

Active State Exploration

MAMBA 的第二个限制是没有对哪种状态下进行探索给出理由。在 MAPS 的基础上,提出了一种基于当前状态的不确定性度量的 MAPS (MAPS-SE) 主动状态探索变体,它决定是否在当前学习器策略中继续滚动或切换到最有希望的预言机,类似于 MAPS。这样,MAPS-SE 旨在主动选择最小化不确定性的状态。

在离散环境下由公式4选择出最优oracle.,连续空间下N无法计算,因此采用ensemble的价值网络估计,那么状态的不确定度由网络预测的标准差定义
Γ k ⋆ ( s t ) = { 2 H 2 log ⁡ 2 δ N k ⋆ ( s t ) discrete σ k ⋆ ( s t ) continuous \Gamma_{k_\star}\left(s_t\right)=\begin{cases}\sqrt{\frac{2H^2\log\frac{2}{\delta}}{N_{k_\star}\left(s_t\right)}}&\text{discrete}\\\sigma_{k_\star}\left(s_t\right)&\text{continuous}\end{cases} Γk(st)={Nk(st)2H2logδ2 σk(st)discretecontinuous

在当前状态下是否执行最优oracle由 Γ k ⋆ \Gamma_{k_\star} Γk与阈值 Γ s \Gamma_s Γs相关
Γ s = α ⋅ ( 2 H 2 log ⁡ 2 δ K + ( ∑ i 1 Δ i 2 ) log ⁡ ( K δ ) ) \Gamma_s=\alpha\cdot\left(\sqrt{\frac{2H^2\log\frac2\delta}{K+\left(\sum_i\frac1{\Delta_i^2}\right)\log\left(\frac K\delta\right)}}\right) Γs=α K+(iΔi21)log(δK)2H2logδ2
若不确定度大于阈值则采用oracle策略,小于则采用智能体策略进行rollout.

伪代码

在这里插入图片描述
其中第十行的优化目标与MAMBA中的目标相同
∇ ℓ ^ n ( π n ; λ ) = − H E s ∼ d π n , a ∼ π n ( ⋅ ∣ s ) [ ∇ log ⁡ π n ( a ∣ s ) A λ f ^ max ⁡ , π n ( s , a ) ] , (9) \nabla\hat{\ell}_{n}\left(\pi_{n};\lambda\right)=-H\mathbb{E}_{s\sim d^{\pi_{n}},a\sim\pi_{n}(\cdot|s)}\Big[\nabla\log\pi_{n}\left(a|s\right)A_{\lambda}^{\hat{f}^{\max},\pi_{n}}\left(s,a\right)\Big], \quad \text{(9)} ^n(πn;λ)=HEsdπn,aπn(s)[logπn(as)Aλf^max,πn(s,a)],(9)

Results

在这里插入图片描述

其他

霍夫丁不等式给出有界随机变量靠近其均值的概率有多大,也用来对算法的样本复杂度进行分析。
在这里插入图片描述

Hoeffding’s inequality
cs229
机器学习数学原理(8)——霍夫丁不等式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/632431.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kibana使用

一、什么是Kibana   Kibana 是一个开源的分析和可视化平台,Kibana 提供搜索、查看和与存储在 Elasticsearch 索引中的数据进行交互的功能。开发者或运维人员可以轻松地执行高级数据分析,并在各种图表、表格和地图中可视化数据。 Kibana使用&#xff1a…

【御控物联】物联网协议

文章目录 一、前言二、协议清单三、技术资料 一、前言 如果一个人想要和全球各个国家贸易,那这个人就得懂各个国家的语言或者全球通用语言,同样,在物联网的世界里,各家设备也都拥有自己的语言(协议)&#…

JUnit5参数化用例(三)

JUnit5枚举参数的参数化: 使用枚举类作为测试数据枚举参数参数化注解EnumSource必须与ParameterizedTest结合使用 枚举参数化注解 -简单使用: 需要添加EnumSource注解测试方法传入枚举类作为参数 在执行前,我们需了解enum枚举的使用方式&…

弘君资本午评:沪指拉升涨0.48%,地产板块爆发,金融等板块上扬

16日早盘,两市股指盘中震动上扬,创业板指涨超1%;场内近3800股飘红,半日成交超5000亿元。 到午间收盘,沪指涨0.48%报3134.97点,深证成指涨0.83%,创业板指涨1.14%,两市算计成交5194亿…

在win10折腾Flowise:部署和尝试

Flowise 是一种低代码/无代码拖放工具,旨在让人们轻松可视化和构建 LLM 应用程序。 本地部署 操作系统: win10 由于网络、操作系统等各种未知问题,使用npm install -g flowise的方式,尝试了很多次,都没有部署成功&am…

AI大模型试用盘点(附体验网址)包含10多款大模型

【前言】目前我是用过的公开免费使用的文心一言、智谱清言比较好! 1、阿里云——通义千问 网址:https://tongyi.aliyun.com/ 简介:阿里达摩院推出的大模型,拥有千亿参数,可用于智能问答、知识检索、文案创作等场景。 演示: 功能大全: 2、科大讯飞——星火大模型…

数据库-索引结构(B-Tree,B+Tree,Hash,二叉树)

文章目录 索引结构有哪些?二叉树详解?B-Tree详解?BTree详解?Hash详解?本篇小结 更多相关内容可查看 索引结构有哪些? MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的索引结构,主要包…

【C语言】static关键字的妙用

前言 在c/c中存在着一种内存结构,以此为栈区、堆区、静态区(这里是大致划分,不细究) 存放规则如下: 栈区:存放局部变量、函数的形参、临时属性的变量 堆区:存放malloc、realloc、calloc、fr…

2024 年适用于 Mac 的 5 大最佳免费数据恢复工具

一个常见的误解是,数据恢复总是很昂贵。实际上,您可以在 2024 年下载许多适用于 Mac 的免费数据恢复软件工具,并使用它们来恢复丢失的数据,而无需将 Mac 交给数据恢复专业人员,他们保证会向您收取一小笔费用他们的服务…

Ansys Mechanical|中远程点的Behavior该如何设置?

Remote point是ANSYS mechanical中的一种常见节点自由度耦合建模形式,在转动装配体中的连接转动副、或者在施加远端约束及远端载荷的时候,我们经常用到远端单元来耦合一个面或者一条线。例如销轴似的滚动摩擦连接,如果我们希望将两个物体通过…

Linux ps命令详细参数

一、简介 在Linux系统中,ps(Process Status的缩写)命令常常用来用来列出系统中当前运行的进程。ps命令列出的是当前那些进程的快照,就是执行ps命令的那个时刻的那些进程,如果想要动态的显示进程信息,就可以使用top命令。要对进程…

【动态规划】子序列问题II|最长定差子序列|最长的斐波那契数列的长度|最长等差数列|等差数列的划分

一、最长定差子序列 1218. 最长定差子序列 算法原理: 💡细节: 1.正常创建dp表,分析状态转移方程:可能b存在于多个不同的位置,那么要用哪个下标的dp呢? 用最后一个b的,因为用前面的可…

springboot3.0+继续使用springboot2.0配置会显示 `无法自动装配,找不到对应的Bean`解决方法

在 Spring Boot 3.0 中,Spring 团队对自动配置机制进行了重大变更,特别是 spring.factories 文件。spring.factories 文件已被 META-INF/spring/org.springframework.boot.autoconfigure.AutoConfiguration.imports 文件所取代。在springboot3.0继续使用…

Danfoss丹佛斯S90泵比例放大器

S90R042、S90R055、S90R075、S90R100、S90R130、S90R180、S90R250电气排量控制变量泵比例阀放大器,电气排量控制为高增益控制方式:通过微小变化的输入电流控制信号即可推动伺服阀主阀芯至全开口位置,进而将最大流量的控制油引入到伺服油缸。伺…

搭建Prometheus+grafana监控系统

1. 项目目标 (1)熟练部署安装node_exporter (2)熟练部署安装prometheus (3)熟练部署安装grafana 2. 项目准备 2.1. 规划节点 主机名 主机IP 节点规划 prometheus-server 10.0.1.10 server prome…

光伏运维系统在光伏电站的应用

摘要:全球化经济社会的快速发展,加快了传统能源的消耗,导致能源日益短缺,与此同时还带来了严重的环境污染。因此,利用没有环境污染的太阳能进行光伏发电获得了社会的普遍关注。本文根据传统式光伏电站行业的发展背景及其监控系统的技术设备,给出了现代化光伏电站数据…

手机IP地址:固定还是动态?探寻背后的变化之谜

在数字化时代的今天,手机作为我们日常生活中必不可少的通讯工具,扮演着越来越重要的角色。其中,IP地址作为手机在网络世界中的“身份证”,对于手机的正常运作至关重要。然而,很多人对于手机IP地址的固定性存在疑问&…

电子合同怎么盖章的

数字证书盖章:利用个人或企业的数字证书进行盖章。数字证书作为数字身份证明,确保了电子签名和盖章的可信度。通过加密技术,确保合同内容不被篡改,盖章过程完成后,合同具有法律效力。 时间戳盖章:在电子合…

【AI绘画】Stable diffusion初级教程08——提示词(prompt)该如何写

今天是一篇干货,干的喝水的那种…… 写之前呢,先给大家打个比方:现在刚入门学习SD的相当于刚上学的小学生,提示词就相当于作文,还是英语作文,如果你总是抄抄抄,不知道作文的要点,语法…

实验10 协作图

一、实验目的 通过绘制活协作图,掌握协作图的基本原理。能对简单问题进行协作图的分析与绘制。 二、实验项目内容(实验题目) 考试成绩管理系统是举行成人高考、自学考试等成人高校对每个参与考试的学员成绩进行综合管理的一个系统。本系统的…