单智能体、多智能体强化学习基本概念及算法分类?为啥提出多智能体强化学习,现状? 张量网络算法基础(八、张量网络机器学习【上】) MapReduce 简介 Python爬虫入门教程 81-100 小众爬虫框架looter,框架作者竟然在官方手册开车 机器人二维导航教程汇总 mapper 使用示例 Redis的概念及关系型与非关系型数据库对比 MySQL必知必会:使用WHERE、正则表达式、通配符过滤数据 Solr的增量更新和全量更新对比 MYSQL数据库维护 MATLAB与Mysql数据库连接并数据交换(基于ODBC) 数据库:PostgreSQL:基础功能使用介绍 MYSQL 5.7 高级SQL语句(3)——数据库函数和存储过程 mysql导出数据到表格讲解大全(导出数据带表头,导出数据中文乱码问题解决) SpringBoot升级/指定jackson版本 JAVA - EnumMap与EnumSet简单总结 js获取主机mac等信息【亲测有效】-- 附执行结果&代码 [记录六] Vue(全家桶)+node+koa2+mysql+nginx+redis,博客全栈项目之node后台连接mysql和redis,登陆接口的编写 C# 读取XML配置文件 MongoDB数据库设置密码 Redis之重设密码及开启远程访问 本地Navicat连接阿里云MySQL数据库注意要点 PHP Windows系统实现定时任务的两种方式bat版 面试官让我手写promise,我这样写,他很满意 超级码力在线编程大赛初赛 第二场 UML类图的依赖和关联详解(含代码) 【C语言】新手实现简单的石头剪刀布人机对战 Codeforces Round #666 (Div. 2)题解ABC Codeforces Round #666 (Div. 2)E Monster Invaders 华为今年不会推出运行鸿蒙OS的手机;Deno 1.3.2发布|极客头条 异或在笔试题中的超神表现 超级码力在线编程大赛初赛 第2场 T1-T4题解 1397D. Stoned Game(博弈) Codeforces Round #666(Div.2)A~D题题解 高性能微服务架构技术选型 阿里饿了么Java4面:(数据结构+框架源码+JVM+分布式) 2020java面试总结 使用ffmpeg提取mp4内部日期重命名文件(需lua) 【剑指Offer】56.2 数组中只出现一次的数字,其他出现3次 JAVA二三事-使用IO+Properties实现动态读取文本信息 排序算法的C语言实现C代码(未更完) RT-Thread 内核学习--信号量的初步使用 【剑指Offer】57.2 和为S的连续正数序列 Qt三方库开发技术:QXlsx介绍、编译和使用 4G DTU模块的作用和功能说明 【Tips】- Wifi模块和4G无线通信 【5G核心网】 Identifiers 身份标识 DPDK支持的硬件:CPU、网卡NIC、加密引擎、基带加速器 如何根据普通ip地址获取当前地理位置 人工智能能力提升指导总结
您的位置:首页 >数据库 >

单智能体、多智能体强化学习基本概念及算法分类?为啥提出多智能体强化学习,现状?

自拍
如图所示,瞧这美美的发际线,是本人,错不了。本人,打酱油的栋栋拐,立个flag,坚持更随笔。在座的各位,Hello啊。

单智能体、多智能体强化学习基本概念

什么是单智能体强化学习?单智能体强化学习中基本算法分类?为啥提出多智能体强化学习?多智能体强化学习基本概念?多智能体强化学习基本现状?参考

什么是单智能体强化学习?

在这里插入图片描述

1、如图所示,单智能体强化学习的设置由两部分组成:一个智能体和环境。
2、模型描述:马尔可夫决策过程,即<状态集S、动作集A、奖励R、状态转移概率P、奖励衰减因子、探索率、策略>,最大的特性为下一时刻的状态和奖励,只与前一时刻的状态与动作有关,与更早之前的状态与行为无关,详细分析见基于马尔可夫过程的强化学习入门。
3、强化学习的原理:强化学习是让智能体以试错的方式来进行学习。智能体某个行为策略导致了好的奖赏,智能体产生这个行为策略的形式就会加强。智能体需要学习的就是:在一个环境中如何选择动作来获得最大奖励。其中,奖励值与智能体在环境中的任务息息相关。另外,智能体需要的主要学习任务是行为策略。其中,行为策略的学习目标是最优策略,也就是使用这样的策略,让智能体在特定环境中获得最大奖励值,从而实现任务目标。
4、强化学习的目标:在每个状态下发现最优策略来使期望的折扣奖励最大化。
5、强化学习可以解决的问题:可以描述为智能体在于环境交互过程中通过学习策略来达到回报最大化或实现特定目标的问题。目前,被广泛应用在各个领域。
6、所述的动作可以简单描述为:连续动作(赛车游戏中方向盘的角度,油门,刹车控制信息,通信中功率控制,可由policy gradient、DDPG、A3C、PPO算法做决策)和离散动作(围棋、贪吃蛇游戏,Alpha Go,可通过算法Q-Learning、DQN、A3C及PPO算法做决策)。

单智能体强化学习中基本算法分类?

强化学习中有很多算法来寻找最优策略。另外,算法有很多分类。
1、按照有无模型分:有模型(事先知道转移概率P,并且作为输入,算法为动态规划)、无模型(试错,事先不知道转移概率P,算法为:蒙特卡罗算法、Q-Learning、Sarsa、Policy Gradients);
2、基于策略(输出下一步所采取的各种动作的概率,根据概率来采取动作:Policy Gradients)和基于价值(输出所有动作的价值,根据最高价值来选动作,不适用于连续动作:Q-Learning,Sarsa等)(由于基于策略和价值的算法都各有优缺点,由此集合在一起就有了Actor-Critic算法,其中Actor可以基于概率做出动作,而Critic会对做出的动作做出动作的价值,这就在前述的policy gradients上加速了学习过程);
3、单步更新(游戏中每一步都在更新,可以边玩边学习:QLearning、Sarsa、升级版的policy
gradients)和回合更新(游戏开始后,等游戏结束,再总结所有转折点,在更新行为准则:基础版的policy gradients、Monte-carlo learning);
4、在线学习(必须我本人在场,边玩边学:一般只有一个策略,最常见的是e-贪婪,即SARSA算法)、离线学习(从过往的经验里,但是过往的经验没必要是自己的:一般有两个策略,常见的是e-贪婪来选择新的动作,另一个贪婪法更新价值函数,即,常见的Q-Learning)。
5、千万注意,一定要明确不同的强化学习算法的优缺点以便于求解不同类型的问题。比如:Q-Learning适合解决低纬度且离散动作及状态空间,DQN适合解决低纬度动作和高纬度状态空间、DDPG适合求解高纬度(连续)动作空间及状态空间。
6、详细分类,见后文附带的链接。

为啥提出多智能体强化学习?

*自然是传统的集中式单智能体强化学习某些场景下不适用奥。废话不多说,讲道理! *
在这里插入图片描述
1–传统的多智能体RL算法中,每个智能体走势在不断学习且改进其策略。由此,从每个智能体的角度来看,环境是不稳定的,不利于收敛。而传统的单智能体强化学习,需要稳定的环境
2–由于环境的不稳定,无法通过仅改变智能体本身的策略来适应动态不稳定的环境。
3–由于环境的不稳定,无法直接使用经验回放等DQN技巧。
4–因为大量智能体的交互会导致不可避免的反馈开销。更重要的是,生成的马尔可夫过程通常很难处理。用于MDP的数值求解技术遭受所谓的“维数诅咒”,这使它们在计算上不可行。
所以,多智能体强化学习被提出。

多智能体强化学习基本概念?

在这里插入图片描述
1-如图所示,多智能体系统中至少有两个智能体。另外,智能体之间存在着一定的关系,如合作关系,竞争关系,或者同时存在竞争与合作的关系。每个智能体最终所获得的回报不仅仅与自身的动作有关系,还跟对方的动作有关系。
2-多智能体强化学习的描述:马尔可夫博弈。也就是说,状态转换符合马尔可夫过程,关系符合博弈。可以表示为<N,S,A,Ri,T>,其中,N表示的是智能体的集合,S表示的是环境的状态空间、Ai表示的是智能体i的动作空间,A=A1A2…An表示为联合动作,R表示智能体i的奖励,T为状态转换函数。
3-一般来说,在马尔可夫博弈中,每个智能体的目标为找到最优策略来使它在任意状态下获得最大的长期累积奖励。

多智能体强化学习基本现状?

1-多智能体强化学习研究成果较少,并且多智能体强化学习没有系统的网络课程。另外,多智能体强化学习算法缺少系统的开源代码。再就是多智能体强化学习所涉及到的理论知识更多,如马尔科夫决策过程,博弈论等。
2-本人学习代码会参考Open AI提供的开源代码。强化学习对于代码能力要求好高,拐拐灰常菜,呜呜呜呜呜呜呜,再不学就失业啦。
3-UCL的汪军老师结合MFG与MARL,提出了MFMARL对于解决部分超密集问题有效。在这里有详细证明嗷。拐拐好笨丫。

参考

多智能体现状、基本定义
强化学习算法详细分类
在座的各位,未完待续啊。拐拐🐖愿大家开学愉快。Happy!!!
在这里插入图片描述

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。