lovesvidon的个人博客分享 http://blog.sciencenet.cn/u/lovesvidon

博文

按标题搜索
【ML系列】简单的二元分类——Logistic回归
2018-9-14 21:26
对于了解机器学习中二元分类问题的来源与分析,我认为王树义老师这篇文章讲的非常好,通俗且易懂: http://blog.sciencenet.cn/blog-377709-1121098.html 但王树义老师的这篇文章并未详细的展开说明二元分类的具体实现方法,只是在宏观上的一个概述。在阅读这篇文章后,我便心生实现一个简单的二元分类并把前后过程 ...
8497 次阅读|没有评论
【RL系列】强化学习基础知识汇总
热度 1 2018-8-18 20:07
本篇主要是对这段时间以来我在科学网上发的一些强化学习相关的文章进行一个大汇总。作为对强化学习Tabular方法的一个简单指导性的目录,本篇也会提供之前讨论过的强化学习中的经典问题实现的代码与相关的图表分析的源文件。 K-level 相关文章: 【RL系列】Multi-Armed Bandit问题笔记 【RL系列 ...
4928 次阅读|1 个评论 热度 1
【RL系列】Monte Carlo与TD算法的结合,n-step TD算法
2018-8-11 11:02
强化学习中的Model-free问题主要的解决思路来源于统计方法。所谓统计方法又可分为Monte Carlo与TD算法。当学习任务可转化为episode task形式时,Monte Carlo与TD算法在实现上的不同主要体现在如何更新状态动作值函数。n-step TD算法则是由两种不同的值函数更新形式相结合所产生的,所以想要理解n-step TD算法,对Monte Car ...
6138 次阅读|没有评论
【RL系列】Q-Learning与SARSA算法的比较
2018-8-6 13:13
Q-Learning是TD算法下Off-policy的表现形式,但Q-Learning算法并不需要通过Importance Sampling去估计动作值函数,可以从理论上证明,在Target Policy为greedy的情况下使用Importance Sampling去估计当前动作状态的Q函数与直接使用下一状态的Q函数的最大值做TD运算从而更新当前状态的Q值,这两种方法是完全等价的。 ...
11609 次阅读|没有评论
【RL系列】SARSA算法的基本结构
2018-8-3 23:15
SARSA算法严格上来说,是TD(0)关于状态动作函数估计的on-policy形式,所以其基本架构与TD的$v_{\pi}$估计算法(on-policy)并无太大区别,所以这里就不再单独阐述之。 强化学习中的统计方法(包括Monte Carlo,TD)在实现episode task时,无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局 ...
4983 次阅读|没有评论
【RL系列】强化学习之On-Policy与Off-Policy
2018-7-27 19:37
Off-Policy与On-Policy概述 强化学习大致上可分为两类,一类是Model-Based Learning (Markov Decision),另一类是与之相对的Model Free Learning。 分为这两类是站在问题描述的角度上考虑的。同样在解决方案上存在着两种方法对应着这两类问题描述,即Dynamic Programming(DP)和Stochastic Method,其中DP方法可以 ...
13900 次阅读|没有评论
【RL系列】从蒙特卡罗方法正式引入强化学习
2018-7-23 23:23
蒙特卡罗方法给我的感觉是和Reinforcement Learning: An Introduction的第二章中Bandit问题的解法比较相似,两者皆是通过大量的实验然后估计每个状态动作的平均收益。不过两者的区别也是显而易见,Bandit问题比较简单,状态1-动作1-状态1,这个状态转移过程始终是自我更新的过程,而且是一一对应的关系。蒙特卡罗方 ...
4442 次阅读|没有评论
【RL系列】蒙特卡罗方法——Soap Bubble
2018-7-21 13:58
“肥皂泡”问题来源于Reinforcement Learning: An Introduction(2017). Exercise 5.2,大致的描述如下: 用一个铁丝首尾相连组成闭合曲线,浸入肥皂泡液,拿起后,可以发现肥皂泡液以这个闭合曲线为边界形成了一个曲面。如何将这个曲面描述出来,便是肥皂泡问题的核心。 若想使得肥皂泡液形成一个稳固的曲面, ...
4767 次阅读|没有评论

本页有 2 篇博文因作者的隐私设置或未通过审核而隐藏

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 01:57

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部