lovesvidon的个人博客分享 http://blog.sciencenet.cn/u/lovesvidon

博文

按标题搜索
【RL系列】马尔可夫决策过程与动态编程笔记
2018-7-10 17:40
推荐阅读顺序: Reinforcement Learning: An Introduction (Drfit) 有限马尔可夫决策过程 动态编程笔记 Dynamic programming inPython 本篇 马尔可夫决策过程 马尔可夫决策(MDP)过程为强化学习(RL)提供了理论基础,而动态编程(DP)为马尔可夫决策过程提供了 ...
个人分类: 写着玩|3856 次阅读|没有评论
【RL系列】Multi-Armed Bandit笔记——Softmax选择策略
2018-7-5 22:48
本篇主要是对 Reinforcement Learning: An Introduction(2017) 中的2.8部分做一个简单的补充,重点就放在我是如何理解Softmax策略,以及从Softmax到Gradient中间的过程。Softmax与Gradient策略与epsilon-greedy,UCB策略一样都是强化学习中非常重要的动作选择策略。但Softmax和Gradient并非是毫不关联的,两种策略目的一 ...
个人分类: 写着玩|9674 次阅读|没有评论
【RL系列】Multi-Armed Bandit问题笔记——UCB策略实现
热度 1 2018-7-4 14:13
本篇主要是为了记录UCB策略在解决Multi-Armed Bandit问题时的实现方法,涉及理论部分较少,所以请先阅读 Reinforcement Learning: An Introduction (Drfit)的2.7。为了更深入一点了解UCB策略,可以随后阅读下面这篇文章: 【RL系列】Multi-Armed Bandit笔记补充(二)—— UCB策略 UCB策略 ...
个人分类: 写着玩|5678 次阅读|2 个评论 热度 1
【RL系列】Multi-Armed Bandit笔记补充(二)—— UCB策略
热度 1 2018-7-2 20:37
本篇的主题是对Upper Conference Bound(UCB)策略进行一个理论上的解释补充,主要探讨UCB方法的由来与相关公式的推导,这一部分书中并未给出详细的过程与分析。 UCB是一种动作选择策略,主要用来解决epsilon-greedy在选择时的低效率问题。对于解释UCB的使用机理上,我认为下面这篇文章写的还不错,深入浅出,只不过在公 ...
个人分类: 写着玩|7189 次阅读|1 个评论 热度 1
【RL系列】Multi-Armed Bandit问题笔记
2018-6-29 17:41
这是我学习Reinforcement Learning的一篇记录总结,参考了这本介绍RL比较经典的 Reinforcement Learning: An Introduction (Drfit) 。这本书的正文部分对理论的分析与解释做的非常详细,并且也给出了对结论详尽的解析,但是把问题的解决和实现都留到到了课后题,所以本篇文章主要侧重与对Multi-Armed Band ...
个人分类: 写着玩|5496 次阅读|没有评论
一个电磁学中常用的积分的计算
热度 1 2018-6-13 23:00
原式为: \iint_{x^2 + y^2R^2} \frac{1}{a}\hat{a}dS\\ 可以化简为: \int_{0}^{R} \int_{0}^{2\pi} \frac{L - rcos\theta}{L^{2} + r^{2} - 2Lrcos\theta} r drd\theta\ \hat{x}\\ 将式子分为两部分求解: \frac{1}{\frac{L}{r} + \frac{r}{L} - 2cos\t ...
个人分类: 写着玩|7077 次阅读|4 个评论 热度 1
木星掩食(木卫一食)与人类第一次成功的光速测量
2018-6-7 11:22
这篇文章我最初发在知乎上: https://zhuanlan.zhihu.com/p/37747330 其中的木星掩食的天文观测视频我就不发到这里来了,有兴趣的话可以去这个链接里看一看。 昨天在知乎上看到有人怀念CPhO。原话大意是CPhO有些近代物理相关的题目还是有些意思的,比如那道利用木星掩食计算光速的题目。于是我去检索了一下,这道题是第 ...
个人分类: 写着玩|7303 次阅读|没有评论
【Q-learning系列】从一个简单的寻路问题深入Q-learning
2018-5-28 23:39
问题描述 : 如图所示,宝藏在红色方块处,黑色方块为障碍物。在起点已确定的前提下,找到一条去往红色方块的最近路线(起点可以是图上任意一个方块)。 解决思路 : 最核心的思想来源于我的上一篇文章 【Q-learning系列】解决“房间问题”的一个通用方法 ,如果可以的话,最好先了解一下。下面 ...
个人分类: 写着玩|12063 次阅读|没有评论
【Q-learning系列】解决“房间问题”的一个通用方法
2018-5-23 21:18
在阅读本文之前,请先对强化学习,Q-learning以及房间问题有一个初步的了解。可以参考下面这两个链接: Q-learning Step by Step Tutorial Q-learning算法分析与代码实现 “房间问题”简单来说就是终点确定的最短路径寻找问题,但是个单目标优化问题,也就是说仅仅只需要考虑路程最短,不需要考虑其它成 ...
个人分类: 写着玩|5806 次阅读|没有评论
【补充】Chrome内置工具抓包分析
2018-4-3 14:57
这里不详细介绍怎么使用Chrome内置开发工具进行抓包分析,只是对之前的一篇博文中的关于抓包获取url的过程经行一个补充说明,所以在看这篇文章之前,确保你已经读过下面这篇文章: 【python爬虫】抓取B站视频数据及相关信息(二) 在之前关于python爬虫的第二篇文章中,我提到了用来解析的json数据的来源是抓包 ...
个人分类: 写着玩|5332 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 01:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部