[置顶]  

LeetCode Algorithms' Solutions


Talk is cheap, show me the code!
Linus Torvalds

  • 如果题解中有谬误或疑问的地方,欢迎大家留言交流!

查看更多

分享到 评论

【论文笔记】迁移自适应学习综述


论文题目:《Transfer Adaptation Learning: A Decade Survey》

论文作者:Lei Zhang

论文链接http://cn.arxiv.org/pdf/1903.04687.pdf

查看更多

分享到 评论

强化学习实践(二):Gridworld


《Reinforcement Learning: An Introduction》在第三章中给出了一个简单的例子:Gridworld, 以帮助我们理解finite MDPs, 同时也求解了该问题的贝尔曼期望方程贝尔曼最优方程. 本文简要说明如何进行编程求解.

查看更多

分享到 评论

强化学习实践(一):Tic-Tac-Toe


为了对强化学习的基本概念有一个直观的认识,《Reinforcement Learning: An Introduction》第一章给出了一个简单的例子:Tic-Tac-Toe游戏.

游戏规则

游戏的规则很简单, 两位玩家在 3x3 的棋盘上轮流下棋, 一位打 X, 另一位打 O, 若棋盘的任意一行、任意一列、正反对角线上有三个相同的棋, 则执该棋的玩家获胜. 若棋盘下满仍没有决出胜负, 则平局.

查看更多

分享到 评论

强化学习(三):动态规划


在上一篇文章 强化学习(二):马尔可夫决策过程 中, 我们介绍用来对强化学习问题进行建模的马尔可夫决策过程(Markov Decision Processes, MDPs).

由于MDPs的贝尔曼最优方程没有封闭解, 因此一般采用迭代的方法对其进行求解.

本文将介绍使用动态规划(Dynamic Programming)算法来求解MDPs.

查看更多

分享到 评论

强化学习(二):马尔可夫决策过程


在上一篇文章 强化学习(一):强化学习简介 中, 我们介绍了强化学习的一些基本概念.

本文将介绍用来对强化学习问题进行建模的马尔可夫决策过程(Markov Decision Processes, MDPs).

查看更多

分享到 评论

强化学习(一):强化学习简介


本文主要介绍强化学习中的一些基本概念.

查看更多

分享到 评论

【论文笔记】深度人脸识别综述


论文题目:《Deep Face Recognition: A Survey》

论文作者:Mei Wang, Weihong Deng

论文链接http://cn.arxiv.org/pdf/1804.06655.pdf

查看更多

分享到 评论