强化学习实践(一):Tic-Tac-Toe


为了对强化学习的基本概念有一个直观的认识,《Reinforcement Learning: An Introduction》第一章给出了一个简单的例子:Tic-Tac-Toe游戏.

游戏规则

游戏的规则很简单, 两位玩家在 3x3 的棋盘上轮流下棋, 一位打 X, 另一位打 O, 若棋盘的任意一行、任意一列、正反对角线上有三个相同的棋, 则执该棋的玩家获胜. 若棋盘下满仍没有决出胜负, 则平局.