Tech Blog

TSP问题从DP算法到深度学习2:欧氏空间数据集的DP解

本篇是TSP问题从DP算法到深度学习系列第二篇。 第一篇: 递归DP方法 AC AIZU TSP问题 第二篇: 二维空间TSP数据集及其DP解法 第三篇: 深度学习 Pointer

Sutton强化学习之用代码学习2:Grid World 策略迭代和值迭代

上一期 通过代码学Sutton强化学习1:Grid World OpenAI环境和策略评价算法 ,我们引入了 Grid World 问题,实现了对应的OpenAI Gym 环境,也分析

Leetcode 679 24 Game 的 Python 函数式实现

Leetcode 679 24 Game (Hard) 先来介绍一下24点游戏题目,大家一定都玩过,就是给定4个牌面数字,用加减乘除计算24点。 本篇会用两种偏函数式的 Python 3解法来AC 24 Ga

通过代码学Sutton强化学习1:Grid World OpenAI环境和策略评价算法

经典教材Reinforcement Learning: An Introduction 第二版由强化领域权威Richard S. Sutton 和 Andrew G. Barto 完成编写,内容深入浅出,非常适合初学者。在本篇中,引入

TSP问题从DP算法到深度学习1: 递归DP方法 AC AIZU TSP问题

旅行商问题(TSP) 是计算机算法中经典的NP hard 问题。 在本系列文章中,我们将首先使用动态规划 AC aizu中的TSP问题,然后再利用深度学习求大规

从蒙特卡罗模拟,数学递推到直觉模式来思考 Leetcode 1227 飞机座位分配概率

Leetcode 1227 是一道有意思的概率题,本篇将从多个角度来讨论这道题。题目如下 有 n 位乘客即将登机,飞机正好有 n 个座位。第一位乘客的票丢了,他随便选了一个座

组合游戏系列5: 井字棋、五子棋AlphaGo Zero 算法实战

上一篇我们从原理层面解析了AlphaGo Zero如何改进MCTS算法,通过不断自我对弈,最终实现从零棋力开始训练直至能够打败任何高手。在本篇

组合游戏系列4: AlphaGo Zero 强化学习算法原理深度分析

AlphaGo Zero是Deepmind 最后一代AI围棋算法,因为已经达到了棋类游戏AI的终极目的:给定任何游戏规则,AI从零出发只通过自我对弈的方式提

组合游戏系列3: 井字棋、五子棋的OpenAI Gym GUI环境

继上一篇完成了井字棋(N子棋)的minimax 最佳策略后,我们基于Pygame来创造一个图形游戏环境,可供人机和机器对弈,为后续模拟Alph

组合游戏系列2: 井字棋Leetcode系列题解和Minimax最佳策略实现

继上一篇介绍了Minimax 和Alpha Beta 剪枝算法之后,本篇选择了Leetcode中的井字棋游戏题目,积累相关代码后实现井字棋游戏并扩展到五