好房网

网站首页百科全书 >正文

柯洁vs阿尔法狗全部过程(阿尔法狗vs柯洁(阿尔法狗))

2022-06-21 12:19:39 百科全书来源:
导读1、阿尔法狗vs柯洁(阿尔法狗)2、大家好,关于阿尔法狗vs柯洁,很多人还不知道阿尔法狗。现在让我们来看看!3、阿尔法狗是什么意思?围棋...

1、阿尔法狗vs柯洁(阿尔法狗)

2、大家好,关于阿尔法狗vs柯洁,很多人还不知道阿尔法狗。现在让我们来看看!

3、阿尔法狗是什么意思?围棋实际上是一个围棋人工智能程序,由谷歌DeepMind的大卫西尔弗(David Silver)、艾皇嘉(Ai Huangjia)和达米丝哈萨比斯(Damis Hassabis)及其团队开发。这个程序用“价值网络”来计算形势,用“策略网络”来选择下一步行动。

4、“深度学习”是指多层人工神经网络和训练它的方法。一层神经网络以大量矩阵数作为输入,用非线性激活方法加权,然后生成另一个数据集作为输出。就像生物神经大脑的工作机制一样。通过适当数量的矩阵,将多层组织链接在一起,形成一个神经网络“大脑”,进行精确复杂的处理,就像人识别物体和标记图片一样。

5、虽然神经网络几十年前就存在了,但直到最近情况才变得清晰。这是因为他们需要大量的“训练”才能找到矩阵中的值。对于早期的研究人员来说,获得良好结果的最小训练量远远超过了计算能力和可以提供的数据量。然而,近年来,一些拥有海量资源的团队重新开始挖掘神经网络,即通过“大数据”技术进行高效训练。

6、两个大脑

7、AlphaGo就是通过两个不同的神经网络“大脑”的合作来提高下棋水平。这些大脑是多层神经网络,其结构与谷歌的图像搜索引擎识别的大脑相似。他们从多层启发式二维过滤器入手,处理围棋棋盘的定位,就像图像分类器网络处理图像一样。过滤后,13个完全连接的神经网络层对他们看到的做出判断。这些层可以被分类和逻辑推理。

8、这些网络通过反复训练来检查结果,然后校对调整参数,使接下来的执行更好。这个处理器有许多随机元件。我们无法确切知道网络是如何“思考”的,但更多的训练可以让它进化到更好。

9、第一大脑3360移动拾音器。

10、AlphaGo的第一个神经网络大脑是一个“监督学习的策略网络”,观察棋盘的布局,并试图找到最佳的下一步。事实上,它预测了每一个合法的下一步的最佳概率,所以第一个猜测是概率最高的一个。你可以理解为“迟到的考生”。

11、(移动选择器如何看到棋盘?数字表明最强的人类玩家可能会在哪里登陆。)

12、团队通过玩上百万的游戏来训练大脑,KGS(战斗平台)中最强的人类对手。这是AlphaGo最像人类的部分。目标是学习那些顶级玩家精彩的卡牌技巧。不是为了赢,而是像人类大师一样寻找下一步棋。AlphaGo国际象棋选择器可以正确匹配57%的人类大师。(不符合不代表错误,而是人类自己犯的错误。)

13、更强的前进选择器

14、AlphaGo系统实际上需要两个额外的位选择器大脑。一个是“加强学习的政策网络”,由百万附加模拟局完成。你可以称之为更强。与基础训练相比,它只教会网络模仿单个人类的动作。高级训练会把每一局模拟棋都玩到底,并教会网络下一局最有可能赢的棋。Sliver的团队通过更强的走法选择器总结出了一个百万级的训练棋类游戏,比他们之前的版本迭代性强很多。

15、光是用这个选位器就已经是强大的对手了,可以达到业余棋手的水平,或者堪比之前最强的围棋AI。这里的要点是这个下拉选择器不会“读取”。它只是检查单个棋盘的位置,然后提出从该位置分析的移动。它不会模拟任何未来的动作。这证明了简单深度神经网络学习的力量。

16、快速移动选择器

17、当然,团队并没有就此止步。下面我会解释如何赋予AI阅读能力。要做到这一点,他们需要一个更快版本的晚期选择器大脑。版本越强,耗时越长。——一步好棋走得够快,但“阅读结构”需要检查成千上万种可能性后再做决定。

18、Silver团队设置了一个简单的选择器来制作“快速阅读rdqu”

19、第二个大脑:位置评估者

20、AlphaGo的第二个大脑是相对于后面的选择器来回答另一个问题。它不是猜测具体的下一步,而是在给定棋子位置的情况下,预测每个棋手赢棋的可能性。这个“形势评估者”就是文中提到的“价值网”,通过对全局的判断来辅助后选人。这个判断只是大概,但是对提高阅读速度很有帮助。通过对“好”和“坏”的潜在未来情况进行分类,AlphaGo可以决定是否通过特殊的变体进行深度阅读。如果情况评估者说这个特殊的变体不好,那么AI将跳过阅读这条线上的任何更多移动。

21、(态势评估员怎么看这个棋盘?深蓝色表示下一步有利赢棋的位置。)

22、局势评估员也是通过数百万次国际象棋比赛训练出来的。Silver团队通过复制两个AlphaGo的最强选择器,精心选择随机样本,创造了这些情况。在这里,AI drop selector在高效创建大规模数据集以训练情况评估器方面非常有价值。这种走法选择器让每个人模拟多种下法的可能性,从任意给定的棋盘局面中猜测双方大概的胜算概率。但是人类的棋局不够多,这种训练恐怕很难完成。

23、增加阅读量

24、以下是秋天的三个版本。

(蒙特卡洛树搜索算法)

如果拥有无限的计算能力,MCTS可以理论上去计算最佳落子通过探索每一局的可能步骤。但未来走法的搜索空间对于围棋来说太大了(大到比我们认知宇宙里的粒子还多),实际上AI没有办法探索每一个可能的变种。MCTS做法比其他AI有多好的原因是在识别有利的变种,这样可以跳过一些不利的。

Silver团队让AlphaGo装上MCTS系统的模块,这种框架让设计者去嵌入不同的功能去评估变种。最后马力全开的AlphaGo系统按如下方式使用了所有这些大脑。

1. 从当前的棋盘布局,选择哪些下一步的可能性。他们用基础的落子选择器大脑(他们尝试使用更强的版本,但事实上让AlphaGo更弱,因为这没有让MCTS提供更广阔的选择空间)。它集中在“明显最好”的落子而不是阅读很多,而不是再去选择也许对后来有利的下法。

2. 对于每一个可能的落子,评估质量有两种方式:要么用棋盘上局面评估器在落子后,要么运行更深入蒙特卡罗模拟器(滚动)去思考未来的落子,使用快速阅读的落子选择器去提高搜索速度。AlphaGo使用简单参数,“混合相关系数”,将每一个猜测取权重。最大马力的AlphaGo使用 50/50的混合比,使用局面评估器和模拟化滚动去做平衡判断。

随着他们使用插件的不同,AlphaGo的能力变化和上述步骤的模拟。仅使用独立大脑,AlphaGo跟最好的计算机围棋AI差不多强,但当使用这些综合手段,就可能到达职业人类选手水平。

(AlphaGo的能力变化与MCTS的插件是否使用有关。)

工程优化:分布式计算,网络计算机去提升MCTS速度,但这些都没有改变基础算法。这些算法部中分精确,部分近似。在特别情况下,AlphaGo通过更强的计算能力变的更强,但计算单元的提升率随着性能变强而减缓。

优势和劣势

我认为AlphaGo在小规模战术上会非常厉害。它知道通过很多位置和类型找到人类最好的下法,所以不会在给定小范围的战术条件下犯明显错误。

但是,AlphaGo有个弱点在全局判断上。它看到棋盘式通过5*5金字塔似的过滤,这样对于集成战术小块变成战略整体上带来麻烦,同样道理,图片分类神经网络往往对包含一个东西和另一个的搞不清。比如说围棋在角落上一个定式造成一个墙或者引征,这会剧烈改变另一个角上的位置估值。

就像其他的基于MCTS的AI, AlphaGo对于需要很深入阅读才能解决的大势判断上,还是麻烦重重的,比如说大龙生死劫。AlphaGo 对一些故意看起来正常的局也会失去判断,天元开盘或者少见的定式,因为很多训练是基于人类的棋局库。

我还是很期待看到AlphaGo和李世石9段的对决!我预测是:如果李使用定式,就像跟其他职业棋手的对决,他可能会输,但如果他让AlphaGo陷入到不熟悉情形下,他可能就赢。

38、本文讲解完毕,希望对大家有所帮助。

本文到此结束,希望对大家有所帮助。


版权说明:本文由用户上传,如有侵权请联系删除!


标签:

热点推荐
热评文章
随机文章