阿尔法 GO(AlphaGo)是怎么进行思考的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3396 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天看新闻消息：新阿尔法 GO 六十连胜横扫人类棋手

链接： http://www.thepaper.cn/newsDetail_forward_1593625

看了新闻，突然觉得人工智能很厉害啊！

但是我心中一直有个问题，冯诺依曼有个理论是：计算机应该按照程序顺序执行

但是从新闻上看来，阿尔法 GO 是能够像人类一样进行思考的。我想这也是人工智能的目的吧：让计算机能够像人类一样思考。

也就是说，从一定的意义上来讲：计算机思考的步骤实际上是由人类通过程序编写好的逻辑。这个观点和人工智能的目的是悖论。

一旦计算机能够独立思考，在理想状态下，计算机应该可以像人脑一样进行一些创造性的行为。就像是电影《终结者》那样。

不过我还是很好奇，阿尔法 GO 的程序逻辑是怎么实现的。有没有相关领域的大神科普一下。

阿尔法

计算机

人工智能

思考

13 条回复 2017-01-07 16:44:55 +08:00

benwwchen

2017 年 1 月 5 日 via iPhone

https://www.zhihu.com/question/41176911

allenlee7c9

2017 年 1 月 5 日 via Android

没有思考

easing

2017 年 1 月 5 日

思而不学则殆。我觉得 lz 还是不要在缺乏一些基础知识的情况下思考这些问题。或者你看看一楼里贴的链接后再做思考。

TKKONE

PRO

2017 年 1 月 5 日

也算是“思考”吧。。跟人类一样，考虑走哪一步胜率更大。。

Izual_Yang

2017 年 1 月 5 日

深度学习+蒙特卡洛吧
关键是围棋有一定复杂度，但又有明确的评判标准（死活，胜负），还有海量的输入数据（人类对局和 AI 左右互搏）可供学习，人工智能从这里开始突破也是很正常的。
层主的主要误解在于“和人类一样思考”，然后层主又瞬间脑补了“独立思考”乃至“创造性的行为”

onice

2017 年 1 月 5 日

@Izual_Yang 没有接触过这个领域，见笑了。

bearqq

2017 年 1 月 5 日

以下有一些是深度学习里的词，不懂可以忽略，感兴趣可以百度
围棋是监督学习，你提到“思考”，所以我想说说别的东西，无监督学习

DQN 是一个典型的无监督学习方法，能展示典型的“思考”的过程。
如果说一个函数对确定的输入（可能时间相关）有确定的输出，那么我们可以去逼近这个函数。 DQN 认为，如果我们给出当前的（游戏）状态变量，作为输入，加上“下一步的可选行动”选项，我们可以通过这个函数来预计游戏结束的分数。那么如果我们想要得更高的分数，我们就分别计算每个可选行动，对得出分数最高的那个行动进行实施不就可以了吗。

举个例子，愤怒的小鸟。如果我们把当前屏幕截图给模型（如上状态变量，即输入），我们可以让他跳跃或者不跳跃（下一步的可选行动），让机器自己去判断跳还是不跳。机器计算一下，跳的话最后得分可能是多少，不跳的话最后得分是多少，然后决定跳还是不跳。

那么思考过程呢，就是对那个“预计游戏结束的分数”的函数。计算机不断的用这个不完善的函数去尝试，每次结果的偏差用来修正这个函数，不断的去逼近真实的那个预估函数，不断的提高自己的预判能力，不断的提高自己的分数。逼近的过程是数学方法，有兴趣可以了解梯度下降，这是深度学习“思考”的本质。

然后你就看见电脑控制着那个鸟，一开始撞的满头包，后来能跳过几个桩了欣喜若狂，过了百万次（帧，预判次数）以后，他能顺利飞过所有的桩，根本停不下来。
就像教孩子一样。

源码在此 https://github.com/yenchenlin/DeepLearningFlappyBird ，需要 tensorflow
还有有土逼的视频

bearqq

2017 年 1 月 5 日

@bearqq 我想说的是 flappy bird 不是怒鸟，抱歉

yyfearth

2017 年 1 月 5 日

@bearqq 你不用 at 自己哈哈

bearqq

2017 年 1 月 5 日

@yyfearth 习惯-。-

blackjar

2017 年 1 月 5 日

了解一下 nn 再问问题没那么难吧？

srlp

2017 年 1 月 7 日 via iPhone

简单地说，是一种人工调节过初始值和算法的优化过的搜索。

并没有“思考”。

话说回来，谁能证明人类并不是这样的呢？

Khlieb

2017 年 1 月 7 日 via Android

3 年前， DeepMind 在自主增强学习算法上有了一个突破。这是“深度学习”领域，最接近 AI 的一个研究方向。
其中一个令人振奋的成果，就是不去由程序员编写传统的固定下棋算法。而是初始化一个空白的深度神经网络系统，然后让 AI 自我对弈，自己学会了下棋。之后通过无限自我对局，不断完善自身。

DeepMind 的论文引起了 Google 的关注，随即以超过 4 亿美金的价格收购了 DeepMind 。