财新传媒
位置:博客 > 奴隶社会 > 褚达晨:阿尔法狗战胜李世石,剑气合一才是最高境界

褚达晨:阿尔法狗战胜李世石,剑气合一才是最高境界

题图:来自网络。

围棋软件已有二十多年历史,大致分为三代。第一代以陈志行老师的手谈软件为代表,单机X86 DOS环境,大致是教电脑背得定式手筋死活几万个,依葫芦画瓢。所谓熟读唐诗三百首,不会作诗也为吟,倘若遇见真把式,三拳两脚败下阵…… 厉害的能达到业余初段水平,水平就呵呵了……

21世纪开始,计算机的单机性能,分布式计算等能力大发展,围棋软件也升级进入第二代:蒙特卡罗派横空出世。大家熟知的打败卡斯帕罗夫的“深蓝”就是蒙派高手。和第一代比,蒙派就是会算棋了,它能用计算机的蛮力,算出所有变化,得到最优解。国际象棋棋盘小,电脑暴力计算得逞就能下赢人了。打个金庸小说的比方,蒙派高手像是剑宗,剑舞的比人快,如果比武规定的招式有限,人就打不过了。这一代的围棋软件以Zen,SuperGo为代表,能达到业余5段水平。为什么只能达到业余5段水平呢?他们对比“手谈”大局观好了很多,但围棋比国象招式复杂太多,蒙派高手的蛮力不足以找到真正的全局最优解,但是大方向比“抄作业的”第一代软件强了很多,如果遇到真正的人类职业高手,它傻乎乎的狂舞一阵剑,高手跑到你背后点个穴道,扑通一声,Zen啊,SuperGo啊,就倒了。

蒙特卡罗方法是一种计算方法。原理是通过大量随机样本,去了解一个系统,进而得到所要计算的值。

它非常强大和灵活,又相当简单易懂,很容易实现。对于许多问题来说,它往往是最简单的计算方法,有时甚至是唯一可行的方法。

它诞生于上个世纪40年代美国的"曼哈顿计划",名字来源于赌城蒙特卡罗,象征概率。

— 来自《蒙特卡罗方法入门》,作者阮一峰。

好了,第三代猪脚,AlphaGo来了,就是这一两年的事。背景是Google,Facebook这样的科技公司所掌握的计算机技术和能力,已经不是上一代IBM可以比的了。5年前开始大肆流行的互联网黑科技是从机器学习到深度学习,放在围棋软件上,就是可以开始练“气宗”的武功。什么叫气宗?就是用神经网络深度学习的武功,从任何棋局里,让计算机自己找到接近人类水准的N个下一手候选点,不用再无谓地漫天狂算而郁郁无果。Google旗下Deepmind的AlphaGo和FB田博士领导的Dark Forest就是这样两支科技奇兵。

听起来有点神奇,我拿我知道的互联网广告知识简单说说什么是机器学习和深度学习的区别。我在百度工作时正逢厂长大搞互联网广告技术,当时做凤巢和网盟两大在线广告赚钱机器的兄弟们搞广告机器学习,让机器把千千万万的网页和万万千千的广告客户之间最佳对应关系,在一毫秒之内,搞定!机器面对天文级的各种数据特征,开始也很无语,这时代表人类的广告老师傅PM同学们(或者广告策略RD同学们),指个方向,机器如能快速验证这个方向是正确的,就OK了。如果要机器自己找方向,那也挺费劲的…… 所以一时洛阳纸贵,做广告策略的同学们忽然变得很值钱…… 后来到了发展深度学习技术了(大名鼎鼎的DL研究所)。第一次听DL的人讲什么叫深度学习,什么叫N层网格,我也惊了:机器不再需要老师傅指路,它居然自己能发现人类老师傅的那个“金手指”,搞定最佳值!杠杠的黑科技啊。

绕了一大圈,AlphaGo在台湾业余围棋高手+计算机大拿黄博士(就是坐在李世石对面替狗摆棋的Aja Huang)等一群黑科技大牛的养育下,在“剑宗武功“(蒙特卡罗)的基础上,开始练“气宗武功”(深度学习),在漫天剑舞中,狗狗不忘凝神看大局,找到接近人类老师傅的几个最佳点,然后用剑宗武功一路猛算,落子。到了一定水平后,自己和自己下棋,也能不断涨棋了。剑气合一的武功难不难练?很难练,只有几个黑科技大本营能练出来,这里不展开说了……

所以在对抗李世石之前,AlphaGo已经剑气合一,每分每秒在自顾自的练神功。对它而言,没有棋型,没有感情,只有死活和胜负概率。它的棋风看起来像李昌镐,是因为李昌镐就是在人类剑宗大师曹薰铉的指导下(压力下)被迫练了“剑气合一”的武功,和狗狗有点殊途同归。

人机大战3:0的结局,如果拆开来看,是一个勇敢的个人和世界上最强大的公司之间做的一个科学实验。以人脑在2个小时的时间里和一个后端不知道有多少台数千个CPU+GPU的计算机机群的计算力对抗,结果并不出乎意料,我们既为科技的进步喝彩,也为围棋这一人类古老游戏的魅力而骄傲。


这是奴隶社会的第696篇原创文章,来自作者公众号“达晨随笔”。欢迎转发分享,未经作者授权,不欢迎其他公众号转载。

作者介绍:褚达晨,现任新浪集团战略副总裁。骨灰级围棋迷 + 实力干将,大学时代表中国科大参加比赛,当前有业余5段实力。出自中国科大00班的学霸,2004年斯坦福毕业,物理学博士和电子工程硕士。一诺麦肯锡前同事,在新浪之前历任百度商业分析部总监,百度联盟事业部总经理。

深度学习(英语:deep learning)是机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

深度学习是机器学习中表征学习方法的一类。一个观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更加容易地从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处之一是将用非监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征。

— 来自维基百科

推荐 2