最佳体验请使用Chrome67及以上版本、火狐、Edge、Safari浏览器 ×

创建银行
创建开票

    小朋友都能懂的人工智能⓷ -惊世骇俗的阿“狗”故事

    编者:全 然@勾股弦数据 阅读91 来源: 微信公众号 2024/11/01 05:40:18 文章 外链 公开




    「07 牛刀小试,碾压人类棋手」

    L:2016年1月Google旗下的人工智能实验室DeepMind团队在国际学术期刊《自然》杂志上发表封面文章,介绍AlphaGo在分先的情况下以5:0 完胜欧洲冠军、职业围棋二段樊麾。这是职业围棋高手第一次被电脑围棋程序击败,消息瞬间引爆围棋界。

    A爸:Google牛啊,居然以《自然》封面的方式来对外宣布消息。

    L:是的,不得不佩服谷歌的霸气。因为该版本AlphaGo和樊麾对弈,所以称之为AlphaGo Fan。

    C妈:为啥2015年的比赛结果在2016年公布呢?

    L:好问题!一会儿你会明白的。我们接着往下说,AlphaGo打败职业棋手固然令人震惊,但樊麾毕竟还不是最顶尖的职业棋手。在五局棋谱公布于世后,一个普遍的观点是,AlphaGo也不过如此,他能赢只是因为还没碰到真正的高手。2016年3月,Google邀请了手握十四项世界冠军的世界围棋第一人韩国李世石九段,与AlphaGo进行五番棋较量,胜者100万美金。李世石当即答应,并给自己设定了目标,输一盘都算自己失败。

    A:哇,李世石这么自信啊。

    L:是的,结果大家也都知道了,李世石以1:4的成绩不敌AlphaGo,不过唯一的一胜却值得大书特书,李世石在第四局下出了实际不成立,却击中AlphaGo Bug的第78手,神之一挖,杀的AlphaGo方寸大乱,取得了畅快淋漓的一胜。可谁又能想到,这一胜,会成为人类棋手对围棋AI的最后一胜。

    A:李世石输的这么惨,之前还如此自信。

    L:当时棋界大多是看好李世石获胜的,不过Google内部其实早已知道李世石绝无获胜的可能。

    C:啊?

    L:短短几个月,击败樊麾的AlphaGo Fan已经迭代出更强大的版本了,我们把这个版本称之为AlphaGo Lee。Google内部评估AlphaGo Fan战力为2900分,而即将与李世石对战的这个AlphaGo Lee,战力则高达惊人的3700分!工程师们认为,这两个版本实力的悬殊程度远超李世石与樊麾之间的差距,李世石再怎么顶尖,也不会有任何机会。

    C妈:我明白为啥2015年的比赛结果到2016年才公布,Google套路深啊。

    L:是的,Google没有对外说明其实力的进步,让外界对李世石获胜寄予厚望,套路确实深。此次决战万众瞩目,总观战人数过亿,堪称围棋史上的奇迹,结局更是轰动全世界,AlphaGo的一战成名,让Google成为了最大的赢家,市值连续大涨。

    C妈:Google不仅技术好,还善于运作啊。

    L:是的,Google的运作能力远超你的想象。2017年初,AlphaGo化身"Master"的网络身份对战多位顶尖围棋职业选手,并取得了惊人的60连胜!在一片猜测中,Master宣布自己就是AlphaGo,我们把这个版本称之为AlphaGo Master。

    此时,等级分超过李世石的当前世界第一人柯洁坐不住了,由于尚未与AlphaGo交手,柯洁宣称AlphaGo虽然赢得了李世石,却赢不了他。这引发了AlphaGo与柯洁的三番棋对决,2017年5月,一场毫无悬念的比赛开始了,AlphaGo Master以3:0的成绩轻松拿下柯洁。比赛结束,柯洁泪洒赛场。至此,Google用行动来告诉全世界,讨论围棋AI与人类棋手实力孰高孰低的问题,是毫无意义的。

    A:这个AlphaGo Master比起之前的AlphaGo lee实力如何。

    L:Google内部对两个版本进行PK,,AlphaGo Master轻松碾压AlphaGo Lee。

    A爸:不断进步,真是让人佩服啊!至此,“狗”故事告一段落了吧。

    L:A爸,别急,精彩还在延续哦。AlphaGo碾压人类棋手只是牛刀小试而已,不过接下来,它可要放大招了。

    A爸:什么,要放大招,难道碾压人类顶尖棋手都还不算大招?

    L:是的。



    「08  抛弃束缚,能力全面飙升」

    L:2017年10月,Google推出了AlphaGo Zero,该版本仅依靠自我对弈,无需任何人类棋谱,从零开始自学围棋,仅经过3天的训练....你们猜发生了什么?

    众人摇头。

    L:仅训练3天的AlphaGo Zero,便以100:0 击败了AlphaGo Lee。

    A:3天?100比0?是那个击败李世石的AlphaGo Lee吗?

    L:是的。

    A:我的天啦!

    A爸:L老师,您说AlphaGo Zero依靠自我对弈,无需任何人类棋谱,那就是说AlphaGo Lee和AlphaGo Master有依靠人类棋谱,是吗?

    L:是的,AlphaGo Lee主要是依赖人类棋谱进行训练的,研发团队为其输入了3000万张人类高手的棋谱进行训练;而AlphaGo Master虽然在前期的训练中也使用人类棋谱,但后期更多的是依赖自我对弈强化学习来提升水平的,对人类棋谱的依赖较小;而AlphaGo Zero则是完全摆脱了人类棋谱的依赖。

    A爸:我算是看明白了,哪个版本对人类棋谱的依赖性越强,哪个版本的实力就越弱。这么说,AlphaGo的进步是被人类给耽搁了啊。

    众人大笑。

    L:是的,A爸说得有道理。咱们接着往下,又有大招了。

    众人瞪大了眼睛。

    L:受到AlphaGo Zero成功的鼓舞和启发,Google推出了AlphaZero,大家观察一下,这个名字有什么特别之处吗?

    C:没有了Go。

    L:是的,小C观察得很仔细。这个版本厉害了,Go就是围棋的意思,没有了Go ,就表示不只是围棋。AlphaZero可以同时支持围棋、国际象棋、将棋等多个棋类游戏,展现了此方法的广泛适用性和强大通用性。不仅如此,更为可怕的是其超强的能力。

    C:到底有多强呢?

    L:围棋能力自不用说了,在国际象棋中AlphaZero仅训练4小时就超越了世界冠军程序Stockfish;在日本将棋中,仅训练2小时就超越了世界冠军程序Elmo。AlphaZero再度惊艳全球,2018年12月7日,登上了当年Science杂志的封面。《科学》杂志评价称,通过单一算法就能够解决多个复杂问题,是创建通用的机器学习系统、解决实际问题的重要一步。

    C妈:妈呀,4小时,2小时,分别打败不同领域的最强者,难以想象!

    L:是难以想象,AlphaGo不仅抛弃了人类棋谱,还跨越了围棋本身,在消除人类知识的束缚后,变得越来越强!不过,接下来还有更让你们难以置信的事的发生,终!极!大!招!来!了!

    众人:啊......



    「09  无师自通,彻底放飞自我」

    L:2019年底,Google推出一个更具有颠覆性的版本,叫MuZero,这个版本最神奇的地方在于,MuZero根本不知道围棋的规则是什么?

    A爸:什么....我没听错吧,不知道围棋规则?

    L:是的,我简要说说围棋规则吧。1.地多者胜;2.气尽棋亡;3.禁止全局同型再现。对此,Muzero是不!知!道!的!

    A爸:....不知道?

    L:是的!当然了,围棋还有一些类似交替落子、棋子只能落在交叉点上、不允许悔棋等浅层规则,属于棋局环境预设,就不在讨论范围内了。

    众人:不可能,不知道规则,棋还怎么下呢?

    L:哦,这里要澄清一下,不知道规则并不是没有规则,规则是存在的,只是MuZero不知道,我们并没有教它。准确的说法是,MuZero在深度神经网络和蒙特卡洛树搜索运行的过程当中,没有使用到上述围棋规则。而AlphaGo家族四大成员中的另外三位,AlphaGo、AlphaGo Zero、AlphaZero在运行中是知道这些规则的。

    B:我还是不明白,不懂规则如何下棋?

    L:其实,MuZero要做的事情说起来也很简单,既然没人教我规则,那就自己观察,自己学呗。

    比如,在下棋的过程中,MuZero发现,哎呀,黑子放这里,怎么就把白子拿起来,慢慢就琢磨出了“气尽棋亡”;终局后MuZero在想,黑棋为什么就被判输啊,慢慢就明白了“地多者胜”;下着下着,哎呀,这子怎么就不能吃,奇了怪了,等一等怎么又可以吃了,哦,慢慢就悟出了“禁止全局同型再现”....然后,就可以开始碾压人类顶尖棋手了。

    A爸:从老老实实学习大量人类高手棋谱的AlphaGo,到放弃人类棋谱自己琢磨怎么下的AlphaGo Zero,再到不满足围棋而将国际象棋将棋一并拿下的AlphaZero,最后演化出连规则都不用告诉他的MuZero。我的天啦,这也太魔幻了吧!

    L:这里最逆天的当属MuZero,通过在没有明确规则指南的情况下实现自我学习和决策,MuZero开辟了人工智能应用于解决任意复杂环境问题的新途径,其影响力已远远超出了围棋领域,预示着未来人工智能技术在更多领域的广泛应用和深远影响。

    A爸:AlphaGo这是升华了啊!



    「10  阿狗远去,江湖英雄辈出」

    L:AlphaGo以碾压人类顶尖围棋高手的方式出道,可谓技惊四座。正当我们用出道即巅峰来形容AlphaGo时,不想AlphaGo居然用一套让人眼花缭乱的组合拳告诉大家。嗨,哥出来的那个位置,其实只是山脚哦。无论是具体知识、所处领域、还是领域规则,没有什么限制是不能突破的,AlphaGo已经开悟了,在推出MuZero后AlphaGo决定不再投入任何与围棋相关的研究与活动,而转战他处。至此,围棋江湖只留下了AlphaGo的传说。

    A爸:您讲述的AlphaGo系列让我大为震撼,我都不知道该用什么语言来表述我的心情。

    L:我也很受震撼。AlphaGo淡出围棋圈后,其公开的论文成为了围棋AI江湖的武学宝典,Leela Zero、KataGo、绝艺、星阵等围棋AI接过了AlphaGo手中的大旗,成为了围棋AI中耀眼的明星,并解决了AlphaGo留下的诸多不足,实实在在推进了围棋AI的发展,在提升人类棋手棋艺方面,做出了巨大的贡献。

    A:什么,大杀四方的AlphaGo,还会什么不足之处吗?

    L:是的。AlphaGo是基于深度学习网络(卷积神经网络)和蒙特卡洛树搜索结合的产物。其中深度学习网络主要是训练出来两个网络,分别是价值网络和策略网络。而这个价值网络在AlphaGo这里体现的是胜率,如果对价值的判断仅仅停留在胜率上,对人类棋手的学习和理解,是不够的。

    A:那还要增加什么吗?

    L:围棋的输赢取决于谁的地盘更大,所以目差对于人类棋手来说,是一种更直观的感觉。比如分析一手棋掉了15%胜率时你会觉得非常惶恐,但是当你知道这个15%对应的实际损失的目数才2目时,你又没那么紧张了。所以这些明星围棋AI大多都在判断胜率的同时增加了目差,这种改变让人类棋手大为受益。具体实现的原理,我后续也会进行相应的科普。

    A爸:这个改变好,太有用了!还有吗?

    L:围棋本质是比较谁的地盘越大谁赢。但是胜率最高的下法,是否就一定是对围地盘最好的下法呢?

    A:那肯定啊。

    L:那可不一定,围棋虽说是谁围得大谁赢,但是赢半目也是赢,赢100目也是赢,从赢棋的角度来说,这两者是没区别的。AlphaGo围棋的策略是胜率优先,所以它会在领先的时候不断的退让,在终局时稳稳的收住胜利的成果,往往不多不少就赢你那么一点点。比如他分先赢你一点点,让两子也赢了一点点,让三子依然只赢你一点点。你永远无法逼出让他使出全力的时候,我们也就永远无法从他那学到真正的棋艺。

    A:原来是这样啊,那AlphaGo之后的围棋AI做到了吗?

    L:是的,各围棋AI基本都做到了,其中典型代表就是星阵围棋,多次获得AI围棋世界大赛的冠军,号称不退让围棋,不走自己心中认定的最佳变化不罢休。要是能赢你100目,就绝不只赢你99目!所以星阵围棋的棋很激烈,观赏性很高,棋手也更容易从星阵中学到妙手,是完美主义者心中的最爱。

    此外KataGo围棋也很有趣,甚至允许通过一定的参数调整,让其下出类似“欺招”这类的过分手段,来考验人类的应对能力。

    A爸:真是脑洞大开,还有吗?

    L:有啊,比如可以通过仅和你下一盘棋,就可以评估出你的围棋实力,为你定级定段,准确度相当的高。还有许多实用的优化策略,这里就不一一赘述了。至此,“阿狗”简史告一段落。

    A爸:精彩,回味无穷啊!对了,上一讲您提到的阿尔法狗与卷积神经网络有密切关系,并提到正是由于棋盘上的计算量越来越少导致阿尔法狗的实力越来越强.....这些现在可以给我们解释解释吗?

    L:OK,这一回咱们讲完了“狗”故事,接下来,是时候对其运行原理进行科普了,不过时间不早了,咱们下回分解吧。


    声明:本网站部分内容来源于网络,版权归原权利人所有,其观点不代表本网站立场;本网站视频或图片制作权归当前商户及其作者,涉及未经授权的制作均须标记“样稿”。如内容侵犯了您相关权利,请及时通过邮箱service@ichub.com与我们联系。
     0  0

    微信扫一扫:分享

    微信里点“+”,扫一扫二维码

    便可将本文分享至朋友圈。

      
    
    
    分享
     0
      验证