大家都是打多少手工盲注教程的 一天买入大概多少手

您的当前位置: > 正文
天天德州盲注大小的问题解析
来源:作者:咕咚
天天德州盲注大小的问题解析,在游戏里面基本的规则大家应该是知道的,就是会有手牌,我们会跟注或者弃牌,或者全押,这些的小编咕咚就不多做介绍了。这里给大家介绍的是大小盲注的作用,那么我们首先科普一下盲注是什么,在每一局开始时,台面上必须有&盲注&。即在得到牌之前下注。这是为了保证每个获胜的牌面都能赢得一些钱。紧挨着 & 庄家 & 按钮 左侧的玩家下一个 & 小盲注 & ,一般等于最小注的一半,下 & 小盲注&。
大盲注是强制下一个盲注,小盲注是强制下半个盲注。翻牌前开牌的原则是所有玩家的下注数量一样。如果你是大盲,有人加注你要跟注和他一样的筹码量才能看牌,有人跟注你只需要过牌就能看牌。小盲注的话,你需要和前面的玩家下一样的筹码,然后等大盲注行动后才能看牌。&p&少年别担心,会有工作的。&/p&&p&汽车出现后,几乎所有人都在嘲笑它,样式难看吐着黑烟圈,跑的还没有马车快。当时的各种纸媒把汽车描述成恶魔,刊登渲染汽车爆炸的漫画:开汽车的人被炸得血肉横飞、惨不忍睹,恫吓人们都不要乘坐汽车。&/p&&p&而这时你只要考个驾照or学会修车,基本上就已经甩开大部分人了。&/p&&p&Stay hungry, Stay foolish.&/p&
少年别担心,会有工作的。汽车出现后,几乎所有人都在嘲笑它,样式难看吐着黑烟圈,跑的还没有马车快。当时的各种纸媒把汽车描述成恶魔,刊登渲染汽车爆炸的漫画:开汽车的人被炸得血肉横飞、惨不忍睹,恫吓人们都不要乘坐汽车。而这时你只要考个驾照or学会…
&p&柯洁认为执白对抗阿尔法围棋赢面更大有如下几个因素。&/p&&p&其中最主要因素就是:现行中国规则,贴还3又3/4子,贴多了。&/p&&p&中国规则的特点决定了,针对黑棋先行进行的贴还数。贴还的增减只能以1个子为最小单位。贴还3又1/4子和2又3/4子没有区别。而日韩规则可以以1目为最小单位。&/p&&p&2002年,全球差不多同步进行了规则的变化,日韩规则从贴5目半改为了贴6目半,中国规则原来2又3/4子和5目半是几乎等价的,然而在日韩改为6目半之后,中国规则由于最小步长的关系,变成了3又3/4子,约等于7目半。&/p&&p&7目半情况下,职业棋手认为如何呢?大部分职业棋手都认为贴多了。在应氏规则的比赛中,由于猜先猜对方可以选择黑白,大部分职业棋手都会选择白棋。甚至不少棋手发出了拿黑棋已经不知道怎么下的感慨。&/p&&p&不仅是职业棋手,AlphaGo本身也认为白棋胜率高,每盘棋开局总是白棋胜率占优说明了这点。&/p&&p&第二个原因就是:柯洁的白棋胜率确实高。虽然贴7目半后职业棋手普遍喜欢白棋,但是像柯洁这样能够如此高胜率的还是少数。大部分人执白可能也就比执黑好一点而已。但是柯洁的白棋曾经下出过全年不败战绩(同年黑棋输了6盘以上)。这点可能和柯洁棋风非常灵活,善于针对对手有关。(与此相对的是武宫正树这类型的棋手,以主动构建自己的阵势为主,就比较适合黑棋)&/p&&p&第三个原因可能是:白棋有模仿棋的可能性,而黑棋没有。模仿棋这一大招柯洁并未在第二盘用出。但如果要用,也只有白棋用才有意义。因为如果是黑棋的话,AlphaGo只要不断降低天元一子的子效就可以了,而这是很简单的。但是要让天元一子发挥最大的子效,却是很难的课题。&/p&&p&至于可行的取胜之匙,显然没有任何人知道。从AI的原理看,可能还是要尽量搅乱局面吧。&/p&
柯洁认为执白对抗阿尔法围棋赢面更大有如下几个因素。其中最主要因素就是:现行中国规则,贴还3又3/4子,贴多了。中国规则的特点决定了,针对黑棋先行进行的贴还数。贴还的增减只能以1个子为最小单位。贴还3又1/4子和2又3/4子没有区别。而日韩规则可以以1目…
日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学(CMU)开发的人工智能系统Libratus战胜4位德州扑克顶级选手,获得最终胜利。&br&&br&&figure&&img src=&/v2-a0ef3b0bd_b.jpg& data-rawwidth=&3328& data-rawheight=&2044& class=&origin_image zh-lightbox-thumb& width=&3328& data-original=&/v2-a0ef3b0bd_r.jpg&&&/figure&四名扑克选手:Daniel McAulay (左一),Jimmy Chou(左二),Jason Les(右二)、Dong Kim(右一)。人工智能Libratus的项目主任(左三),工程师(右三)&br&&br&自从任从围棋之后,人工智能有新突破。围棋总共可能有10^171种可能性,而德州扑克也有高达10^160种可能性,远超当今电脑运算能力。&br&&br&另外,德州扑克不同于围棋,象棋之处在于,由于对方的“底牌信息”是隐藏信息,对于计算机来说,就是在处理一种“非完整信息博弈”,而围棋对弈双方的信息是完整的、对称的,并没有隐藏的信息。Libratus此次战胜顶级人类德州扑克选手,具有非常重要的意义。&br&&br&世界上众多领域的问题,如谈判,军事对抗,经济,互联网安全,都包含大量未知信息,解决德州扑克的人工智能技术会在众多领域得到应用。&br&&br&此次由4名世界顶级扑克职业玩家:Jason Les、Dong Kim、Daniel McAulay 和Jimmy Chou对战人工智能程序Libratus,赛程为20天,一共进行了12万手牌的比赛。最后人工智能以1766250分的优势战胜4位人类选手。&br&&br&&br&&b&比赛模式:&/b&&br&&br&比赛模式为1对1(head up)德州扑克,在20天内,4位人类玩家总共打12万手,每位玩家各自与人工智能进行3万手牌1对1德州扑克。平均每天打1500手牌,进行10小时比赛,每小时打150手1对1德州扑克。&br&&br&大盲注,小盲注分别为$100,$50,每手牌的筹码为200个大盲注。当一手牌结束后,双方筹码都重新设定为$20000分。这是为了减少上一手牌对下一手牌的影响,减低运气成分对比赛结果的影响。&br&&br&比赛模式类似以下网络扑克应用 &a href=&///?target=http%3A///nlbot& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Play Texas Holdem Against Strong Poker Ai Bots&i class=&icon-external&&&/i&&/a& , 这款扑克AI名称叫HibiscusB,能战胜中级水平的扑克玩家,但没有Libratus强大。&br&&br&应用界面如下,扑克迷可以到这个网站与AI对局,体验一下。&br&&br&&figure&&img src=&/v2-177660deea0a_b.jpg& data-rawwidth=&820& data-rawheight=&581& class=&origin_image zh-lightbox-thumb& width=&820& data-original=&/v2-177660deea0a_r.jpg&&&/figure&&br&&br&&b&比赛结果分析:&/b&&br&&br&&figure&&img src=&/v2-f75d6e1fd3cc92ff6024d_b.jpg& data-rawwidth=&1229& data-rawheight=&571& class=&origin_image zh-lightbox-thumb& width=&1229& data-original=&/v2-f75d6e1fd3cc92ff6024d_r.jpg&&&/figure&&br&4位扑克选手总共输给人工智能Libratus 1766250分,即17662.5个盲注(大盲注100分)。其中Dong Kim 的成绩最好,但也输掉了85649分,即856个盲注。成绩最差的Jason Les 输掉了8800个盲注。&br&&br&人类顶级的4位扑克玩家在12万手牌共输掉17662.5个盲注,平均每100手牌输14.7个盲注。以每小时打150手牌的速度,平均每小时要输掉22个盲注。&br&&br&这是什么概念,按当前中国大多数地下德州扑克的游戏,通常玩5/10元大小盲注,元一个买进(绝对违法)。与人工智能1对1打head up,每小时要输220元,平均一天要输掉2200元,20天要输掉4.4万元人民币。&br&&br&如果玩大的50/100元盲注,2万元一个买进,如1元等于比赛里的1分($),平均每天要输2.2万,20天要输掉44万元人民币。&br&&br&而且,那4位选手是世界排名前15的1对1的扑克玩家,对于多数休闲娱乐的德州扑克玩家,输牌的速率可要翻倍的,也就说打5/10元盲注,每小时会输上440元,打50/100元盲注,每小时会输上4400元,20天要输掉88万元人民币。&br&&br&如果有人会问,如果把这个人工智能程序拿来,然后连接到国外扑克网站Poker star,Full Tile上赢美刀多爽啊。德州扑克有10^160可能性,运行该程序所需的超级电脑。价格可能数百万美金不止,估计每小时消耗耗的电费都要比赢来的钱还多。&br&&br&&figure&&img src=&/v2-a1fddbe903b5_b.jpg& data-rawwidth=&620& data-rawheight=&372& class=&origin_image zh-lightbox-thumb& width=&620& data-original=&/v2-a1fddbe903b5_r.jpg&&&/figure&&br&&br&&b&德州扑克是赌博,还是技巧?&/b&&br&&br&德州扑克有运气成分,但比赛总共进行12万手牌,牌运的影响几乎微乎其微。打100-1000手牌,运气还是影响很大的;但打了12万手牌赢到17.66万个盲注,比赛结果的可信度高达99.77%。&br&&br&也就是说,每场比赛打12万手牌,人类与AI进行1000场比赛,AI将赢下998场,人类只能赢下2场。因此,人工智能Libratus 有着完全不可逆转的优势。&br&&br&也就是说,每场比赛打12万手牌,人类与AI进行1000场比赛,AI将赢下998场,人类只能赢下2场。因此,人工智能Libratus 有着完全不可逆转的优势。&br&&br&&figure&&img src=&/v2-0f3dcfcdc8c092ee2ad53e0bb4c0e4a7_b.png& data-rawwidth=&586& data-rawheight=&599& class=&origin_image zh-lightbox-thumb& width=&586& data-original=&/v2-0f3dcfcdc8c092ee2ad53e0bb4c0e4a7_r.png&&&/figure&即使同为顶级高手的4位扑克玩家,在对局人工智能的成绩中,他们的实力也分出高下。&br&&br&在与同样AI对局3万手牌后,四个玩家成绩分出档次,其中Dong Kim 输掉856个盲注,比Jason Les 输掉了8800个盲注的成绩好10倍。另外,两名玩家各自输了2776个盲注,5728个盲注。&br&&br&如果这四个人相互对局3万手牌,Dong Kim 与 Jason Les对局,那他也会赢到 = 7944个盲注,也许会有上下1000个盲注的波动。总之Dong Kim 的牌技优势还是高于Jason Les ,但要打上万手牌才能分出胜负。&br&&br&&br&&b&4位选手的实力:&/b&&br&&br&一直说这4位选手为世界顶级扑克玩家,可大多数扑克迷都没听说过他们。怎么没有 Phil Ivey, Daniel Negreanu,Tom dwan这些扑克明星呢?&br&&br&其实,大家每天在视频上看到的那些扑克界的明星都是5-6年前的对局了。当网络扑克兴起后,大量优秀的扑克玩家涌现。任何事情搬到到互联网上,发展速度都变得惊人。5年的扑克水平在网络上能赢到100万美金,5年后却只能输钱,所以原来的高手,并不是现在高手。如今让Daniel Negreanu 到 Poker Star 打1/2美元的游戏,他未必定能赢到钱。&br&&br&另外,这场人类与AI的对局要每天打8-10个小时,打上20天,奖金还不到20万美金。Tom dwan在澳门赌场里一手牌输掉1100万美金。所以他们不屑于为了这么点奖金,打这么漫长的比赛。&br&&br&在2005年以前,互联网扑没兴起时候,人们普遍在线下打扑克,一小时打上20手牌,要练成一个优秀的扑克选手至少要2-3年,而且还要有高手指点。大多数人打了7-8年扑克还是同样的臭水平,那时候高深的扑克知识也并不普及,多数扑克书籍都是垃圾。&br&&br&而2005年后有了互联网扑克,人们1个小时能打1000收牌,速率提高50倍,职业玩家1年能打上千万手牌。各种高深的扑克技巧在网上到处都能找到,于是互联网扑克水平变得越来越高,而且每年都在不断发展新的扑克技巧。&br&&br&以上那4位高手,在网络进行上千万手牌的对局,都是各大扑克网站1对1赢牌率最高,他们征服了忽略网就必然征服整个扑克界。&br&&br&而且,2人德州扑克是技巧性最强的对局模式。在多人对局德州扑克游戏,拿到强牌的概率高,没有牌的时候就可以扣掉,损失很少。而2人对局扑克,每次扣牌就丢掉1.5盲注,跟注时拿到强牌的机会很少。因此,2人德州扑克对局更多的bluff,发现并打击对手的弱点,依靠策略才能赢牌。&br&&br&当人工智能以巨大的优势战胜这4位高手,可以肯定世界上没人能打败人工智能Libratus。因为Libratus是根据纳茨博弈理论,经过Counterfactual Regret Minimization(反事实思维) 方法学习后,形成最完美的扑克打法。&br&&br&&br&&b&人工智能在扑克的应用:Counterfactual Regret Minimization&/b&&br&&br&反事实思维是个体对不真实的条件或可能性进行替换的一种思维过程。反事实思维(counterfactualthinking)是美国著名心理学家、诺贝尔经济学奖获得者Kahneman提出的。&br&&br&例如:生活中有一种心理现象,就是思维活动针对的不是已发生的事实,而是与事实相反的另一种可能性。人们迟到的时候,会寻思“如果早点动身就不会迟到了”;人们考砸的时候,会寻思“要是再加把劲这次考试就能及格了”。所谓反事实思维,就是与事实相反的假想。&br&&br&反事实思维是对过去已经发生过的事件,之后进行判断和决策后的一种心理模拟(mentalsimulation)。反事实思维通常是在头脑中对已经发生了的事件进行否定,然后表征原本可能发生但现实并未发生的心理活动。它在头脑中一般是以反事实条件句的形式出现。反事实条件句(counterfactualconditionals)也叫“虚拟蕴涵命题”,它具有“如果……,那么……”的形式。&br&&br&例如:“如果刚才没买那件衣服,现在就可以买这件了。”一个反事实思维包括两个部分:虚假的前提(“如果刚才没买那件衣服”)和虚假的结论(“现在就可以买这件了”)。&br&&br&其实,这也是人类学习扑克的一种模式,即试错模式。每次输了一手大牌后,最好想如果我当时不去加注,不去跟注,或者扣牌,就不会输了。每次对过去的行为感到后悔,然后总结经验,调整打法,看是否赢得更多的钱。或少输钱。&br&&br&当然,这是一种非常慢的自学方式,人类更多是从互联网学习别人已经总结好的正确打法。然后,在加以练习,比如每天打上4-5个小时,再花1-2个小时总结今天打扑克的错误和进步,一般6个月里在互联网上打300—500万手牌,通常能成为优秀的扑克玩家。&br&&br&扑克人工智能是通过Counterfactual Regret Minimization进行100万亿手牌的训练来形成一套完美的打法。&br&&br&当然这还远远不够,扑克的完美打法是根据不同的对手,在不同时间段,进行调整的。比如对抗攻击性极强的玩家,与打牌很紧的玩家的打法是不同的。&br&&br&例如: 一个打法疯狂的玩家100个大盲注全压,拿AJ,AQ,TT,99 以上的牌跟注就足够了,但如果一个打牌非常紧的玩家100个盲注全压,至少要AK,QQ以上的牌才能跟注。&br&&br&因此,人工智能还必须根据近期相关性的牌局,来调整自己的打牌的范围,进而适应不同对手,不同的打法。这就需要另一项技术应用recursive reasoning 来进行 Continuous Re-Solving。。。&br&这使得系统逐渐补救了战术中的漏洞,最终如桑德霍姆描述为“系统大举获胜,结果很显著”。&br&&br&  “比赛到一半的时候,我们真的以为要赢了,”其中一位专业玩家丹尼尔. 麦考利(Daniel McAulay)说。“我们真的有机会打败它。”&br&&br&  卡内基梅隆大学团队每晚用超级电脑来分析白天的比赛,提高系统性能。系统检测自身在每轮比赛中的弱点,每天补救三个最明显的失误,而不是试图学习对手的制胜战术。&br&&br&  这个方法最终使其出其不意用大赌注智胜它的对手,桑德霍姆称之为系统相对人类“心理承受能力”的优势。&br&&br&  相对其它玩扑克的程序,Libratus最主要的提高在于电脑在接近游戏最后时的玩法。先前的系统从头至尾使用单一战术,但是Libratus使用额外的反馈回路来实时回应对桌的人类。&br&&br&  “我们用了所有能想到的办法,它实在是太强大了,”另一位扑克玩家杰森.莱斯(Jason Les)说。“它每天的出现都让我们士气低落,最后输的这么惨。我以为我们最后的筹码会非常接近。”&br&&br&  桑德霍姆说,几乎可以肯定要单独成立一家新的创业公司,用Libratus背后的技术来开发商业用途。他已经研究了27年的谈判策略。他早先开发过的一款程序被2/3的美国器官移植中心使用来决定哪位病人可以得到新肾的移植。&br&&br&&b&太累啦!o (╯□╰)o&br&后面文章以后在翻译啦,如果这篇文章上知乎日报的话,可以考虑 ( ?? ??`)&/b&&br&&br&&br&如果大家对人工智能感觉太抽象,很难理解,可以看本人写过的一篇人工智能的应用介绍,简单易懂,初中生就能明白。Introduction to CMAC Neural Network with Examples&br&&a href=&///?target=http%3A//skyocean117.blogspot.co.nz/2013/12/introduction-to-cmac-neural-network.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&skyocean117.blogspot.co.nz&/span&&span class=&invisible&&/2013/12/introduction-to-cmac-neural-network.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&&br&下面是扑克人工智能Libratus的设计理论,项目主任的讲座视频,大家翻墙自己看去吧!&br&&a href=&///?target=https%3A///watch%3Fv%3DQgCxCeoW5JI& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://www.&/span&&span class=&visible&&/watch?&/span&&span class=&invisible&&v=QgCxCeoW5JI&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&figure&&img src=&/v2-3cdf7c5f23ee048d12dc40_b.png& data-rawwidth=&1916& data-rawheight=&1080& class=&origin_image zh-lightbox-thumb& width=&1916& data-original=&/v2-3cdf7c5f23ee048d12dc40_r.png&&&/figure&&br&&br&However, how the opponent’s actions reveal that information depends upon their knowledge of our private information and how our actions reveal it. This kind of recursive reasoning is why one cannot easily reason about game situations in isolation,&br&&br& which is at the heart of local search methods for perfect information games. Competitive AI approaches in imperfect information games typically reason about the entire game and produce a complete strategy prior to play (14, 15).2 Counterfactual regret minimization (CFR) (11, 14, 17) is one such technique that uses self-play to do recursive reasoning through adapting its strategy against itself over successive iterations. If the game is too large to be solved directly, the common solution is to solve a smaller, abstracted game. To play the original game, one translates situations and actions from the original game in to the abstract game.&br&&br&While this approach makes it feasible for programs to reason in a game like HUNL, it does so by squeezing HUNL’s 10160 situations into the order of 1014 abstract situations.&br&&br&&br&DeepStack takes a fundamentally different approach. It continues to use the recursive reasoning of CFR to handle information asymmetry. However, it does not compute and store a complete strategy prior to play and so has no need for explicit abstraction. Instead it considers each particular situation as it arises during play, but not in isolation. It avoids reasoning about the entire remainder of the game by substituting the computation beyond a certain depth with a fast approximate estimate. This estimate can be thought of as DeepStack’s intuition: a gut feeling of the value of holding any possible private cards in any possible poker situation. Finally, DeepStack’s intuition, much like human intuition, needs to be trained. We train it with deep learning using examples generated from random poker situations. We show that DeepStack is theoretically sound, produces substantially less exploitable strategies than abstraction-based techniques, and is the first program to beat professional poker players at HUNL with a remarkable average win rate of over 450 mbb/g.&br&&br&&b&Continuous Re-Solving&/b&&br&&br&Suppose we have a solution for the entire game, but then in some public state we forget this&br&strategy. Can we reconstruct a solution for the subtree without having to solve the entire game&br&again? We can, through the process of re-solving (17). We need to know both our range at&br&the public state and a vector of expected values achieved by the opponent under the previous&br&solution for each opponent hand. With these values, we can reconstruct a strategy for only the&br&remainder of the game, which does not increase our overall exploitability. Each value in the opponent’s&br&vector is a counterfactual value, a conditional “what-if” value that gives the expected&br&value if the opponent reaches the public state with a particular hand. The CFR algorithm also&br&uses counterfactual values, and if we use CFR as our solver, it is easy to compute the vector of&br&opponent counterfactual values at any public state.&br&Re-solving, though, begins with a solution strategy, whereas our goal is to avoid ever maintaining&br&a strategy for the entire game. We get around this by doing continuous re-solving:&br&reconstructing a strategy by re-solving every never using the strategy beyond&br&our next action. To be able to re-solve at any public state, we need only keep track of&br&our own range and a suitable vector of opponent counterfactual values. These values must be&br&an upper bound on the value the opponent can achieve with each hand in the current public&br&state, while being no larger than the value the opponent could achieve had they deviated from&br&reaching the public state.5&br&At the start of the game, our range is uniform and the opponent counterfactual values are&br&initialized to the value of holding each private hand at the start.6 When it is our turn to act &br&&br&&br&&b&纳茨均衡:&/b&&br&&br&Exploitability The main goal of DeepStack is to approximate Nash equilibrium play, i.e., minimize exploitability. While the exact exploitability of a HUNL poker strategy is intractable to compute, the recent local best-response technique (LBR) can provide a lower bound on a strategy’s exploitability (20) given full access to its action probabilities. LBR uses the action probabilities to compute the strategy’s range at any public state. Using this range it chooses its response action from a fixed set using the assumption that no more bets will be placed for the remainder of the game.
日,在宾夕法尼亚州匹兹堡的Rivers赌场,卡耐基梅隆大学(CMU)开发的人工智能系统Libratus战胜4位德州扑克顶级选手,获得最终胜利。 四名扑克选手:Daniel McAulay (左一),Jimmy Chou(左二),Jason Les(右二)、Dong Kim(右一)。人工智…
蒙特卡罗算法——大家听说过蒙特卡罗求π吧?就是画一个正方形和内切圆,随机撒点,数一下点落在园内和正方形内的数量之比,就是二者面积之比π/4。&br&所以蒙特卡罗就是求面积的方法。&br&而积分是曲线下的面积&br&所以蒙特卡罗就是求积分的方法&br&而均值就是概率密度与自变量乘积的积分&br&所以蒙特卡罗就是求均值的方法&br&而期望就是均值&br&所以蒙特卡罗就是求期望的方法&br&而最优值往往接近或就是期望&br&所以蒙特卡罗就是求最优值的方法
蒙特卡罗算法——大家听说过蒙特卡罗求π吧?就是画一个正方形和内切圆,随机撒点,数一下点落在园内和正方形内的数量之比,就是二者面积之比π/4。 所以蒙特卡罗就是求面积的方法。 而积分是曲线下的面积 所以蒙特卡罗就是求积分的方法 而均值就是概率密度…
&p&据说下到中盘的时候,黑狗计算胜率已经到了75%&/p&&p&然后古力下了一步,胜率爆跌到60%左右&/p&&p&然后古力又下了一步,黑狗投了&/p&&p&但是古力拒绝投降,然后黑狗开始乱下&/p&&p&场面一度十分尴尬&/p&&p&黑狗:宝宝有小情绪了&/p&&p&古力:我真是日了狗了&/p&
据说下到中盘的时候,黑狗计算胜率已经到了75%然后古力下了一步,胜率爆跌到60%左右然后古力又下了一步,黑狗投了但是古力拒绝投降,然后黑狗开始乱下场面一度十分尴尬黑狗:宝宝有小情绪了古力:我真是日了狗了
碳(人)硅(机)相揖别,&br&只几个 石头(棋子)围过,&br&小儿时节。&br&……
碳(人)硅(机)相揖别, 只几个 石头(棋子)围过, 小儿时节。 ……
&p&这是个老问题。现在比赛真的开始了,我也简单说说我的想法。&/p&&p&原文:&a href=&/p/?group_id=264320& class=&internal&&人机大战,个人期待+伪预测 - 知乎专栏&/a&&/p&&p&&b&(原文的发布时间是开赛前,不是马后炮啊233)&/b&&/p&&p&首先,我简单评论一下&a href=&///?target=https%3A///bleachery/30765/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&【新浪】人机大战柯洁专访-柯洁:曾经准备秘密武器 面对阿法狗奋战到死&i class=&icon-external&&&/i&&/a& 这篇新浪对柯洁的专访。这篇文章里柯洁的回答都非常好,和之前接受采访时忽高忽低的说话水平相比,进步很大。其中提到了模仿棋的事,柯洁是这样说的:&/p&&blockquote&问:当时因为住院最后一战没上场,还发微博说准备了秘密武器?
柯洁:当时准备对付AlphaGo的是模仿棋,因为没人用过。不过*古哥*肯定测试过,所以我认为模仿棋恐怕也没什么用,真正下的时候我也不一定会用,但网上可以试试。不过黑棋下模仿棋不太合适,天元一子发挥不了作用,属于白白浪费机会。&/blockquote&&p&之前我写过一篇模仿棋的分析&a href=&/p/& class=&internal&&模仿棋,对战AlphaGo的最后一招 - 知乎专栏&/a&。柯洁证实了之前准备对Master使用的“秘密武器”就是模仿棋。所谓“*古哥*肯定测试过”,也确有其事。就在上个月,纪录片《AlphaGo》首映式,我在现场询问DeepMind首席执行官哈萨比斯,AlphaGo能否对付模仿棋。哈萨比斯的回答是“It should be okay, but we will see.” 我的解读是,AlphaGo团队针对模仿棋曾做过针对性的测试,且没有出纰漏;不过,在没有上战场之前,哈萨比斯也不敢打包票。&/p&&p&即使如此,我还是期待柯洁能够下一盘(执白棋的)模仿棋。和AlphaGo下模仿棋,柯洁可以慢悠悠摇着纸扇,喝着龙井茶,笑看对手出招;否则,以对手的强大,柯洁难免要咬手指、揪头发。毕竟全国人民都看着呢,形象很重要。&/p&&br&&figure&&img src=&/v2-2c9fefe10d3c1df02fc940_b.jpg& data-rawwidth=&570& data-rawheight=&380& class=&origin_image zh-lightbox-thumb& width=&570& data-original=&/v2-2c9fefe10d3c1df02fc940_r.jpg&&&/figure&&br&&p&(配图来自新浪)&/p&&p&在之前模仿棋那篇文的评论区,有些人把模仿棋理解成耍赖。要知道,职业棋手在正式比赛中罕用模仿棋的原因,不是因为它不道德,而是因为模仿棋在技术上风险较大,容易被对手牵着鼻子走。然而,除非AlphaGo已经成精,她不会对模仿棋有什么针对性的策略,也就谈不上牵着柯洁鼻子走。相对地,模仿者的优势,在人机大战中被成倍放大:一是节约时间;二是能将局面拖入乱战或者后半盘收束,也就是AlphaGo相对不那么强的领域。小结一下,从胜负角度看,模仿棋是柯洁最好的策略之一;从测试AlphaGo的目的看,模仿棋能够检验AlphaGo是否已经成精,强大到无死角的地步。&/p&&p&除了模仿棋,柯洁可能还有其他秘密武器。我猜测“三三”是其中之一。“三三”开局,和布局阶段的直接“点三三”,在过去二十年里,极少出现在职业棋谱上。自吴清源、木谷实掀起“新布局革命”以来,星、小目、三三、目外的占角曾齐头并进数十年。近期的棋谱里,只见星、小目,不见目外、三三。在布局阶段的“点三三”,也被认为是送对手外势的损棋。然而,化名Master的AlphaGo变身“点三三”狂魔;不仅掏空对手的角地,还追着对手的外势攻击,极其凶残。&/p&&br&&figure&&img src=&/v2-37a3a89f15bd51daf1a29f_b.jpg& data-rawwidth=&550& data-rawheight=&676& class=&origin_image zh-lightbox-thumb& width=&550& data-original=&/v2-37a3a89f15bd51daf1a29f_r.jpg&&&/figure&&br&&p&(右下角带圈一子,就是Master “点三三”。“三三”是从棋盘两边数起各三条线的点。在对方先占“星位(四四)”的情况下,在“三三”落子,就是“点三三”,即右下角的棋型。)&/p&&p&Master之后,柯洁也开始大量使用点三三这一招。前不久的新奥杯半决赛,柯洁就下了点三三,击败李喆。不过,柯洁也曾在用到点三三的棋局里尝到败绩。除了点三三之外,柯洁还尝试了三三占角开局。这个尝试也很好理解:既然点三三是好棋,那么我就让你没有三三可以点。既然我占星位你点三三不吃亏,那么我先占三三,被你星位肩冲,我的内心毫无波动,甚至还可以脱先。此前与AlphaGo的对局中,人类很少用三三开局。说不定,三三开局就是柯洁的又一个秘密武器。&/p&&p&最后是个人向伪预测。&/p&&p&1. 比分(柯洁在前,AlphaGo在后)。&/p&&p&3:0或2:1,几率&1%; 1:2,几率 10-15%; 0:3,几率 85%-90%.&/p&&p&柯洁赢一盘就是伟大的胜利,足以载入史册。全败是正常结局。总比分获胜。。也许AlphaGo的机箱里真的藏着另一个柯洁呢?&/p&&p&2. 柯洁使用秘密武器的概率:&/p&&p&模仿棋: 40%;&b& 三三开局:30% (已经在第一局使用); 布局阶段点三三: 60% (已经在第一局使用)&/b&; 妖刀、雪崩定式飞刀: 15%.&/p&&p&3. 团战(五人组)胜率:2%。时间太短,至少要五小时基本用时才能发挥相谈棋的优势。五人组的配合可能也不如金龙城杯的三人组合。(&b&结果:中盘负&/b&)&/p&&p&4. 联棋:预测 古力+AlphaGo 中盘胜 连笑+AlphaGo。(结果,&i&连笑中盘胜&/i&)&/p&
这是个老问题。现在比赛真的开始了,我也简单说说我的想法。原文:(原文的发布时间是开赛前,不是马后炮啊233)首先,我简单评论一下 这篇新浪对…
人类一年大概只能下一千盘棋,一辈子顶多几万盘;而AlphaGo一天就能下一百万盘。这意味着:成功来自99%的勤奋刻苦+1%的灵感和运气。
人类一年大概只能下一千盘棋,一辈子顶多几万盘;而AlphaGo一天就能下一百万盘。这意味着:成功来自99%的勤奋刻苦+1%的灵感和运气。
正在仔细的摆,不过有一点可以肯定,最近职业棋坛的一些新手的出处现在明确了,是出自AG的自我对弈棋谱的。&br&摆完第一盘的第一感:AG太强大了,这是5秒一步的棋,但就是V18版本的5秒一步,其中蕴含的深刻的计算与判断,都是顶尖水准的。&br&第一盘至少说明五点:&br&1、AG不怕打劫,需要打劫才能争胜的情况下会毫不客气的跟你打劫。&br&2、哪怕是5秒一步,AG仍然能够在局部复杂战斗中看到几十步开外的深远变化(比如156手粘出),这个计算力是秒杀人类的,任何人类棋手在5秒一步的情况下也不可能有这种计算力。&br&3、AG也会保留变化(比如下边黑棋不做粘三路和白棋粘的交换,保留断的可能),需要保留则保留,不需要则交换掉(比如84手冲一下)&br&4、AG的全局判断能力简直逆天,在5秒一步的情况下依然能够准确判断各处价值,在不断的作战与转换中掌控全局。&br&5、根据AG的成长曲线,V20版本的AG可以轻松让人类顶尖高手两子取胜。&br&把第三盘也仔细摆了摆,在一分钟一步的时限里,AG已经可以做到行棋完全超出人类的思维之外,但过程与结果又是合理的,没啥说的,以后跟AG学围棋就好了。&br&1、在AG眼里,黑棋最佳开局是星小目挂一下再回到中国流,白棋最佳开局是二连星。向发明中国流的前辈致敬。&br&2、对付中国流,挂星位再直接点角是最优解,向邱峻九段致敬,印象中挂角再直接点角是他的研究成果。面对点角黑棋拐住是正解,扳下以后的复杂变化业余棋手可以舍弃了。&br&3、对付中国流小目那一边,进入的最佳手法是碰星位,这个绝对是超出人类想象的一手。&br&4、二子头被扳也不见得不能下,中盘作战一切都要看周围子力与全局配合。&br&5、136虎多送一个神来之笔,如果是人类在大赛中下出,必然是史上最佳妙手。AG能在一分钟一步的时限内算到这一手,计算力秒杀所有职业高手(对这一步的必然性,古力和周睿羊合力研究了几个小时才想明白,其谋划深远可见一斑)。&br&------------------------------分割线------------------&br&评论里有人质疑我对AG实力远胜人类的判断,质疑136是不是那么绝妙,这里统一回复一下:&br&1、AG不是围棋之神,甚至可以说AG离围棋之神还很远,但离围棋之神很远和吊打人类并不冲突。假设人类在围棋领域战斗力只有5,围棋之神是100,AG是30,完全符合棋神吊打AG,AG吊打人类的假设。所以拿AG的下法不是理论上的绝对正解来说事的,都高估了人类,就好像我只是不入流的业5,野狐8D的水平而已,但是吊打业1,野狐2D的选手没有问题,我的下法对于他来说都是神之一手,因为无论我下的是不是正解,他在实战中都惩罚不了我。靠局后摆变化的,叫复盘胜。&br&2、有人认为AG的算法不是基于逻辑的,所以还是有失误,所以无论AG怎么进化,人类还是有机会赢。这种说法首先一个大的误区就是认为人类的围棋是逻辑性的,事实是人类围棋思维绝大多数都不是逻辑性的,而是经验的提炼和总结。严格的逻辑是类似从数学公理体系推理出各个定理那样的,请支持人类围棋是逻辑体系的同学,用数学和逻辑学的方法论证人类围棋的各种下法的严格逻辑性,把围棋各种下法定理化、公式化。随便想想也知道这是不可能的。既然人类围棋不是逻辑严密的,那AG是不是逻辑性对于是不是可以完全碾压人类没有什么关系。&br&3、136计算的变化是不是远超人类。人类高手的实战计算范围大概是几百个变化图,合计几千步变化。但只要看了AG论文的同学都知道,这个计算量对于AG不值一提。AG现在已经可以做到计算复杂局面下未来70步左右的变化了。一个简单数学题:假设未来70步中,平均每三步棋产生一个分支,每个分支平均有两种选择,这70步棋一共有多少个变化?如果把AG对136这步棋所有的深度计算都以变化图呈现出来,这本书有多厚?&br&4、还有人认为我是双重标准,职业棋手认可的AG的下法就是AG棋高,职业棋手不认可或看不懂的是职业棋手水平差。这其实不是双重标准,而是实力有明显差距的必然结论,比如我看职业棋手的棋,不看讲解的话也能看明白一些招法的必然性,但更多的是我看不懂或觉得莫名其妙的。但是我知道这些棋大概率是我水平差看不懂,而不是职业高手下的臭。所以你如果接受AG远超过职业高手的水平,那对于我的结论就不会觉得奇怪,如果你还抱着人类高手不逊色,差距不大的意识,我不和你争论,我们静观事情的变化发展就好。友情提示ZEN在得了AG的真传后水平突飞猛进,现在已经可以快棋战胜顶级职业高手,完全复现了AG的学习成长曲线,而ZEN可是随时愿意出来下棋的商业软件。再过几个月如果出现ZEN可以吊打全人类难求一败这种事是很正常的,而AG这个时候可能也会出山,目标不是人类,而是虐杀ZEN证明自己的大哥地位。&br&5、今天浏览了一下其他答案,发现那个叫芈郁的又在这里大放厥词胡说八道,本来他的垃圾答案是没有任何讨论价值的,不过他还特意提到我,那我就不客气了。他帖子里那个图是AG自战对局第二盘中接近终局的一个场面,这个时候黑棋怎么下都不行了,已经是必败的局面。而我们都知道,必败局面下AG总会下一些莫名其妙的棋,类似于求投场,这是AG的算法决定的,并不是AG水平的真实体现。拿着这种棋说事,可见芈郁对于围棋,对于AG是多么无知。尤其可笑的是,这人一边摆出一副跟人讨论的架势,一边两句话说不过就拉黑,可惜你拉黑的再多,也不能给你的垃圾回答多带来一个赞和感谢的。
正在仔细的摆,不过有一点可以肯定,最近职业棋坛的一些新手的出处现在明确了,是出自AG的自我对弈棋谱的。 摆完第一盘的第一感:AG太强大了,这是5秒一步的棋,但就是V18版本的5秒一步,其中蕴含的深刻的计算与判断,都是顶尖水准的。 第一盘至少说明五点…
&p&首先,Don't Panic! &/p&&p&关于让三子,AlphaGo首席研究员David Silver下午通过邮件做了个声明。简单来说,就是&b&新版可以让旧版三子,不代表能和棋力与旧版差不多的人类棋手对弈时,也能让三子&/b&:&/p&&blockquote&新版本的AlphaGo, 已经过几百万次的自我训练,并在检测旧版本弱点方面表现出色。也因此,新版本的AlphaGo可以让旧的版本三个子。但当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在了,尤其是柯洁这样的围棋大师,他可能帮助我们发现Alphago未曾展露的新弱点。这样的衡量标准是无法比较的。对于本周的第二轮和第三轮对局,我们拭目以待。&br&&br&The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That's why it's about three stones stronger in head-to-head games against its older self. But that doesn't mean anything when it comes up against a human player with whom AlphaGo has never trained - particularly a great master like Ke Jie, who can uncover new weaknesses we don't know about. The scales just aren't comparable. We are excited for the second and third games this week!&/blockquote&&br&&p&&b&再说一下让三子是怎么实现的。&/b&&/p&&p&以下内容整理自哈萨比斯、席尔瓦今日上午的主题演讲,还有今日午间量子位对这两位DeepMind核心人物的专访。&/p&&p&DeepMind对新版AlphaGo的介绍,主要提到了三点:&/p&&figure&&img src=&/v2-eb6aff7abc4be9d6063e49_b.jpg& data-rawwidth=&600& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-eb6aff7abc4be9d6063e49_r.jpg&&&/figure&&ul&&li&运行于谷歌云,但只用一个TPU机器&/li&&li&自学成才,AlphaGo自我对弈提高棋力&/li&&li&拥有更强大的策略/价值网络&/li&&/ul&&p&让三子,靠的是通过自我对弈的不断训练,获得了更强大的策略/价值网络。&/p&&p&为了讲清楚新的策略/价值网络强在哪里,还是应该首先介绍一下AlphaGo的算法如何构成。席尔瓦介绍,量子位搬运如下。&/p&&p&当初DeepMind团队,之所以选择围棋方向进行研究,一个重要的原因在于围棋是构建和理解运算的最佳试验台,而且围棋的复杂性远超国际象棋,这让电脑无法通过深蓝一样的暴力穷举方式破解围棋的奥秘。&/p&&p&击败李世乭的AlphaGo,核心是一个卷积神经网络。DeepMind团队希望AlphaGo最终能够理解围棋,形成全局观。席尔瓦表示,AlphaGo Lee由12层神经网络构成,而AlphaGo Master有40层神经网络。&/p&&figure&&img src=&/v2-9fd3fed024b817e54c1cc62fd9b05ba0_b.jpg& data-rawwidth=&600& data-rawheight=&333& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-9fd3fed024b817e54c1cc62fd9b05ba0_r.jpg&&&/figure&&p&这些神经网络进一步细分为两个功能网络:&/p&&ul&&li&策略网络(policy network)&/li&&li&价值网络(value network)&/li&&/ul&&p&在这两个网络的训练中,使用了监督学习和强化学习两种方式。&/p&&p&首先基于人类的专家库数据,对策略网络的上百万参数进行调整。调整的目标,是让策略网络在相同的情况下,能够达到人类围棋高手的水平:下出同样的一步棋。&/p&&p&然后是强化学习,让人工智能进行自我博弈,这一训练结束后,就形成了价值网络,这被用于对未来的棋局输赢进行预测,在不同的下法中作出优劣判断。&/p&&figure&&img src=&/v2-a4ae12caee9ab3a79a67b_b.jpg& data-rawwidth=&600& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-a4ae12caee9ab3a79a67b_r.jpg&&&/figure&&p&通过策略网络,可以降低搜索的宽度,减少候选项,收缩复杂性。而且不会让AlphaGo下出疯狂不靠谱的步骤。&/p&&figure&&img src=&/v2-1a81fdfd7e_b.jpg& data-rawwidth=&600& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-1a81fdfd7e_r.jpg&&&/figure&&p&另一方面,通过价值网络减少深度,当AlphaGo计算到一定的深度,就会停止。AlphaGo不需要一直穷尽到最后。&/p&&p&把这个两个结合起来,就是AlphaGo的树搜索。通过策略网络选出几个可能的路径,然后对这些路径进行评估,最后把结果提交给树顶。这个过程重复几百上千次,最后AlphaGo得出赢棋概率最高的一步。&/p&&figure&&img src=&/v2-98eacc668bcbc95e74d13_b.jpg& data-rawwidth=&600& data-rawheight=&333& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-98eacc668bcbc95e74d13_r.jpg&&&/figure&&p&&b&那么新的策略/价值网络,到底强在哪里?&/b&&/p&&p&AlphaGo Master这次成了自己的老师,用席尔瓦的话说,这位围棋AI是自学成才。它从自我对弈的棋局里进行学习,积累了最好的训练数据。“上一代AlphaGo成为下一代的老师”席尔瓦形容道。&/p&&p&通过AlphaGo的自我博弈,不断吸取经验、提高棋力,这一次AlphaGo用自我对弈训练出的策略网络,可以做到不需要更多运算,直接给出下一步的决策。&/p&&p&这种改变明显减少了对计算力的需求。&/p&&figure&&img src=&/v2-82e283bd10c7cd7ab0409b_b.jpg& data-rawwidth=&600& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-82e283bd10c7cd7ab0409b_r.jpg&&&/figure&&p&另一个价值网络,也是基于AlphaGo的自我对弈进行训练,通过对弈后的复盘,价值网络能够学到哪一步是关键所在。通过高质量的自我对弈,训练价值网络预测哪一步更重要。&/p&&p&席尔瓦表示:“在任何一步,AlphaGo都会准确预测如何能赢”。&/p&&p&这个过程不断反复迭代,最终打造了一个更强大的AlphaGo。自我博弈,带来数据质量的提高,从而推动了AlphaGo的快速提升。&/p&&figure&&img src=&/v2-460a2fddd315d22ed75748_b.jpg& data-rawwidth=&600& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/v2-460a2fddd315d22ed75748_r.jpg&&&/figure&&p&&b&如果你认真读,会发现,新的策略/价值网络,不仅带来了棋力的提升,还减少了对计算力的需求。&/b&&/p&&p&DeepMind说,这次和柯洁对战的AlphaGo Master,运算量只有上一代AlphaGo Lee的十分之一。所以单个TPU机器足以支撑。&/p&&p&AlphaGo团队的黄士杰博士也在朋友圈表示,最新的AlphaGo可以被称为单机版。而上一代AlphaGo使用了分布式计算。&/p&&p&&b&在会后接受量子位采访时,席尔瓦证实此次AlphaGo仍然使用了第一代TPU,而不是前不久公布的第二代。&/b&&/p&&p&&b&另外席尔瓦澄清说:“今年升级版的AlphaGo是在单机上运行的,它的物理服务器上部署了4个TPU”。&/b&&/p&&p&如此前一样,DeepMind证实也会公布这一代AlphaGo的相关论文。我们一起慢慢等。&/p&&p&更多今天发布会的细节,欢迎查看量子位的文章:&a href=&/p/& class=&internal&&新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲) - 知乎专栏&/a&&/p&
首先,Don't Panic! 关于让三子,AlphaGo首席研究员David Silver下午通过邮件做了个声明。简单来说,就是新版可以让旧版三子,不代表能和棋力与旧版差不多的人类棋手对弈时,也能让三子:新版本的AlphaGo, 已经过几百万次的自我训练,并在检测旧版本弱点方…
阿法狗不是悍马2000!&br&阿法狗不是悍马2000!&br&阿法狗不是悍马2000!&br&&br&&br&&br&一帮没打过星际的就不要来秀下限了,你要知道谷歌那些人不傻的呀,如果真是毫无悬念的挑战他们不会搞的呀。各种提到ai操作无敌的,都是被悍马2000洗脑了,你们难道觉得谷歌的人工智能会花功夫写个脚本出来忽悠大家?那简直是丑闻了好吗。&br&&br&&br&所以操作层面我觉得正相反,如果是我来做这个ai,一定会想办法限制操作水平不能超过人类选手,比如韩宗6000分水平吧。还是前面的原因,靠操作碾压人类不需要一个ai工程师来做,吹操作的都是对AI的侮辱。除非有一天阿法狗做出实体用机械臂操作鼠标键盘来打。&br&&br&其次之所以阿法狗要在围棋之后挑战星际二,或者说挑战即时战略游戏,是有原因的,要不怎么不去再挑战个象棋啊。这种游戏在战略思维上和棋类无可比性,在信息不对等的前提下,首先如何获取信息就成问题。比如上手打一张新图,有经验的虫族大概知道房子停哪儿可以看到信息又不容易死,阿法狗会吗?&br&&br&其次看到的信息不一定是真的,我不会下围棋,不知道围棋有没有假动作之类的。但是星际太多了,我就想问问会长的镜花水月阿法狗怎么解?&br&&br&所以我预测在阿法狗充分训练之后,对阵喜欢纯运营靠基本功碾压的选手比如showtime,比如藤田刚,输本这种是有一定优势的,但也能打,四六最多七三开。对阵狗哥,老僧,dark这种玩智商的,阿法狗遭得重了就,一旦被打入未知领域都得死。&br&&br&还有一点我觉得需要纳入考量,就是学习效率。如果有一天阿法狗碾压了人类,我想知道他练了多少盘呢?如果是靠技术手段短时间练了一百万盘打赢了卫星有很大意义吗?我练一百万盘如果还是二十多岁我觉得我也能打赢卫星,我和阿法狗谁强呢?&br&&br&所以拭目以待吧。
阿法狗不是悍马2000! 阿法狗不是悍马2000! 阿法狗不是悍马2000! 一帮没打过星际的就不要来秀下限了,你要知道谷歌那些人不傻的呀,如果真是毫无悬念的挑战他们不会搞的呀。各种提到ai操作无敌的,都是被悍马2000洗脑了,你们难道觉得谷歌的人工智能会花…
&p&重要的事情放在开头说三遍:相谈棋不是联棋!相谈棋不是联棋!相谈棋不是联棋!&/p&&p&名词释义:联棋指每方2/3/4/5(再多就是仪式化的象征性对局了)人,按照严格的次序轮流落子,棋手们在与对手+队友的斗智斗勇中体会着拿衣服之乐的,这么一种对局形式。注意:正式的联棋比赛严禁交谈,落子次序错误要罚子。&/p&&p&相谈棋则是每方2/3/4/5(再多就吵得不可开交了)人,围在一起谈笑风生,下出来的棋啊,不知高到哪里去了,这么一种对局形式。注意:无论是一对多还是多对多,两拨对手通常都要隔离开,避免被听到互相间的讨论。&/p&&p&这两者之间有着本质上的区别,联棋形式严肃,但棋谱质量可能偏低(队友间思路不通互相掣肘);相谈棋形式宽松,但棋谱质量可能因意见不合而略低,也可能极高(想象一场允许学生们交头接耳的考试)。棋迷们会混淆情有可原,毕竟我们下棋是为了玩儿,联棋也是可以交流、提醒、使眼色甚至直接翻脸喷队友的嘛^_^&/p&&br&&p&下面开始正式答题:理论上可以,但实际结果极可能适得其反。&/p&&p&&b&相谈棋带来的实力提升一先起步,这是个普通棋迷很难接受的结论。&/b&&/p&&p&年轻一代就不说了(反正围棋从80后开始就没啥新鲜血液),老一辈棋迷几乎都有在热闹的棋馆、单位棋牌室、学校宿舍下棋的经历。这种环境下,观棋不语往往要让位于七嘴八舌,对于群殴大伙儿是不陌生的。但是臭棋篓子之间的互相支招,除了提醒你打吃记得接上,别着马腿呢不能跳,几乎都是副作用。所以棋迷往往很难想象,配合得当的高手合作有着怎样的威力。&/p&&p&以前电脑实力不行的时候,大家懒得较真(现在是较真也没用了),其实人类和电脑下棋天然自带无数debuff。人类比赛的时候真就只靠一个脑子,眼盯棋盘手执棋子,一切变化全是大脑中的虚像,随着计算的深入陷入混乱,或者算到后面忘了前面,再怎么训练有素也在所难免。所以“职业棋手能算多少多少步”才会成为值得探究的问题,而电脑显然没这个烦恼。更不提随着棋局进行产生的种种心理波动(这也是围棋之所以高逼格,敢挂靠宇宙人生的底气所在),随时间推移造成的体力衰减,都是人与电脑对抗时无法克服的劣势。&/p&&p&以上这些劣势,相谈棋如果不是避免,至少也是大大缓解。仅此带来的实力提升,绝对就有一先的价值。更不提集体讨论下的技术加成了。&/p&&p&由此我们还将得出一个推论,经常关注围棋话题的知友应该都能感受到,自阿法狗异军突起,嘲弄职业棋界“优越感”的声音时有耳闻。24日厂商自爆这条狗比去年的那条强三个子,顶尖职业是否该接受让子亦被摆上桌面。而事实上,&b&本次人机大战中国棋院同意下这么一盘相谈棋,还派出如此豪华的阵容,就是在用一种内敛而不失体面的方式放下被大伙儿心心念念的优越感,承认阿法狗确实有高人一等的实力。&/b&李昌镐当年那么牛,对一干大佬打出毁灭性胜率,中日也没动过“跟这厮不用讲什么江湖规矩,大家一起上”的念头,围棋史上公开决战中享受过群殴待遇的碳基生命,只有吴清源大神一人&/p&&br&&br&&p&但是理论距离实践,还差着无数个日日夜夜的训练。咱们受评书戏曲影响太深,热衷于主帅端坐账内,眉头一皱灵感泉涌然后一举翻盘的故事。无论战场还是球场,都指望着奇想天外的脑洞点石成金。殊不知台上一分钟台下十年功,神来之笔看似轻巧,背后不知经过了多少磨合。而这次人机大战上场的这套豪华阵容,差得就是这个。&/p&&p&我试着探寻相谈棋的历史,意外发现它的公开历史意外的短暂。与相谈棋形似神非的联棋,现今流传下来的最古老的棋谱,是收藏于元代著作的《玄玄棋经》,弈于923年前的《成都府四仙子图》,至于最早的记载和实际寿命请大家随意脑补,低于一千年算我输。而目前我能查到的最早的公开相谈棋对局,弈于83年前,伟大的濑越宪作&铃木为次郎VS他们更伟大的徒弟吴清源&木谷实。&/p&&figure&&img src=&/v2-1ceba7d87c7054dfa5412ebac75d7438_b.jpg& data-rawwidth=&960& data-rawheight=&1280& class=&origin_image zh-lightbox-thumb& width=&960& data-original=&/v2-1ceba7d87c7054dfa5412ebac75d7438_r.jpg&&&/figure&&p&从规则大神陈祖源老师那里讨来的一页珍贵资料,如你所见本图对弈场景非常奇特,两对师徒两张棋盘,但仔细甄别会发现下的是同一盘棋。本图应为摆拍,实际对局为双方各踞一室,记谱员来回传递。具体情况截图里都说的很清楚了(其实我根本看不懂上面写了啥,有看懂的麻烦私信告诉我,谢谢)&/p&&p&如此神似的联棋&相谈棋,竟然有如此巨大的时间差,&b&我猜测这证明了相谈棋是围棋职业化以后的产物(一家之言,见谅)。按理说茶馆棋社足以成为相谈棋的土壤,但直到日本人把围棋变成职业,棋手们才能真正体会联手制敌的威力。既然是职业化,想有所建树必然要经过训练和比赛的检验。然而棋手出于尊严,明知威力也不会将其摆上台面,相谈棋犹如一把隐身帷幕之后的妖刃,被棋界隐匿了太久。&/b&&/p&&br&&p&娱乐时间,插播一段“跟这邪魔外道不用讲什么江湖规矩,大家一起上”,又名棋神大战远古版阿法狗的故事。&/p&&p&1933年,日本的读卖新闻社借着给即将花甲的本因坊秀哉名人祝寿的机会,举办了一个云集当时日本最强手的比赛。最终19岁的吴清源脱颖而出,获得与近10年未出山的秀哉名人对弈的机会。本局开始于日,受先执黑的吴清源在棋盘上依次摆下三三·星·天元,轰动日本。本局每方限时24小时(双方实际均使用了22小时多一点),历经13次打挂(暂停,作为彼时上位者的权利供秀哉随意使用),弈至日,以吴清源2目告负结束。&/p&&p&今天我们作为见证着人工智能时代曙光的幸运儿,重温这段围棋迷耳熟能详的历史,你会发现秀哉名人和他的坊门弟子们,俨然就是一部称霸上世纪初的阿法狗。&/p&&p&&i&抽空去厕所时,无意中看见对局场的休息室里,秀哉名人的弟子黑压压地聚集了一群&/i&(分布式多线程)&i&,他们手中拿着许多张棋谱&/i&(快速走子)&i&,都是早已将收官直至终局的多种打法彻底研究透了的棋谱&/i&(估值网络)&/p&&p&by吴清源自传。&/p&&br&&p&命运真的很会开玩笑,去年第一次人机大战刚爆出日程,就有人表示小李并不是迎战阿法狗的最佳人选,这一观点正确与否暂不讨论,但至少今年这盘相谈棋,中国棋院的世界冠军们真的不是最佳人选,有实战为证的。&/p&&p&年,热情的广州人民两度举办世界团体赛(说起来今年末就该第三届了),这个比赛最大的亮点,在于预赛和淘汰赛阶段是普通的3V3,决赛(第2届从半决赛起)即是三名棋手围在一张棋盘前的相谈棋!两届决赛均为中韩对决,第1届陈耀烨/时越/周睿羊组合中盘不敌崔哲瀚/姜东润/朴廷桓,第2届柯洁/时越/周睿羊1/4子饮恨朴廷桓/金志锡/李东勋。(配图为第2届决赛,来源新浪体育)&/p&&figure&&img src=&/v2-f2af6d8cc0e7_b.jpg& data-rawwidth=&950& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&950& data-original=&/v2-f2af6d8cc0e7_r.jpg&&&/figure&&br&&figure&&img src=&/v2-6a2ce0a4da45858a59decd_b.jpg& data-rawwidth=&950& data-rawheight=&634& class=&origin_image zh-lightbox-thumb& width=&950& data-original=&/v2-6a2ce0a4da45858a59decd_r.jpg&&&/figure&&br&&p&&b&你看,这事儿明显韩国人更擅长╮(╯▽╰)╭&/b&&/p&&p&刚才插播的那段故事并不单纯只为了娱乐,还暗示着一种高效发挥相谈棋威力的模式:一名无可置疑的权威主控(秀哉)+一群优势时查缺补漏、劣势时大开脑洞的帮手(坊门弟子),或许还要再加上一群天天给吴寄刀片砸他们家玻璃的日本愤青。就算是理念超越时代的吴神也赢给你看。然而正如其他回答的哥们儿担心的那样,中国这些过于强大的个体,似乎很难照搬上述模式。那么如何发挥出最大的合力,尚属未知之数。五人团队实际运作时,谁去中单谁去钻野,谁辅助谁ADC,分工必须明确,更不必说我一再强调的训练、磨合。&/p&&br&&p&所以吧,相谈棋是一把理论上可行,但具体到本次人机大战又很难真的抱希望的利器。在我眼里相谈棋或许肩负着围棋的未来,我指的不仅仅是单纯的争胜负。有兴趣的知友请密切关注本局进程,跟踪众棋手们研讨实况,你会发现这种对局形式,与如今风靡的真人秀节目,有着奇妙的契合。&/p&
重要的事情放在开头说三遍:相谈棋不是联棋!相谈棋不是联棋!相谈棋不是联棋!名词释义:联棋指每方2/3/4/5(再多就是仪式化的象征性对局了)人,按照严格的次序轮流落子,棋手们在与对手+队友的斗智斗勇中体会着拿衣服之乐的,这么一种对局形式。注意:正…
&p&谢邀。Deepmind 透露将在赛后发表论文公布 AlphaGo 2.0(下面称为 Master)的细节,在此我结合目前公布的信息做一些预测。先看黄博士的朋友圈爆料:&/p&&figure&&img src=&/v2-6e6821e5bdba11d661cd19f9d5270800_b.png& data-rawwidth=&387& data-rawheight=&199& class=&content_image& width=&387&&&/figure&&p&1. 这是意想之中,&b&40 层当然会是残差网络&/b&。比较令人好奇的是是否是纯 CNN,还是会结合RNN/LSTM 处理某些情况(如打劫),因为之前看绝艺的视频截图好像有用到。&/p&&p&2. 比 v18 强了三子,确实符合 Master 今年初的表现:&/p&&figure&&img src=&/v2-f1c3a6cbfc7abda4ec0564_b.png& data-rawwidth=&393& data-rawheight=&222& class=&content_image& width=&393&&&/figure&&p&不过这里有个蛮有趣的事情,就是在上面看和李世石对弈的 v18 的评分是 3750 左右(和柯洁的 3620 分接近,略强一点,对柯洁的胜率会是 68%。这个评分感觉比较准确。)。&/p&&p&但 Deepmind 从前是以为 v18 的评分是已经达到 4500 的:&/p&&figure&&img src=&/v2-6c0e55ff95e957bbe08a84c_b.png& data-rawwidth=&416& data-rawheight=&228& class=&content_image& width=&416&&&/figure&&p&&b&这说明机器自我对弈的评分确实会严重高估自己。Master 这次自我评分 4800,那么真实评分应该是多少?不妨假设也要减去 0,于是会在 0 分左右。那么柯洁的胜率是.... 7.8%,可能比大家想象中要高一点?&/b&&/p&&p&不如我们换个思路,再算精确一点。v18 对 v13 时,v18 和 v13 表现出来的差异是 00 ,实际更准确的差异是 0。那么,这次 Master 对 v18 表现出来的差异是 50,&b&实际更准确的差异可能是 0=675,也就是 Master 的更准确的评分是 5 分,那么柯洁的胜率是... 1%。这个可能比较符合目前的实际情况。&/b&&/p&&p&此外,这次用的是单TPU版本,目前不清楚 4800 分是单机的评分还是分布式的评分。&/p&&figure&&img src=&/v2-ad2bf7f6b2222e_b.png& data-rawwidth=&250& data-rawheight=&131& class=&content_image& width=&250&&&/figure&&p&4. 自我对弈的细节,我们要等到 DeepMind 的论文出来才知道。在此做一些猜测:&/p&&p&v13 的思路是 Policy =& RL Policy =& Value。&/p&&p&&b&v18 和 Master 的思路目前没有公布,但是想必会加入 Value =& Policy 和 Policy =& Value 的循环。&/b&&/p&&p&&b&此外,很可能还有 Policy + Value =& MCTS =& Value =& Policy =& ... 的循环。就是用网络去学习 MCTS 的结果。最终甚至有可能摆脱 Policy,只剩下 Value。&/b&&/p&&p&最后,神经网络有盲点问题,我在从前的文章中写过,并且预计 DeepMind 会加入 Adversarial 学习,就是做一个网络来专门抓网络的盲点。后来 DeepMind 也提到过确实加入了类似的机制。&/p&&p&所谓盲点,就是会让 MCTS 的胜率预计产生大幅波动的点。目前 Leela 等程序已经很强,不过大家都发现神经网络有时候会对于极其简单的棋视而不见,这需要专门处理。&b&一个有趣的办法也许会是用类似 GAN 的思路。&/b&&/p&&p&如果希望偷懒,甚至可以手动加入&必须考虑的点&(这估计是绝艺用过的办法)。例如,某些紧气的点是网络最容易忽略的。然后进行 MCTS,然后让网络去学习。&/p&&p&我们也可以生成大量有趣的局面,比如生成大量&死活题&,进行 MCTS,然后让网络去学习。&/p&&p&5. 目前 DeepMind 表示仍然没有完全脱离用于初始化的人类棋谱输入,只是需要的棋谱数量可以更少。&b&不过,由于 MCTS 可以保证收敛到围棋之神,因此这个目标在理论上只是一个时间问题,唯一限制的因素就是 DeepMind 投入的经费了。&/b& &/p&&figure&&img src=&/v2-b303ca5db0cfb8dfd5a25e_b.png& data-rawwidth=&462& data-rawheight=&243& class=&origin_image zh-lightbox-thumb& width=&462& data-original=&/v2-b303ca5db0cfb8dfd5a25e_r.png&&&/figure&&p&总之,让我们期待 DeepMind 的论文。对于以上提到的一些话题感兴趣的朋友,欢迎关注我的专栏: &a href=&/mathNote& class=&internal&&技术备忘录 - 知乎专栏&/a& 以及我之前在 AlphaGo 话题下的回答。
谢邀。Deepmind 透露将在赛后发表论文公布 AlphaGo 2.0(下面称为 Master)的细节,在此我结合目前公布的信息做一些预测。先看黄博士的朋友圈爆料:1. 这是意想之中,40 层当然会是残差网络。比较令人好奇的是是否是纯 CNN,还是会结合RNN/LSTM 处理某些情…
输的越惨的说明下的越好,几个输的少的只是说明全程稳稳地落后,alphago无需使用任何激烈手段。&br&看的几盘棋基本上感觉柯洁、周睿羊、黄云嵩表现还不错,基本上第一次接触战没崩盘,第二次才崩盘……大部分棋手第一次接触战就崩了,包括模仿棋那一盘,一旦停止模仿后50手就下完了……&br&当然聂老这盘棋算是政治因素吧,没什么人敢说他不好,“前50手无敌”这种说法太肉麻,后面会被人追究出问题来就说明前50手里肯定是有问题的……全盘退让的话alphago肯定不会大杀特杀,稳赢就好了,都没有测试的意义,只有象征意义。&br&现在看来唯一可能赢的情况是决定胜负的复杂对杀中只有单一解,这一单一解在整体形势和目数上还必须是亏损的,alphago才可能犯错,我看到大量的棋手都用激烈的方法去挑起跟alphago的战斗,但是实际过程中犯错的都是人,李世石的第4盘几乎不可复制……&br&&br&其实,AlphaGo非常好的贯彻了新围棋十决么:坚决要胜,入界宜深,攻彼忘我,弃子另杀,大小都要,逢危就战,爽在轻速,棋都不应,彼强硬搞,势孤玉碎。&br&&br&这次其实给大家的认知有很大冲击,我觉得很多职业棋手都在怀疑人生了,一般棋局就三种:&br&1. 开局人实地,电脑外势(判断:人的实地比过去定式大,电脑亏了),电脑扩张外势(判断:走得不扎实,还是走小一点比较合理),人打入(判断:你这么大地方又不扎实我肯定能活),被杀(判断:……)&br&2.开局电脑实地,人外势(判断:电脑实地比过去定式小,电脑亏了),电脑几个残子撞在外势上(判断:撞我厚势,电脑又亏了),电脑强行拉出几个残子出动(判断:过分,残子肯定是负担,电脑勉强),厚势被残子攻的两眼活或者干脆厚势被吃(判断:……)&br&3.开局均衡,大家比大模样,没什么战斗,看起来什么问题手都没有,还有各处占到小便宜的感觉,然后随便下一下就落后个十几目。&br&&br&感觉对于什么是厚薄什么是强弱什么是大小,都要重新评价。&br&&br&还有个最重要的严峻问题是:如何在接触战里不被杀得像业余18k一样……
输的越惨的说明下的越好,几个输的少的只是说明全程稳稳地落后,alphago无需使用任何激烈手段。 看的几盘棋基本上感觉柯洁、周睿羊、黄云嵩表现还不错,基本上第一次接触战没崩盘,第二次才崩盘……大部分棋手第一次接触战就崩了,包括模仿棋那一盘,一旦停…
&a data-hash=&6bc69d6d3c4e2cb489aef3d& href=&///people/6bc69d6d3c4e2cb489aef3d& class=&member_mention& data-hovercard=&p$b$6bc69d6d3c4e2cb489aef3d&&@zn gkcx&/a& 棋谱都没看就出来瞎扯,可惜很多知友愿意上当……&br&&br&柯洁自称看不懂的是指这一串,&br&&figure&&img src=&/4e6ecfe3df4eb_b.png& data-rawwidth=&600& data-rawheight=&469& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&/4e6ecfe3df4eb_r.png&&&/figure&&br&这一串看得我尴尬症都犯了,最终黑狗全线阵亡。&br&&a data-hash=&6bc69d6d3c4e2cb489aef3d& href=&///people/6bc69d6d3c4e2cb489aef3d& class=&member_mention& data-hovercard=&p$b$6bc69d6d3c4e2cb489aef3d&&@zn gkcx&/a& 却说alphago下得太好,柯洁看不透,呵呵哒。
棋谱都没看就出来瞎扯,可惜很多知友愿意上当…… 柯洁自称看不懂的是指这一串, 这一串看得我尴尬症都犯了,最终黑狗全线阵亡。
却说alphago下得太好,柯洁看不透,呵呵哒。
之前写的匆匆忙忙,再看有很多书写错误,重新编辑一下&br&~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~&br&&br&泻药~&br&这段时间被阿法狗深深得震撼了,在我还从事人工智能相关研究的时候,还只有机器学习。当深度学习刚刚出现的时候,我还以为只是神经网络叠加而来的又一个名词噱头。现在感觉自己迅速落伍,深度学习确实是人工智能领域的一个极大的突破。之前在使用神经网络和机器学习对付一些“前”人工智能问题的时候,还需要绞尽脑汁自己去寻找好的feature,现在看来确实已经成为上个时代的人工智能了。&br&&br&阿法狗很成功,把小李子虐残了,但是我认为阿法狗只是工程上的一个突破,在深度学习的理论与工程上找到了解决围棋问题很好的契合点,验证了深度学习的强大。而深度学习想要在金融市场交易中获得同样的成功,还有非常长远的路要走。&br&&br&其一,围棋是一个封闭系统,是一个完全信息系统,无论是现在的深度学习还是以前的机器学习,都依赖于庞大的样本训练,训练完成之后的样本外输入,其本质和可能性要与训练样本相同。例如围棋只能你一步我一步在固定区域内下,所有的规则都是实现就已经约定好的。而金融市场并不是完全信息系统,这一点在很多人的回答中也都提到。也就是很多新的情况,是系统不可预估的,并不是在历史中存在的,在这种情况下,之前的训练会失效。做过自动程序化交易的人都知道,如果自己不清楚策略为什么赚钱,不清楚背后的理论是什么,是不敢放任其自动交易的。就算深度学习系统经过了长期验证,也不能保证某些黑天鹅来临的时候,它能正确的应付,这个几乎是无法证明的。或许赚了几年但是几分钟就全亏回去了。比如今天第四场小李子终于赢了一局。在下棋中出现bug输一局无所谓,在交易中出低级bug可能就再也无力翻身了。&br&&br&其二,阿法狗的paper中提到,人类现有的棋谱在训练中只占到了很小的一部分。他们发现如果只用人类现有的棋谱,阿法狗很快会陷入过度优化。因此对于阿法狗的训练,自己和自己下棋才是训练集的大部分。这也是为什么在盘中总是出现一些人类无法理解的下发,认为是阿法狗的失误。其实阿法狗算得很清楚,因为人类在于围棋的各种可能性走法其实还只探索了一部分。对应到金融市场,所有的行情、新闻、财报等等,对于这样一个复杂系统来说,数据量远远不够。但是系统不可能像围棋那样自己模拟出行情、新闻和财报等信息。因为围棋的走法有规矩,而行情并不是随机生成的数据序列。因此想要完全使用深度学习预测明天大盘的涨跌是不可能的,因为没有足够的训练样本。&br&&br&深度学习可能会在无人车,自主机器人领域带给人类最大的福利,因为这些训练都是可以完全充分的。而在金融市场,要把目前的量化交易和人工智能区分开对待。人工智能或许可以在一些特定的金融领域有所作为,比如对逐笔交易,挂单信息的大量数据进行建模和分析,预测短期的一个概率。随着工程能力,计算能力等不断发展,在未来完全使用深度学习进行金融交易也未尝不可。
之前写的匆匆忙忙,再看有很多书写错误,重新编辑一下 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 泻药~ 这段时间被阿法狗深深得震撼了,在我还从事人工智能相关研究的时候,还只有机器学习。当深度学习刚刚出现的时候,我还以为只是神经网络叠加而来…
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 mysql手工盲注 的文章

 

随机推荐