产品展厅收藏该商铺

您好 登录 注册

当前位置:
东莞市森和机械设备有限公司>公司动态>森和智能--AlphaGo Zero横空出世 一招过后 笑傲江湖

公司动态

森和智能--AlphaGo Zero横空出世 一招过后 笑傲江湖

阅读:855          发布时间:2018-9-25
迄今较强较新颖的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo

      
东莞市森和机械设备有限公司是一家致力于工业自动化系统,智能工厂整体方案,专业研发,设计,生产塑料机械设备,工业冷水机,螺杆冷冻机,模温机,干冰清洗机,金属分离设备的厂商,拥有不同领域的专业化团队,为世界提供高品质的产品和服务。
       公司积极贯彻和响应制造强国战略的中国制造2025计划,力求开拓创新,勤于探索,勇于实践,锐意进取,不断研发新产品,努力提升产品人机交互的便利性,智慧性,互联性以及互通性,并矢志不渝全面推动未来工业4.0。
       公司成立于2007年,经过10年风雨历程,公司业务不断增长扩大,产品享誉海内外,在2017年,森和迎来了产品品牌全面升级,我们启动了产品质量全面流程管理,对供应商产品链数据进行集成优化处理,从产品设计端到产品交付客户的终端,森和实现全线质量数据跟踪管理,大幅度提升客户满意度,也增强了我们与客户合作的长远规划。

    记得上次Alphago 战胜柯洁,从此隐退江湖,但是他的传奇仍在继续DeepMind 近期公布了他们新版AlphaGo论文,也是他们新的Nature-神经元网络论文,介绍了迄今较强较新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。DeepMind已经完成围棋上的概念证明,接下来就是用强化学习创造改变世界的价值。

    AlphaGo Zero*不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究*以来的目标——创造出在没有人类输入的条件下,在较具挑战性的领域实现超越人类能力的算法——迈进的一大步。

    AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏*没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的z终赢家。

    这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。

    这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,从世界上较强大的围棋玩家——AlphaGo 自身——学习。

    AlphaGo Zero 在其他方面也与之前的版本有所不同:
AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入,而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。

 它只使用一个神经网络,而不是两个。以前版本的 AlphaGo 使用一个“策略网络”(policy network)来选择下一个落子位置和一个“价值网络”(value network)来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的,这使得它能够更有效地进行训练和评估。

AlphaGo Zero 不使用“走子演算”(rollout)——这是其他围棋程序使用的快速、随机游戏,用来预测哪一方将从当前的棋局中获胜。相反,它依赖于高质量的神经网络来评估落子位置。

    上面的所有这些不同之处都有助于提高系统的性能,使其更加通用。但使得这个系统更加强大和的是算法的改变。

    在进行了3天的自我训练后,AlphaGo Zero 在100局比赛中以100:0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界排名的韩国九段棋士李世乭。经过 40 天的自我训练后,AlphaGo Zero 变得更加强大,超越了“Master”版本的 AlphaGo——Master 曾击败世界上的棋士、世界的柯洁。

    在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后,这个系统逐渐从零开始学会了下围棋,在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识,开发出非常规的策略和创造性的新下法,这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。

    尽管目前仍处于早期阶段,但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称:AlphaGo在短短两年里取得了如此令人惊叹的成果。现在,AlphaGo Zero是我们项目中较强大的版本,它展示了我们在更少的计算能力,而且*不使用人类数据的情况下可以取得如此大的进展。

    “终,我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题,例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展,就有可能推动人类理解,并对我们的生活产生积极影响。”
 
    AlphaGo Zero 技术细节拆解:将价值网络和策略网络整合为一个架构,整合蒙特卡洛搜索不断迭代
 
 
三千年围棋只用三天走过 简洁的AlphaGo更美

1、将策略网络和价值网络合并,组成一个可以同时输出策略p和价值v的新网络。

1.1、简化了新网络的结构。新策略·价值网络的输入特征平面由48个减少到了17个。其中,涉及围棋知识的输入特征(气(liberty)、征子(ladder))被删去。
2、新策略 价值网络只需通过强化学习来训练,无需监督学习。即无需输入人类高手棋谱作为初始训练样本,只需用随机落子作为初始训练样本。
3、优化了蒙特卡洛搜索树,主要是省去了快速走子(rollout policy),节约大量实战计算成本。
3.1、 快速走子策略也需要输入大量人类已知的围棋知识,比如如何点死大眼(Nakade, 如点死直三、丁四、刀把五等棋型的仅有招法)。省去快速走子,也就省去了输入这些知识的麻烦。
4、改卷积网络为残差网络,提高训练效率。

    公司为了满足客户日益定制化的需求,在加工设备方面积极引进激光切割设备,高速加工中心罗德斯设备,精密坐标测量仪器海克斯康,精密慢走丝设备阿奇夏米尔,德国柯罗斯精密剪板机和精密折弯机等设备,以精益求精,工艺严谨的态度,做好我公司设备,系统每一个零部件,力求提升整体产品在工业设计端充满创新,在结构优化端充满创意。
      公司加工区以及组装区总面积超过15000平方米,随着公司业绩节节攀升,我们预计在后续不断扩大产能, 在平稳中求发展,在强大中更务实,我们深信,我们的每一分努力,都有一分来自您的认可,选择森和,是您未来事业倍增的合作伙伴。

收藏该商铺

登录 后再收藏

提示

您的留言已提交成功!我们将在第一时间回复您~

对比框

产品对比 二维码 意见反馈

扫一扫访问手机商铺
在线留言