森和智能--AlphaGo Zero横空出世一招过后笑傲江湖-公司动态-东莞市森和机械设备有限公司

公司动态

森和智能--AlphaGo Zero横空出世一招过后笑傲江湖

阅读：855 发布时间：2018-9-25

迄今较强较新颖的版本AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo

东莞市森和机械设备有限公司是一家致力于工业自动化系统，智能工厂整体方案，专业研发，设计，生产塑料机械设备，工业冷水机，螺杆冷冻机，模温机，干冰清洗机，金属分离设备的厂商，拥有不同领域的专业化团队，为世界提供高品质的产品和服务。

公司积极贯彻和响应制造强国战略的中国制造2025计划，力求开拓创新，勤于探索，勇于实践，锐意进取，不断研发新产品，努力提升产品人机交互的便利性，智慧性，互联性以及互通性，并矢志不渝全面推动未来工业4.0。

公司成立于2007年，经过10年风雨历程，公司业务不断增长扩大，产品享誉海内外，在2017年，森和迎来了产品品牌全面升级，我们启动了产品质量全面流程管理，对供应商产品链数据进行集成优化处理，从产品设计端到产品交付客户的终端，森和实现全线质量数据跟踪管理，大幅度提升客户满意度，也增强了我们与客户合作的长远规划。

  记得上次Alphago 战胜柯洁，从此隐退江湖，但是他的传奇仍在继续DeepMind 近期公布了他们新版AlphaGo论文，也是他们新的Nature-神经元网络论文，介绍了迄今较强较新的版本AlphaGo Zero，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休，但技术永存。DeepMind已经完成围棋上的概念证明，接下来就是用强化学习创造改变世界的价值。

  AlphaGo Zero*不依赖于人类数据，因此，这一系统的成功也是朝向人工智能研究*以来的目标——创造出在没有人类输入的条件下，在较具挑战性的领域实现超越人类能力的算法——迈进的一大步。

  AlphaGo Zero 得到这样的结果，是利用了一种新的强化学习方式，在这个过程中，AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏*没有任何知识的神经网络开始。然后，通过将这个神经网络与一种强大的搜索算法相结合，它就可以自己和自己下棋了。在它自我对弈的过程中，神经网络被调整、更新，以预测下一个落子位置以及对局的z终赢家。

  这个更新后的神经网络又将与搜索算法重新组合，进而创建一个新的、更强大的 AlphaGo Zero 版本，再次重复这个过程。在每一次迭代中，系统的性能都得到一点儿的提高，自我对弈的质量也在提高，这就使得神经网络的预测越来越准确，得到更加强大的 AlphaGo Zero 版本。

  这种技术比上一版本的 AlphaGo 更强大，因为它不再受限于人类知识的局限。相反，它可以从一张白纸的状态开始，从世界上较强大的围棋玩家——AlphaGo 自身——学习。

  AlphaGo Zero 在其他方面也与之前的版本有所不同：
AlphaGo Zero 只使用围棋棋盘上的黑子和白子作为输入，而上一版本的 AlphaGo 的输入包含了少量人工设计的特征。

它只使用一个神经网络，而不是两个。以前版本的 AlphaGo 使用一个“策略网络”（policy network）来选择下一个落子位置和一个“价值网络”（value network）来预测游戏的赢家。这些在 AlphaGo Zero 中是联合进行的，这使得它能够更有效地进行训练和评估。

AlphaGo Zero 不使用“走子演算”（rollout）——这是其他围棋程序使用的快速、随机游戏，用来预测哪一方将从当前的棋局中获胜。相反，它依赖于高质量的神经网络来评估落子位置。

  上面的所有这些不同之处都有助于提高系统的性能，使其更加通用。但使得这个系统更加强大和的是算法的改变。

  在进行了3天的自我训练后，AlphaGo Zero 在100局比赛中以100：0击败了上一版本的 AlphaGo——而上一版本的 AlphaGo 击败了曾18次获得围棋世界排名的韩国九段棋士李世乭。经过 40 天的自我训练后，AlphaGo Zero 变得更加强大，超越了“Master”版本的 AlphaGo——Master 曾击败世界上的棋士、世界的柯洁。

  在经过数以百万计的 AlphaGo vs AlphaGo 的对弈后，这个系统逐渐从零开始学会了下围棋，在短短几天内积累了人类数千年积累的知识。AlphaGo Zero 也发现了新的知识，开发出非常规的策略和创造性的新下法，这些新下法超越了它在与柯洁和李世乭比赛时发明的新技巧。

  尽管目前仍处于早期阶段，但 AlphaGo Zero 成为了朝着这个目标迈进的关键一步。DeepMind 联合创始人兼 CEO Demis Hassabis 评论称：AlphaGo在短短两年里取得了如此令人惊叹的成果。现在，AlphaGo Zero是我们项目中较强大的版本，它展示了我们在更少的计算能力，而且*不使用人类数据的情况下可以取得如此大的进展。

“终，我们希望利用这样的算法突破来帮助解决现实世界的各种紧迫问题，例如蛋白质折叠或新材料设计。如果我们能在这些问题上取得与AlphaGo同样的进展，就有可能推动人类理解，并对我们的生活产生积极影响。”

  AlphaGo Zero 技术细节拆解：将价值网络和策略网络整合为一个架构，整合蒙特卡洛搜索不断迭代

三千年围棋只用三天走过简洁的AlphaGo更美

1、将策略网络和价值网络合并，组成一个可以同时输出策略p和价值v的新网络。

1.1、简化了新网络的结构。新策略·价值网络的输入特征平面由48个减少到了17个。其中，涉及围棋知识的输入特征（气（liberty）、征子（ladder））被删去。
2、新策略价值网络只需通过强化学习来训练，无需监督学习。即无需输入人类高手棋谱作为初始训练样本，只需用随机落子作为初始训练样本。
3、优化了蒙特卡洛搜索树，主要是省去了快速走子（rollout policy），节约大量实战计算成本。
3.1、快速走子策略也需要输入大量人类已知的围棋知识，比如如何点死大眼（Nakade，如点死直三、丁四、刀把五等棋型的仅有招法）。省去快速走子，也就省去了输入这些知识的麻烦。
4、改卷积网络为残差网络，提高训练效率。

公司为了满足客户日益定制化的需求，在加工设备方面积极引进激光切割设备，高速加工中心罗德斯设备，精密坐标测量仪器海克斯康，精密慢走丝设备阿奇夏米尔，德国柯罗斯精密剪板机和精密折弯机等设备，以精益求精，工艺严谨的态度，做好我公司设备，系统每一个零部件，力求提升整体产品在工业设计端充满创新，在结构优化端充满创意。

公司加工区以及组装区总面积超过15000平方米，随着公司业绩节节攀升，我们预计在后续不断扩大产能，在平稳中求发展，在强大中更务实，我们深信，我们的每一分努力，都有一分来自您的认可，选择森和，是您未来事业倍增的合作伙伴。

公司动态

森和智能--AlphaGo Zero横空出世一招过后笑傲江湖

会员登录

公司名片

收藏该商铺

提示

收藏该商铺

森和智能--AlphaGo Zero横空出世 一招过后 笑傲江湖

会员登录

公司名片

收藏该商铺

提示

收藏该商铺

森和智能--AlphaGo Zero横空出世一招过后笑傲江湖