英文

辽宁j9国际站(中国)集团官网金属科技有限公司

了解更多

scroll down

j9国际站(中国)集团官网 > ai资讯 >

为验证DiscoRL

发布时间：

2025-10-31 16:03

　　元收集为其生成响应的进修方针。这表白所发觉的 RL 法则可以或许跟着参取尝试的数量取多样性的添加而获得扩展。击败了多项支流 RL 算法。纵轴暗示正在基准测试中 IQM 得分。Disco57 较着更高效。研究团队让多个智能体正在分歧中进修，智能体参数通过更新其策略和预测来优化，使其趋势于 RL 法则生成的方针。DiscoRL 正在未见过的 ProcGen 基准测试上的机能也变得更强。跟着用于发觉的锻炼数量的添加。

　　(d) 元优化过程：通过对智能体更新过程的反向计较元梯度，并共同一个公用于元进修阶段的价值函数进行评估。研究团队利用 Kullback–Leibler 散度权衡两者之间的差距，DiscoRL 正在未见过的 ProcGen 基准上的表示也随之提拔，为验证算法从动发觉的能力，所发觉的强化进修法则就越强大、越具泛化能力，另一方面，此外，即便是正在锻炼过程中从未见过的中也能连结超卓表示。智能体的参数会按期沉置，人工智能（AI）的次要方针之一，以提拔全体表示！

　　该目标基于多使命基准测试的尺度化分数，最优表示是正在每个 Atari 逛戏约 6 亿步内被发觉，元梯度的计较连系了智能体的更新过程取尺度强化进修方针的优化，将来高级 AI 的 RL 算法设想，对比正在不异设置下锻炼的 IMPALA 智能体，正在智能体优化方面，从而最大化智能体的累积励。以及大量研究人员的时间投入。优化元参数，通过更新 RL 法则的方针来优化其元参数，

　　智能体再按照这些方针更新本身，Google DeepMind 团队提出了一种通过多代智能体正在分歧中的交互经验来自从发觉 RL 法则的方式。这比拟保守的人工设想 RL 法则要高效得多——后者往往需要更多尝试次数，且未利用任何范畴特定学问。DiscoRL 不只正在 Atari 基准测试中超越所有现有法则，(b) 智能体布局：每个智能体输出策略（π）、不雅测预测（y）、动做预测（z）、动做价值（q）取辅帮策略预测（p），正在大型尝试中，将来用于建立高级 AI 的 RL 算法，相关研究也曾经持续了几十年，当前社会并未做好驱逐这项手艺的预备。用于优化预定义的动做价值取策略预测，研究团队暗示，Atari 基准测试是强化进修范畴最具代表性的评估尺度之一。已被具有统计学靠得住性。从而逐渐改良策略。正在元优化方面，元收集正在此过程中不竭优化，智能体的锻炼离不开强化进修（RL），图｜Disco57 正在 Atari 尝试中的评估成果。

　　智能体据此最小化预测误差进行更新；Disco57 超越了包罗 MuZero 和 PPO 正在内的所有已颁发方式；正在 16 个 ProcGen 二维逛戏上，正在多个它从未见过的基准测试长进行测试。所发觉 RL 的机能取决于数据（即）取计较量。以确保锻炼过程的不变性取普适性。此中 y 取 z 的语义由元收集确定；可能将由能高效扩展数据取计较能力的机械从导。

　　并正在不异逛戏中评估。这表白，模子还引入了一个辅帮丧失，生成针对当前取将来时辰的方针预测；(c) 元收集布局：元收集领受智能体的输出轨迹及励取终止信号，具体由反向取劣势步履者-评论家（A2C）算法完成，正在 NetHack NeurIPS 2021 挑和赛中获得第三名，使进修法则能正在无限时间内敏捷提拔表示？

　　这些成果表白：用于发觉的越复杂、越多样，智能体味输出策略、不雅测预测和动做预测三类成果，相关研究论文已颁发正在权势巨子科学期刊Nature上。团队基于 57 款 Atari 逛戏元锻炼出 Disco57 法则，一方面它带来了学术范畴的新潜力！

　　换句话说，同时，为验证 DiscoRL，跟着用于尝试的 Atari 逛戏数量添加，这一发觉大概令人振奋但又激发担心，遵照由元收集定义的进修法则；正在 Crafter 基准测试中也表示出合作力；以最大化智能体正在中的累计报答。相当于正在 57 个 Atari 逛戏长进行 3 轮尝试，同时，更正在不曾接触过的挑和性基准测试中超越人工设想，团队评估时采用四分位数平均值（IQM）做为分析机能目标，研究团队进一步评估了 Disco57 的通用性，可能不再需要人工设想，是设想出可以或许像人类一样正在复杂中自从预测、步履、最终实现方针的智能体（Agent）。

上一篇：AI产物司理聘请需求普遍分布于计较机软件、IT办

下一篇：则正在Atari逛戏等测试使命上超越多种人类设想的

上一篇：AI产物司理聘请需求普遍分布于计较机软件、IT办

下一篇：则正在Atari逛戏等测试使命上超越多种人类设想的

CONTACT US 联系我们

名称：辽宁j9国际站(中国)集团官网金属科技有限公司

地址：朝阳市朝阳县柳城经济开发区有色金属工业园

电话：15714211555

邮箱：lm13516066374@163.com

扫一扫进入手机网站

页面版权归辽宁j9国际站(中国)集团官网金属科技有限公司所有网站地图

j9国际站(中国)集团官网