产品介绍

Product introduction

DataExa-Nash多智能体协同决策平台作为渊亭科技认知决策智能产品矩阵的重要组成,是一个低门槛、算法丰富、全过程覆盖的多智能体设计、研发、管理平台,可提供全栈式的多智能体博弈对抗仿真内核、高性能分布式学习框架、可视化应用建模训练,旨在降低多智能体的开发门槛以及为多智能体的训练提供更为灵活的策略组合与算法支持。

核心技术

Product technology

  • NashZero

    面向决策智能的智能体分布式学习框架,集成多种STOA多智能体算法(DQN、D4PG、DDPG、R2D3、QMIX等)的基础上,统一了深度强化学习算法开发范式和评估体系,并提供高效的分布式并行训练能力。

  • NashArena

    面向博弈对抗的仿真内核,包括对抗引擎、地图引擎、对抗算子体系、态势体系、计算模型等,提供二次开发SDK,可以快速搭建不同场景的博弈对抗仿真环境。

  • NashStudio

    提供仿真环境介入、智能体建模开发、训练发布、模拟对抗、复盘分析等全过程在线研发、评估和服务能力。

产品优势

Product advantage

  • 易用的智能体开发工具集

    提供了一整套完整的智能体开发与应用管理工具体系,旨在降低智能体开发的门槛,开发模块结合渊亭DataExa-Nash框架,针对不同的仿真环境,提供不同场景丰富的智能体开发算法模板。借助平台模板,可以实现低代码甚至零代码开发,用户在新建项目时选择该模板,模板已提供好智能体代码和各配置信息,直接进行训练即可。
  • 丰富的自定义演算训练环境集成

    支持多种仿真环境的管理,通过仿真环境管理的适配模块,能够快速接入到不同的仿真环境,满足不同环境下智能体开发的需求,减少用户搭建部署复杂环境的成本。平台提供的基础仿真环境信息,用户可以直接进行智能体训练和对抗,简化了用户搭建环境的过程,达到“开箱即用”的效果,降低多智能体研究使用的成本。此外,用户也可以在系统提供的基础仿真环境上自定义配置,可支持仿真场景和规模自定义,智能体数量和种类自定义,智能体特征和属性自定义,智能体行为回报规则和回报值自定义等,达到自定义组装的效果,满足不同的开发需求。
  • 完备的智能体模型算法库

    提供了丰富的多智能体模型算法库,包括算法库以及网络模型组件库。算法库包含了传统强化学习、深度强化学习及多智能体等算法。网络模型组件库包含多个粒度的网络结构组件,定义了丰富的网络组件结构和对应的通用连接。用户可调用模型算法库中的算法及网络模型,智能体通过算法库中的核心算法推算出对应的动作并执行,从而与仿真场景产生交互,得到环境观测值并计算出回报,并不断进行迭代训练。
  • 方便的先验策略嵌入设计

    框架环境模块集成自定义先验策略(知识图谱等)嵌入接口,通过该方式让智能体拥有对应操作环境的先验知识,可以极大缩短训练时间,提高多智能体的策略学习效率,提供高质量的辅助决策方案。
  • 灵活的多智能体分布式学习框架

    DataExa-Nash是一个面向决策智能的高性能分布式学习框架,旨在降低多智能体的开发门槛以及为多智能体的训练提供更为灵活的策略组合与算法支持。通过灵活的框架设计,开发人员可以在策略模块中加入合适的先验知识,以辅助奖励函数的设计保证多智能体在更快的时间内学习到理想中的策略;通过支持结合迁移学习策略,可以让智能体模型在同类型的操作环境中更快地收敛到多智能体间的纳什平衡状态,且可避免对环境的过拟合。支持将框架仅用作对智能体模型的微调操作,用在以监督学习为主,以强化学习为辅的训练场景中。

客户案例

Customer case

某部智能仿真推演系统
  • 客户名称:

    某部队

  • 所属行业:

    国防

  • 客户痛点:

    面对瞬息万变的指挥控制环境,人为的策略制定需要高级的指挥人员具备丰富的相关经验,且人工的策略更新可能无法应付过多的复杂场景

  • 应用成效:

    围绕军种典型作战模式,构造作战想定场景和地图环境,面向旅级的红蓝对抗系统,建立聚合集兵力模型(最小到班)、平台型模型(通信、电抗、工程等)。结合多智能体强化学习进行不完备信息博弈,对战场环境作战单元的以往动作进行价值分析,自动生成最优策略以供指挥官参考,进行辅助决策,优化战术策略。通过对接作战仿真推演环境,支撑火力打击、情报侦察、态势感知等战场作战计划问题研究。

合作

文档