赵鉴北京中关村学院导师

2025-03-28

基本信息

导师姓名：赵鉴

担任职务：北京中关村学院导师

主要研究领域：强化学习、大语言模型后训练、具身智能

简介：赵鉴，中关村人工智能研究院研究员，分别于2018年和2023年在中国科学技术大学获得学士与博士学位。他曾在微软亚洲研究院，腾讯游戏AI研发中心等机构学习工作，科研领域包括游戏AI、强化学习和多智能体系统，目前在国内外学术期刊和会议上发表论文三十余篇。他曾获得第一届腾讯开悟多智能体强化学习大赛冠军，RLChina 智能体挑战赛2021夏季赛冠军，2022春季赛冠军等奖项。博士毕业后加入强化学习创业公司南栖仙策，主要从事强化学习的应用落地业务。

个人经历

教育经历：

2018-2023 中国科学技术大学博士研究生

2014-2018 中国科学技术大学本科

工作经历：

2025.3--至今中关村人工智能研究院研究员

2023.6-2025.2 南栖仙策（南京）科技有限公司算法副总裁

科学研究

代表性学术论文：

l Youpeng Zhao, Yudong Lu, Jian Zhao, Wengang Zhou, and Houqiang Li, “DanZero+: Dominating the GuanDan Game through Reinforcement Learning,” IEEE Transactions on Games (ToG), 16(4):914-926, December 2024.

l Jian Zhao, Mingyu Yang, Youpeng Zhao, Xunhan Hu, Wengang Zhou, and Houqiang Li, “MCMARL: Parameterizing Value Function via Mixture of Categorical Distributions for Multi-Agent Reinforcement Learning,” IEEE Transactions on Games (ToG), 16(3): 556-565, Septerber 2024.

l Youpeng Zhao, Jian Zhao, Xunhan Hu, Wengang Zhou, and Houqiang Li, “Full DouZero+: Improving DouDizhu AI by Opponent Modeling, Coach-guided Training and Bidding Learning,” IEEE Transactions on Game (ToG), 16(3): 518-529, September 2024.

l Jian Zhao, Xunhan Hu, Mingyu Yang, Wengang Zhou, Jiangcheng Zhu, and Houqiang Li, “CTDS: Centralized Teacher with Decentralized Student for Multi-Agent Reinforcement Learning,” IEEE Transactions on Games (ToG), 16(1): 140-150, March 2024.

l Zheng Chen, Jian Zhao, Mingyu Yang, Wengang Zhou, and Houqiang Li, “Optimizing Camera Motion with MCTS and Target Motion Modeling in Multi-Target Active Object Tracking,” ACM Transactions on Multimedia Computing Communications and Applications (TOMM), 20(7): 1-19, July 2024.

l Jian Zhao, Weide Shu, Youpeng Zhao, Wengang Zhou, and Houqiang Li, “Improving Deep Reinforcement Learning with Mirror Loss,” IEEE Transactions on Games (TOG), 15(3): 337-347, 2023.

l Jian Zhao, Youpeng Zhao, Weixun Wang, Mingyu Yang, Xunhan Hu, Wengang Zhou, Jianye Hao, and Houqiang Li, “Coach-assisted Multi-Agent Reinforcement Learning Framework for Unexpected Crashed Agents,” Frontiers of Information Technology & Electronic Engineering, 23(7): 1032-1042, 2022.

l Jian Zhao, Weizhen Qi, Wengang Zhou, Nan Duan, Ming Zhou, and Houqiang Li, “Conditional Sentence Generation and Cross-modal Reranking for Sign Language Translation,” IEEE Transactions on Multimedia (TMM), 24: 2662-2672, 2022.

l Tianyu Zhao, Jian Zhao, Wengang Zhou, Yun Zhou and Houqiang Li, “State Representation Learning with Adjacent State Consistency Loss for Deep Reinforcement Learning,” IEEE Multimedia, 28(3): 117-127, 2021.

l Chengcheng Wei, Jian Zhao, Wengang Zhou, and Houqiang Li, “Semantic Boundary Detection with Reinforcement Learning for Continuous Sign Language Recognition,” IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 31(3): 1138-1149, 2021.

l Xunhan Hu, Jian Zhao, Wengang Zhou, Ruili Feng, and Houqiang Li, “DIFFER: Decomposing Individual Reward for Fair Experience Replay in Multi-Agent Reinforcement Learning,” Advances in Neural Information Processing Systems (NeurIPS), Dec. 10-16, 2023.

l Xunhan Hu, Jian Zhao, Youpeng Zhao, Wengang Zhou, and Houqiang Li, “Q-SAT: Value Factorization with Self-Attention for Deep Multi-Agent Reinforcement Learning,” International Joint Conference on Neural Networks (IJCNN), June 18-23, 2023.

l Zeyu Fang, Jian Zhao, Wengang Zhou, and Houqiang Li, “Implementing First-Person Shooter Game AI in WILD-SCAV with Rule-Enhanced Deep Reinforcement Learning,” IEEE Conference on Games (COG), Aug. 21-24, 2023.

l Yudong Lu, Jian Zhao, Youpeng Zhao, Wengang Zhou, and Houqiang Li, “DanZero: Mastering GuanDan Game with Reinforcement Learning,” IEEE Conference on Games (COG), Aug. 21-24, 2023.

l Junjie Lin, Yuhao Gong, Jian Zhao, Wengang Zhou, and Houqiang Li, “Mastering Curling with RL-revised Decision Tree,” IEEE Conference on Games (COG), Aug. 21-24, 2023.

l Mingyu Yang, Jian Zhao, Xunhan Hu, Wengang Zhou, Jiangcheng Zhu, and Houqiang Li, “LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent Reinforcement Learning,” Advances in Neural Information Processing Systems (NeurIPS), Nov. 28-Dec. 9, 2022.

l Jitao Wang, Dongyun Xue, Jian Zhao, Wengang Zhou, and Houqiang Li, “Mastering the Game of 3v3 Snakes with Rule-Enhanced Multi-Agent Reinforcement Learning,” IEEE Conference on Games (COG), Aug. 21-24, 2022.

l Youpeng Zhao, Jian Zhao, Xunhan Hu, Wengang Zhou, and Houqiang Li, “DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided Learning,” IEEE Conference on Games (COG), Aug. 21-24, 2022.

l Jian Zhao, Wengang Zhou, Tianyu Zhao, Yun Zhou, and Houqiang Li, “State Representation Learning for Effective Deep Reinforcement Learning,” IEEE International Conference on Multimedia Expo (ICME), Oral Paper, 2020.

主要成就与荣誉：

l 腾讯第一届开悟 MOBA 多智能体强化学习大赛冠军

l IJCAI2020国标麻将AI竞赛第四名

l NeurIPS RL自动驾驶比赛亚军

l RLChina 智能体季度挑战赛3次冠军，多次亚军和季军

l IEEE BigData Cup 2021: RL based RecSys冠军

l 字节跳动2021夏令营"非侵入式游戏AI"获团队组一等奖

l COG2022-第一人称射击类游戏(FPS)AI 三个赛道全部冠军（导航，收集物资，战斗）

上一篇：余峰北京中关村学院导师下一篇：没有了

师资队伍

赵鉴北京中关村学院导师

2025-03-28

合作链接

链接

导航栏

联系我们

师资队伍

赵鉴 北京中关村学院 导师

2025-03-28

合作链接

链接

导航栏

联系我们

赵鉴北京中关村学院导师