2022年5月6-7日|人工智能——Python強化學習算法與應用案例實踐培訓班

4年前發(fā)布在 培訓班

強化學習是近年來在人工智能技術中較高的一種研究方法，是一種接近人類及動物在大自然中所表現(xiàn)出的學習方式，通過人們不斷實踐和總結，形成了強化學習這一人工智能研究方法。

隨著深度學習技術的流行，深度學習中的一些主流技術，如深度卷積神經(jīng)網(wǎng)絡、序列建模、記憶管理等與強化學習在許多應用場景上出現(xiàn)了結合點，例如使用DQN實現(xiàn)AI自動玩FlappyBird。強化學習技術目前仍面臨訓練環(huán)境與計算能力的瓶頸，相信隨著科技的進一步發(fā)展，在未來十年它一定會成為人工智能領域的核心技術之一。本課程通過理論與案例實踐相結合的方法，讓學習者可以從最專業(yè)的角度來接觸強化學習，學會使用這種先進的人工智能技術來應用于實際工作和學習中。

主辦單位：北京市計算中心有限公司

協(xié)辦單位：

北京市基因測序與功能分析工程技術研究中心

云計算關鍵技術與應用北京市重點實驗室

工業(yè)和信息化人才培養(yǎng)工程培訓基地

北京市大數(shù)據(jù)教學實踐基地

舉辦地：北京市海淀區(qū)豐賢中路7號北科產(chǎn)業(yè)3號樓

課程安排：2022年5月6日-7日（周五–周六）上午9:30-11:30 ?下午13:30-17:00

時間	主題	授課內容	備注
第一天上午	python入門	1、Python基礎	理論
第一天上午	強化學習入門	2、強化學習基本概念 3、強化學習與其他機器學習的關系 4、Gym實驗環(huán)境基礎知識	理論
第一天下午	強化學習算法入門	5、馬爾可夫決策過程 6、動態(tài)規(guī)劃 7、蒙特卡洛方法 8、時序差分	理論+ 實操
第二天上午	強化學習算法進階	9、值函數(shù)逼近(DQN算法) 10、隨機策略梯度(REINFORCE算法） 11、確定性策略梯度(DDPG算法） 12、AC算法及變種	理論+ 實操
第二天下午	強化學習綜合實踐	13、博弈強化學習 14、蒙特卡洛樹搜索 15、AlphaGo基本原理 16、AlphaGo?Zero原理	理論+ 實操