前沿科技課程:深度學(xué)習(xí)、單細(xì)胞多組學(xué)與代謝組學(xué)三大領(lǐng)域

代謝組學(xué)是對(duì)某一生物或細(xì)胞在一特定生理時(shí)期內(nèi)所有代謝產(chǎn)物同時(shí)進(jìn)行定性定量分析的學(xué)科,被廣泛用于揭示小分子與生理病理效應(yīng)間的關(guān)系。目前,代謝組學(xué)已經(jīng)被應(yīng)用于藥物開發(fā)的各個(gè)階段(如藥物靶標(biāo)識(shí)別、先導(dǎo)化合物發(fā)現(xiàn)、藥物代謝分析、藥物響應(yīng)和耐藥研究等)?;诖x組學(xué)的高性價(jià)比特性,它被藥學(xué)領(lǐng)域的研究者給予了厚望,有望加速新藥開發(fā)的進(jìn)程。然而,代謝組領(lǐng)域還面臨著嚴(yán)重的信號(hào)處理與數(shù)據(jù)分析問題,對(duì)其在新藥研發(fā)中的應(yīng)用構(gòu)成了巨大挑戰(zhàn)。為了有效消除由環(huán)境、儀器和生物因素所引入的不良信號(hào)波動(dòng),就需要開發(fā)針對(duì)代謝組信號(hào)系統(tǒng)優(yōu)化的新方法,為不同組學(xué)研究量身定制最優(yōu)的數(shù)據(jù)分析策略。
三大前沿課程目錄
以下為課程內(nèi)容介紹
(1)結(jié)構(gòu)到序列的預(yù)測(cè)基礎(chǔ):基于結(jié)構(gòu)的蛋白質(zhì)設(shè)計(jì)是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的
逆過程。學(xué)生將學(xué)會(huì)通過生物信息學(xué)工具分析蛋白質(zhì)序列,預(yù)測(cè)其二級(jí)結(jié)構(gòu)和三維結(jié)構(gòu),并初步理解結(jié)構(gòu)與功能之間的關(guān)聯(lián)。
(2)ML/DL 算法模型應(yīng)用與評(píng)估:深度學(xué)習(xí)可以用于預(yù)測(cè)蛋白質(zhì)序列的
功能和穩(wěn)定性。學(xué)生將能夠使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法模型進(jìn)行蛋白質(zhì)特定功能和序列穩(wěn)定性預(yù)測(cè),同時(shí)學(xué)習(xí)如何評(píng)估模型的準(zhǔn)確性和可靠性。
(3)蛋白質(zhì)設(shè)計(jì)應(yīng)用實(shí)踐:深度學(xué)習(xí)通過預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)之間的相互作
用、蛋白質(zhì)的功能以及生物屬性為生物制藥、生物醫(yī)學(xué)等方面提供了新的方向。學(xué)生將通過以上學(xué)習(xí)的與蛋白質(zhì)序列、結(jié)構(gòu)和功能預(yù)測(cè)相關(guān)的原理,學(xué)會(huì)設(shè)計(jì)新的蛋白質(zhì)復(fù)合物和抗體,識(shí)別蛋白質(zhì)的功能域、結(jié)構(gòu)域和功能位點(diǎn)等,通過神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)的應(yīng)用,優(yōu)化和篩選符合特定要求的蛋白質(zhì)。
1.1 Python 簡(jiǎn)介:了解 Python 的發(fā)展歷史、特點(diǎn)、現(xiàn)狀,以及與其他編程語
言的比較。
1.2 安裝和設(shè)置 Python 環(huán)境:安裝 Python3 ,設(shè)置 開 發(fā) 環(huán) 境 ( 如
Anaconda(miniconda)、Jupyter notebook)并運(yùn)行第一個(gè) Python 程序。
1.3 Python 變量和數(shù)據(jù)類型:數(shù)據(jù)類型(整數(shù)、浮點(diǎn)數(shù)、字符串、布爾值)、
表定制等。
4. 數(shù)據(jù)分析與可視化
4.1 Pandas:使用 Pandas 進(jìn)行高級(jí)的數(shù)據(jù)分析操作,包括如何去做數(shù)據(jù)清洗、
預(yù)處理和排序等數(shù)學(xué)計(jì)算,數(shù)據(jù)的分箱技術(shù),分組技術(shù),聚合技術(shù),以及透視表
等。
4.2 數(shù)據(jù)可視化:介紹 Seaborn 的基本使用,以及和 Matplotlib 的功能對(duì)比,
使用 Matplotlib 和 Seaborn 進(jìn)行高級(jí)數(shù)據(jù)可視化。
5. 蛋白質(zhì)設(shè)計(jì)中的特定應(yīng)用
5.1 BioPython 包的使用:DNA,RNA 和蛋白質(zhì)序列處理,訪問主要的遺傳
數(shù)據(jù)庫(kù)(如 GenBank,SwissPort,F(xiàn)ASTA 等)訪問,執(zhí)行基本生物學(xué)數(shù)據(jù)分析。
5.2 Python 腳本編寫:將常見的蛋白質(zhì)處理任務(wù)編寫為自動(dòng)化腳本,如序列
對(duì)比、結(jié)構(gòu)預(yù)測(cè)等。
5.3 機(jī)器學(xué)習(xí)快速入門:學(xué)習(xí)使用 Scikit-learn 進(jìn)行特征提取、機(jī)器學(xué)習(xí)模型
訓(xùn)練、評(píng)估和優(yōu)化。
6. 實(shí)戰(zhàn)案例
6.1 案例 1:蛋白質(zhì)序列數(shù)據(jù)分析入門,如統(tǒng)計(jì)特定序列的頻率、可視化序
列分布等。
6.2 案例 2:蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)基礎(chǔ),使用機(jī)器學(xué)習(xí)技術(shù)預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)
構(gòu)或功能位點(diǎn)。
6.3 案例 3:開發(fā)一個(gè)自動(dòng)化的蛋白質(zhì)分析工具,集成數(shù)據(jù)處理、分析及可視
化功能。
第二天 Linux Shell 命令行操作基礎(chǔ)
1. Shell 環(huán)境簡(jiǎn)介
1.1 什么是 Shell:了解 Shell 是什么,為什么要學(xué)習(xí) Shell,以及它如何與操
作系統(tǒng)交互。
1.2 不同類型的 Shell 介紹:Bash、Zsh、Tcsh。
1.3 訪問 Shell:如何打開終端窗口,基礎(chǔ)的命令行界面操作。
2. 基礎(chǔ)命令
2.1 文件系統(tǒng)操作:wc, cd, ls, pwd, rm, cp, mv 等命令的使用。
2.2 文件操作:mkdir, touch, more, less, head, tail, grep, find 等命令。
2.3 權(quán)限和所有權(quán):使用 chmod, chown, chgrp 改變文件的權(quán)限和所有權(quán)。
2.4 文本處理:echo, cat, cut, sort, uniq, tr, awk, sed 等工具的基本使用。
2.5 歸檔和壓縮:tar, gzip, gunzip, zip, unzip 等命令的使用。
3. Shell 腳本編寫
3.1 Shell 變量和數(shù)據(jù)類型:定義和使用 String、int、float 和 array 變量。
3.2 流程控制與條件語句:if, else, elif, case 等語句的使用。
3.3 循環(huán)結(jié)構(gòu):for, while, until 循環(huán)的使用。
3.4 輸入和輸出:處理用戶輸入和腳本輸出。
3.5 引用和轉(zhuǎn)義字符:學(xué)習(xí)在命令行中正確使用單引號(hào)、雙引號(hào)和轉(zhuǎn)義字符。
3.6 高級(jí)文本編輯器 Vim 的配置和使用 Vim
3.7 創(chuàng)建和執(zhí)行 Shell 腳本:編寫一個(gè)簡(jiǎn)單的腳本并使其接收參數(shù)和執(zhí)行。
4. 高級(jí) Shell 編程
4.1 函數(shù)的高級(jí)用法:定義和使用函數(shù),學(xué)習(xí)如何傳遞參數(shù)和調(diào)用函數(shù)。
4.2 調(diào)試 Shell 腳本:如何調(diào)試 Shell 腳本,包括設(shè)置和使用調(diào)試選項(xiàng)。
4.3 基本正則表達(dá)式的應(yīng)用,學(xué)習(xí)文本處理三劍客 grep、sed、awk。
4.4 環(huán)境變量管理:了解 PATH 和其他環(huán)境變量的作用和管理方法。
5. 實(shí)用案例
5.1 案例 1: 使用 Python 運(yùn)行 Shell 腳本。
5.2 案例 2: 編寫一個(gè)自動(dòng)整理下載并整理蛋白質(zhì)序列數(shù)據(jù)的腳本。
5.3 案例 3: PDB 文件分析腳本的編寫。
第三天 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)基礎(chǔ)
1. 統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)
1.1 統(tǒng)計(jì)學(xué)習(xí)方法概述
1.2 傳統(tǒng)有監(jiān)督學(xué)習(xí)方法介紹
(a) 感知機(jī)與決策樹算法
(b) K 近鄰與樸素貝葉斯法
(c) 邏輯回歸與支持向量機(jī)算法
(d) 隨機(jī)森林算法與隱馬爾可夫模型
1.3 集成學(xué)習(xí)算法重點(diǎn)介紹:GBDT、XGBoost
1.4 無監(jiān)督學(xué)習(xí)與聚類算法
1.5 特征工程與模型評(píng)估
2. 神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)方法基礎(chǔ)
2.1 人工神經(jīng)網(wǎng)絡(luò)基礎(chǔ)知識(shí)
2.2 多層感知機(jī)
2.3 卷積神經(jīng)網(wǎng)絡(luò):學(xué)習(xí)卷積的內(nèi)涵、卷積的概念與特征、池化操作等
2.4 典型卷積神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu)、訓(xùn)練方法及應(yīng)用
2.5 循環(huán)神經(jīng)網(wǎng)絡(luò)基本原理與模型介紹
2.6 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型及應(yīng)用場(chǎng)景
3. 生成式神經(jīng)網(wǎng)絡(luò)
3.1 自動(dòng)編碼器
3.2 變分自動(dòng)編碼器
3.3 生成對(duì)抗網(wǎng)絡(luò)
(a) 生成對(duì)抗網(wǎng)絡(luò)基本原理
(b) Encoder-Decoder 模型
(c) DCGAN 和 WGAN 算法示例
4. 注意力機(jī)制
4.1 Seq2Seq 模型
4.2 (自)注意力機(jī)制模型的原理和工作機(jī)制
4.3 Transformer 模型及應(yīng)用
4.4 BERT 模型與預(yù)訓(xùn)練方法介紹
4.5 基于 BERT 模型實(shí)現(xiàn)文本生成實(shí)驗(yàn)
5. 深度學(xué)習(xí)蛋白質(zhì)設(shè)計(jì)入門
5.1 理解蛋白質(zhì)設(shè)計(jì)的主要概念
5.2 傳統(tǒng)從序列推斷功能的方式介紹
5.3 機(jī)器學(xué)習(xí)領(lǐng)域中預(yù)測(cè)蛋白質(zhì)功能的方法與局限性
5.4 了解 Pre-Trained Embeddings 方法的蛋白質(zhì)設(shè)計(jì)方法
5.5 生成模型在蛋白質(zhì)設(shè)計(jì)上的使用及優(yōu)勢(shì)
第四天 深度學(xué)習(xí)蛋白質(zhì)設(shè)計(jì)基礎(chǔ)
1. 深度學(xué)習(xí)蛋白質(zhì)設(shè)計(jì)概述
1.1 蛋白質(zhì)設(shè)計(jì)的背景與當(dāng)前現(xiàn)狀,
1.2 蛋白質(zhì)設(shè)計(jì)面臨的困難、傳統(tǒng)方法與途徑
(a) 從序列預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu):同源建模、共進(jìn)化信息
(b) 使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)
1.3 蛋白質(zhì)設(shè)計(jì)的關(guān)鍵點(diǎn):序列、結(jié)構(gòu)、功能、能量
1.4 蛋白質(zhì)設(shè)計(jì)的目標(biāo):設(shè)計(jì)一個(gè)給定結(jié)構(gòu)或功能的蛋白質(zhì)
1.5 當(dāng)前深度學(xué)習(xí)方法在蛋白質(zhì)設(shè)計(jì)中的進(jìn)展
(a) 基于序列的深度學(xué)習(xí)方法:DeepSequence,Progen,ProteinBERT 等
(b) 基于結(jié)構(gòu)的深度學(xué)習(xí)方法:AlphaFold2, ColabFold, RoseTTAFold,
OmegaFold 等
(c) 其他蛋白質(zhì)深度學(xué)習(xí)方法:
1.6 蛋白質(zhì)設(shè)計(jì)方法的評(píng)估(親和力、催化活性、配體特異性等)
2. 蛋白質(zhì)設(shè)計(jì)概述
1.1 蛋白質(zhì)序列表示形式
(a) 獨(dú)熱編碼(One-Hot Encoding)
(b) 嵌入表示(Learned Embedding)
(c) 特定位置評(píng)分矩陣(Position-Specific Scoring Matrix)
1.2 蛋白質(zhì)結(jié)構(gòu)的表示形式
(a) 基于順序和手工修正的表示
(b) Voxel 表示
(c) 距離圖
(d) 圖表示形式:圖和點(diǎn)云
1.3 蛋白質(zhì)結(jié)構(gòu)可視化工具介紹和使用
(a) 蛋白質(zhì)數(shù)據(jù)結(jié)構(gòu)文件格式 PDB 介紹
(b) PyMOL:查看和分析蛋白質(zhì)、DNA 和小分子的 3D 結(jié)構(gòu)
(c) Chimera:綜合性分子建模程序,提供多種分析和可視化功能,包括
體積數(shù)據(jù)的處理。
(d) VMD:一個(gè)分子可視化程序,用于使用 3D 圖形和內(nèi)置腳本顯示、動(dòng)
態(tài)化和分析大型生物分子系統(tǒng)。
1.4 蛋白質(zhì)設(shè)計(jì)的常用評(píng)估指標(biāo):NSR、RMSD、GDT、能量評(píng)分函數(shù)、可
溶性、與靶標(biāo)之間的結(jié)合強(qiáng)度和特異性
3. 蛋白質(zhì)數(shù)據(jù)庫(kù)介紹
1.1 一級(jí)蛋白質(zhì)序列數(shù)據(jù)庫(kù):UniProtKB
1.2 一級(jí)蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù):PDB
1.3 二級(jí)蛋白質(zhì)數(shù)據(jù)庫(kù):Pfam,CATH,SCOP2
1.4 專用數(shù)據(jù)庫(kù):KEGG,OMIM
4. 蛋白質(zhì)設(shè)計(jì)工具箱介紹
1.1 Rosetta:提供一個(gè)靈活的函數(shù)庫(kù)來完成一組不同生物分子的建模任務(wù),
完成對(duì)各種生物分子系統(tǒng)的預(yù)測(cè)、設(shè)計(jì)和分析,包括蛋白、RNA 和 DNA、肽、
小分子以及非標(biāo)準(zhǔn)或衍生氨基酸。
1.2 Foldit: 一個(gè)結(jié)合了游戲和科學(xué)的蛋白質(zhì)折疊和設(shè)計(jì)平臺(tái),允許用戶通過
游戲界面參與蛋白質(zhì)設(shè)計(jì)。
1.3 Bioluminate: 是 Schr?dinger 提供的一套生物分子建模和設(shè)計(jì)工具,包含
蛋白質(zhì)設(shè)計(jì)模塊。集成了高質(zhì)量的分子動(dòng)力學(xué)模擬和自由能計(jì)算,適用于精準(zhǔn)設(shè)
計(jì)和預(yù)測(cè)。
1.4 EvoDesign:一個(gè)基于進(jìn)化信息和結(jié)構(gòu)模擬的蛋白質(zhì)設(shè)計(jì)工具,主要用于
功能性蛋白質(zhì)設(shè)計(jì)。
1.5 OpenFold: 是 AlphaFold2 的開源實(shí)現(xiàn),具有相同的架構(gòu),但擁有改進(jìn)的
速度和內(nèi)存使用效率。
5. Rosetta 工具箱使用案例:一種基于統(tǒng)計(jì)勢(shì)函數(shù)的蛋白質(zhì)設(shè)計(jì)方法
1.1 統(tǒng)計(jì)勢(shì)函數(shù)的一般定義:基于對(duì)已知蛋白質(zhì)結(jié)構(gòu)的大規(guī)模數(shù)據(jù)庫(kù)的統(tǒng)計(jì)
分析,提取出各種結(jié)構(gòu)特征之間的概率分布。
1.2 蛋白質(zhì)設(shè)計(jì)中的統(tǒng)計(jì)勢(shì)函數(shù)介紹
(a) 學(xué)習(xí) Rosetta 工具箱中統(tǒng)計(jì)勢(shì)函數(shù)定義和基本理念
(b) Rosetta 工具箱中能量函數(shù)常見項(xiàng)及物理意義
1.3 基于 Rosetta 工具箱中統(tǒng)計(jì)勢(shì)函數(shù)的蛋白質(zhì)設(shè)計(jì)案例
(a) 使用 Rosetta 工具檢查輸入的 PDB 文件,預(yù)處理,確定設(shè)計(jì)目標(biāo)
(b) 執(zhí)行序列設(shè)計(jì)實(shí)驗(yàn),使用 Rosetta 的 PackRotamers 協(xié)議
(c) 使用 Rosetta 的標(biāo)準(zhǔn)能量函數(shù)(包括統(tǒng)計(jì)勢(shì)函數(shù))對(duì)設(shè)計(jì)結(jié)果進(jìn)行能
量評(píng)估
第五天 基于深度學(xué)習(xí)的蛋白質(zhì)設(shè)計(jì)進(jìn)階
1. 一種基于深度學(xué)習(xí)的蛋白質(zhì)序列設(shè)計(jì)模型 ProteinMPNN
1.1 ProteinMPNN 簡(jiǎn)介與核心理念:通過深度學(xué)習(xí)生成具有特定功能的蛋白
質(zhì)序列
1.2 ProteinMPNN 模型結(jié)構(gòu)與工作原理
(a) ProteinMPNN 技術(shù)分析
(b) ProteinMPNN 模型介紹
(c) ProteinMPNN 模型訓(xùn)練與模型推理
1.3 基于 ProteinMPNN 的蛋白質(zhì)設(shè)計(jì)應(yīng)用:設(shè)計(jì)新型抗菌肽
(a) 實(shí)驗(yàn)流程:環(huán)境配置,數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、篩選與驗(yàn)證。
(b) 實(shí)驗(yàn)總結(jié):學(xué)會(huì)如何應(yīng)用 ProteinMPNN 進(jìn)行實(shí)際的蛋白質(zhì)設(shè)計(jì)任務(wù)。
2. 從統(tǒng)計(jì)分析到深度殘差網(wǎng)絡(luò)的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)算法
2.1 直接耦合分析和互信息計(jì)算:分析蛋白質(zhì)序列中殘基之間的相互作用信
息來推測(cè)它們之間的耦合關(guān)系或互信息。
2.2 深度殘差網(wǎng)絡(luò)和蛋白質(zhì)接觸圖預(yù)測(cè):深度殘差網(wǎng)絡(luò)可以用來預(yù)測(cè)蛋白質(zhì)
的接觸圖,即殘基之間的接觸概率或距離,從而揭示蛋白質(zhì)的結(jié)構(gòu)信息。
2.3 蛋白質(zhì)距離矩陣預(yù)測(cè):預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)中所有殘基對(duì)之間的距離或接近
程度。
2.4 圖神經(jīng)網(wǎng)絡(luò)方法:捕捉蛋白質(zhì)結(jié)構(gòu)中殘基之間復(fù)雜的相互作用和依賴關(guān)
系。
3. 從幾何約束的梯度下降法到端到端深度學(xué)習(xí)的蛋白結(jié)構(gòu)預(yù)測(cè)
1.1 梯度下降法和其在蛋白結(jié)構(gòu)優(yōu)化中的應(yīng)用概述。
1.2 幾何約束如何被集成到梯度下降法中,以實(shí)現(xiàn)特定的結(jié)構(gòu)優(yōu)化目標(biāo)。
1.3 端到端幾何深度學(xué)習(xí)方法介紹以及在蛋白結(jié)構(gòu)預(yù)測(cè)中的優(yōu)勢(shì)和挑戰(zhàn)。
1.4 AlphaFold 等先進(jìn)模型如何利用端到端深度學(xué)習(xí)實(shí)現(xiàn)高效精準(zhǔn)的蛋白質(zhì)
結(jié)構(gòu)預(yù)測(cè)。
(a) TrRosetta 介紹:使用了經(jīng)過調(diào)整的殘基接觸預(yù)測(cè)方法,通過分析多
序列對(duì)應(yīng)(MSA)和殘基間的共進(jìn)化信息來推斷蛋白質(zhì)的三維結(jié)構(gòu)。
(b) AlphaFold 介紹:使用了端到端的深度學(xué)習(xí)模型,結(jié)合了殘基對(duì)應(yīng)、
殘基接觸預(yù)測(cè)和結(jié)構(gòu)優(yōu)化等步驟,以預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
(c) RoseTTAFold 介紹:基于 AlphaFold 的技術(shù)思路進(jìn)行開發(fā)的一種端到
端幾何深度學(xué)習(xí)方法, 綜合利用 MSA、距離和 3D 坐標(biāo)信息,提高
結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確性。
4. Alphafold2 詳解
4.1 AlphaFold2 的發(fā)展背景及其前身 AlphaFold 的演變過程。
4.2 AlphaFold2 的工作原理
(a) 多序列對(duì)應(yīng)(MSA)和殘基接觸預(yù)測(cè):利用多序列對(duì)應(yīng)信息和殘基
間的共進(jìn)化信號(hào)來預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
(b) Evoformer 架構(gòu):介紹 AlphaFold2 中使用的 Evoformer 架構(gòu),包括其
在特征提取和結(jié)構(gòu)預(yù)測(cè)中的應(yīng)用。
4.3 AlphaFold2 的算法和技術(shù)細(xì)節(jié)
(a) 神經(jīng)網(wǎng)絡(luò)架構(gòu):AlphaFold2 中的主要神經(jīng)網(wǎng)絡(luò)架構(gòu)和層次結(jié)構(gòu)。
(b) 訓(xùn)練和優(yōu)化:AlphaFold2 如何通過大規(guī)模數(shù)據(jù)集的訓(xùn)練來優(yōu)化結(jié)構(gòu)
預(yù)測(cè)的準(zhǔn)確性。
4.4 了解 AlphaFold3 相比于 AlphaFold2 的優(yōu)勢(shì)
5. RoseTTAFold 詳解
5.1 RoseTTAFold 背景和基本概念
5.2 RoseTTAFold 的工作原理與技術(shù)細(xì)節(jié)
(a) 多序列對(duì)應(yīng)(MSA)和殘基接觸預(yù)測(cè):RoseTTAFold 如何利用多序
列對(duì)應(yīng)信息和殘基間的共進(jìn)化信號(hào)來預(yù)測(cè)蛋白質(zhì)的三維結(jié)構(gòu)。
(b) 深度神經(jīng)網(wǎng)絡(luò)架構(gòu):RoseTTAFold 中使用的主要神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和層
次。
(c) 模型架構(gòu)和訓(xùn)練:詳細(xì)介紹 RoseTTAFold 的模型架構(gòu),如何訓(xùn)練和
優(yōu)化模型以提高預(yù)測(cè)準(zhǔn)確性。
5.3 RoseTTAFold 的優(yōu)勢(shì)和局限性。
6. 案例演示
6.1 使用 AlphaFold2 進(jìn)行蛋白質(zhì)結(jié)構(gòu)在線預(yù)測(cè)
6.2 使用 RoseTTAFold All-Atom(RFAA)進(jìn)行蛋白-小分子復(fù)合物結(jié)構(gòu)預(yù)測(cè)
6.3 RoseTTAFold、ProteinMPNN 和 AlphaFold 之間的主要區(qū)別
第六天 深度學(xué)習(xí)蛋白質(zhì)設(shè)計(jì)應(yīng)用實(shí)戰(zhàn)
1. 基于 AlphaFold2 多體蛋白結(jié)構(gòu)預(yù)測(cè)與設(shè)計(jì)
1.1 多序列比對(duì)與序列拼接配對(duì)問題
(a) 多序列比對(duì)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的關(guān)鍵作用。
(b) 序列拼接配對(duì)問題如何影響蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確
(c) AlphaFold2 中模板匹配的原理及其應(yīng)用范圍。
(d) 多肽和蛋白質(zhì)柔性對(duì)接的挑戰(zhàn)和解決方案。
2. 基于 AlphaFold2 做蛋白結(jié)構(gòu)和序列新設(shè)計(jì)及結(jié)構(gòu)聚類
2.1 AlphaFold2 如何實(shí)現(xiàn)蛋白質(zhì)序列和結(jié)構(gòu)的新設(shè)計(jì)
2.2 結(jié)構(gòu)聚類與新功能發(fā)現(xiàn)
(a) Alphadatabase 數(shù)據(jù)庫(kù)的結(jié)構(gòu)分析與新功能發(fā)現(xiàn)。
(b) 使用 Foldseek 工具進(jìn)行新結(jié)構(gòu)的探索與功能預(yù)測(cè)。
3. 基于 AlphaFold2 做多構(gòu)象預(yù)測(cè)與質(zhì)量評(píng)估
3.1 多構(gòu)象預(yù)測(cè)與功能發(fā)現(xiàn)
(a) 多序列比對(duì)采樣聚類分析在蛋白質(zhì)多構(gòu)象預(yù)測(cè)中的應(yīng)用。
(b) 不同 MSA 對(duì)蛋白質(zhì)構(gòu)象預(yù)測(cè)和功能發(fā)現(xiàn)的影響。
3.2 模型質(zhì)量評(píng)估與側(cè)鏈構(gòu)象優(yōu)化
(a) 三角機(jī)制如何提升蛋白質(zhì)模型質(zhì)量評(píng)估的準(zhǔn)確性。
(b) 局部三角機(jī)制和 Evoformer 在蛋白質(zhì)側(cè)鏈構(gòu)象預(yù)測(cè)中的應(yīng)用和效果
評(píng)估。
4. RFdiffusion 實(shí)現(xiàn)通用性蛋白結(jié)構(gòu)生成
4.1 RFdiffusion 基于指定骨架的蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)核心知識(shí)點(diǎn):
4.2 利用用戶提供的特定結(jié)構(gòu)框架進(jìn)行蛋白質(zhì)結(jié)構(gòu)設(shè)計(jì)應(yīng)用案例:
(a) 無約束單體設(shè)計(jì)(contigmap):全新骨架的蛋白質(zhì)結(jié)構(gòu)創(chuàng)新設(shè)計(jì),通
過 RFdiffusion 實(shí)現(xiàn)從頭生成新穎、非同源蛋白質(zhì)結(jié)構(gòu);
(b) 特定骨架引導(dǎo)設(shè)計(jì) (scaffoldguided):利用已有結(jié)構(gòu)骨架指導(dǎo)蛋白質(zhì)
結(jié)構(gòu)創(chuàng)新與改造。
5. ProteinGenerator 與 Rosettafold AA 的進(jìn)階應(yīng)用
5.1 ProteinGenerator 實(shí)現(xiàn)蛋白質(zhì)骨架與序列的 co-design
(a) 隱空間中蛋白質(zhì)序列和結(jié)構(gòu)的聯(lián)合分布模型。
(b) 與 RFdiffusion 在設(shè)計(jì)中的異同和比較分析。
5.2 Rosettafold AA 實(shí)現(xiàn)多類生物大分子結(jié)構(gòu)預(yù)測(cè)與生成
(a) 加入小分子結(jié)構(gòu)預(yù)測(cè)器的 Rosettafold AA 版本。
(b) 將局部坐標(biāo)系遷移到小分子結(jié)構(gòu)的技術(shù)與方法。
6. 一種蛋白質(zhì)生成模型 Chroma 的基本構(gòu)架與實(shí)現(xiàn)
6.1 Chroma 模型的基本架構(gòu)和理論背景。
6.2 利用 Chroma 逼近蛋白構(gòu)象空間全空間采樣和生成的方法。
第七天 大語言模型在蛋白質(zhì)設(shè)計(jì)中的應(yīng)用進(jìn)展
1.蛋白質(zhì)大預(yù)言模型發(fā)展現(xiàn)狀
1.1 介紹當(dāng)前基于不同結(jié)構(gòu)的蛋白質(zhì)語言模型
2. ProGen 介紹
2.1 ProGen 模型構(gòu)架講解及其優(yōu)勢(shì)
2.2 ProGen 的性能與改進(jìn)
3. ESMFold 介紹
3.1 ESM 網(wǎng)絡(luò)構(gòu)架介紹
3.2 ESMFold 環(huán)境配置與使用步驟講解
3.3 ESMFold 運(yùn)行結(jié)構(gòu)預(yù)測(cè)及性能評(píng)估
3.4 ESMFold 與 AlphaFold2 方法的對(duì)比
4. ProLLaMA:用于多任務(wù)蛋白質(zhì)語言處理的蛋白質(zhì)大語言模型
4.1 ProLLaMA 模型介紹
4.2 ProLLaMA 訓(xùn)練框架概述及應(yīng)用特色
5. ProteinBERT:蛋白質(zhì)序列和功能的通用深度學(xué)習(xí)模型
5.1 ProteinBERT 方法概述與框架介紹
5.2 ProteinBERT 的優(yōu)勢(shì)及應(yīng)用場(chǎng)景
6. 深度學(xué)習(xí)算法在多肽設(shè)計(jì)的應(yīng)用
6.1 基于 RF diffusion 實(shí)現(xiàn)多肽設(shè)計(jì)
6.2 基于 AlphaFold2 梯度下降進(jìn)行多肽骨架和序列設(shè)計(jì)
6.3 多肽對(duì)接算法介紹:
(a) 基于 AutoDock 的多肽對(duì)接
(b) 基于 AlphaFold2 的多肽柔性對(duì)接
(c) 其他對(duì)接算法
6.4 基于多肽蛋白復(fù)合物訓(xùn)練的深度學(xué)習(xí)多肽設(shè)計(jì)算法
3.?掌握單細(xì)胞轉(zhuǎn)錄組基礎(chǔ)分析及高級(jí)分析
4.?掌握單細(xì)胞轉(zhuǎn)錄組多樣本比較分析
5.?掌握單細(xì)胞ATAC數(shù)據(jù)分析,以及與轉(zhuǎn)錄組數(shù)據(jù)聯(lián)合分析
6.?掌握單細(xì)胞VDJ數(shù)據(jù)分析,以及與轉(zhuǎn)錄組數(shù)據(jù)聯(lián)合分析
單細(xì)胞測(cè)序原理及測(cè)序平臺(tái)介紹
單細(xì)胞相關(guān)數(shù)據(jù)庫(kù)介紹
單細(xì)胞數(shù)據(jù)分析流程介紹
單細(xì)胞研究思路及案例分享
R語言簡(jiǎn)介
R語言概述
R軟件及R包安裝
R語言語法及數(shù)據(jù)類型
條件語句
循環(huán)
函數(shù)
Day 2
單樣本轉(zhuǎn)錄組數(shù)據(jù)基礎(chǔ)分析
數(shù)據(jù)質(zhì)控及歸一化
降維(PCA, tSNE, UMAP)
聚類分析
鑒定marker基因
細(xì)胞亞群注釋
功能富集分析
單樣本轉(zhuǎn)錄組數(shù)據(jù)高級(jí)分析
GSEA分析與GSVA分析
細(xì)胞亞群繼續(xù)分群
細(xì)胞周期分析
擬時(shí)序分析
細(xì)胞通訊分析
代謝分析
RNA velocity分析
h5ad轉(zhuǎn)seurat對(duì)象
Day 3
RNAseq與膜表面蛋白數(shù)據(jù)整合分析
RNAseq分群效果與膜蛋白分群效果比較
RNAseq與膜蛋白數(shù)據(jù)整合后分群
基因與蛋白表達(dá)相關(guān)性
多組樣本轉(zhuǎn)錄組數(shù)據(jù)分析
質(zhì)控、歸一化
降維、聚類
鑒定marker基因,細(xì)胞亞群注釋
樣本間細(xì)胞亞群頻率比較
樣本間差異表達(dá)基因分析
繪制小提琴圖、散點(diǎn)圖、山脊圖、火山圖、熱圖、氣泡圖、feature plot
Day 4
單細(xì)胞ATAC數(shù)據(jù)分析
細(xì)胞亞群peak鑒定
Motif富集分析
motif deviation
轉(zhuǎn)錄因子足跡分析
基因富集分析
peak co-accessibility分析
單細(xì)胞ATAC擬時(shí)序分析
單細(xì)胞ATAC與轉(zhuǎn)錄組的整合分析
Day 5
單細(xì)胞VDJ分析
VDJ分析以及可視化
檢測(cè)克隆型
克隆型豐度
CDR3組成
比較克隆型
克隆空間穩(wěn)態(tài)
克隆比例
重疊分析
多樣性分析
轉(zhuǎn)錄組聯(lián)合VDJ分析
課程案例圖片:
(1) 代謝生理功能;
(2) 代謝疾?。?/p>
(3) 非靶向與靶向代謝組學(xué);
(4) 空間代謝組學(xué)與質(zhì)譜成像(MSI);
(5) 代謝流與機(jī)制研究;
(6) 代謝組學(xué)與藥物和生物標(biāo)志物。
A2代謝組學(xué)實(shí)驗(yàn)流程簡(jiǎn)介
A3色譜、質(zhì)譜硬件原理
(1) 色譜分析原理;
(2) 色譜的氣相、液相和固相;
(3) 色譜儀和色譜柱的選擇;
(4) 質(zhì)譜分析原理及動(dòng)畫演示;
(5) 正、負(fù)離子電離模式;
(6) 色譜質(zhì)譜聯(lián)用技術(shù);
(7)LC-MS的液相系統(tǒng)
A4代謝物樣本處理與抽提
(1)組織、血液和體液樣本的提取流程與注意事項(xiàng);
(2)用ACN抽提代謝物的流程與注意事項(xiàng);
(3)樣本及代謝物的運(yùn)輸與保存問題;
第二天
B1代謝通路及代謝數(shù)據(jù)庫(kù)
(1) 幾種經(jīng)典代謝通路簡(jiǎn)介;
(2) 能量代謝通路;
(3) 三大常見代謝物庫(kù):HMDB、METLIN和KEGG;
(4) 代謝組學(xué)原始數(shù)據(jù)庫(kù):Metabolomics Workbench和Metabolights.
B2 LC-MS數(shù)據(jù)質(zhì)控與搜庫(kù)
(1)LC-MS實(shí)驗(yàn)過程中QC樣本的設(shè)置方法;
(2)LC-MS上機(jī)過程的數(shù)據(jù)質(zhì)控監(jiān)測(cè)和分析;
(3) 代謝組學(xué)上游分析原理——基于 Compound Discoverer 與 Xcms 軟件;
(4)XCMS軟件數(shù)據(jù)轉(zhuǎn)換與提峰;
B3 R軟件基礎(chǔ)
(1)R和Rstudio的安裝;
(2)Rstudio的界面配置;
(3)R的基本數(shù)據(jù)結(jié)構(gòu)和語法;
(4)下載與加載包;
(5)函數(shù)調(diào)用和debug;
B4 ggplot2
(1)安裝并使用ggplot2
(2)ggplot2的畫圖哲學(xué);
(3)ggplot2的配色系統(tǒng);
(4)ggplot2畫組合圖和火山圖;
B5 學(xué)習(xí)資源分享
(1)代謝組學(xué)學(xué)習(xí)資料
(2)R語言學(xué)習(xí)資料
第三天
C1機(jī)器學(xué)習(xí)簡(jiǎn)介
(1)有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)
(2)生物信息中十大機(jī)器學(xué)習(xí)算法
C2無監(jiān)督式機(jī)器學(xué)習(xí)在代謝組學(xué)數(shù)據(jù)處理中的應(yīng)用
(1)大數(shù)據(jù)處理中的降維;
(2)PCA分析作圖;
(3)三種常見的聚類分析:K-means、層次分析與SOM
(4)熱圖和hcluster圖的R語言實(shí)現(xiàn);
C3一組代謝組學(xué)數(shù)據(jù)的降維與聚類分析的R演練
(1)數(shù)據(jù)解析;
(2)演練與操作;
C4有監(jiān)督式機(jī)器學(xué)習(xí)在代謝組學(xué)數(shù)據(jù)處理中的應(yīng)用
(1)數(shù)據(jù)用PCA降維處理后仍然無法找到差異怎么辦?
(2)PLS-DA找出最可能影響差異的代謝物;
(3)VIP score和coef的意義及選擇;
(4)分類算法:支持向量機(jī),隨機(jī)森林
C5一組代謝組學(xué)數(shù)據(jù)的分類算法實(shí)現(xiàn)的R演練
(1)數(shù)據(jù)解讀;
(2)演練與操作;
第四天
D1代謝組學(xué)數(shù)據(jù)清洗與R語言進(jìn)階
(1)代謝組學(xué)中的t、fold-change和響應(yīng)值;
(2)數(shù)據(jù)清洗流程;
(3)R語言tidyverse
(4)R語言正則表達(dá)式;
(5)代謝組學(xué)數(shù)據(jù)過濾;
(6)代謝組學(xué)數(shù)據(jù)Scaling原理與R實(shí)現(xiàn);
(7)代謝組學(xué)數(shù)據(jù)的Normalization;
(8)代謝組學(xué)數(shù)據(jù)清洗演練;
D2在線代謝組分析網(wǎng)頁(yè)Metaboanalyst操作
(1)用R將數(shù)據(jù)清洗成網(wǎng)頁(yè)需要的格式;
(2)獨(dú)立組、配對(duì)組和多組的數(shù)據(jù)格式問題;
(3)Metaboanalyst的pipeline和注意事項(xiàng);
(4)Metaboanalyst的結(jié)果查看和導(dǎo)出;
(5)Metaboanalyst的數(shù)據(jù)編輯;
(6)全流程演練與操作
第五天
E1機(jī)器學(xué)習(xí)與代謝組學(xué)頂刊解讀(2-3篇);
(1)代謝組學(xué)和機(jī)器學(xué)習(xí)算法預(yù)測(cè)中國(guó)2型糖尿病的未來發(fā)展;
(2)機(jī)器學(xué)習(xí)與代謝組學(xué)相結(jié)合,為胃癌診斷和預(yù)后指明方向
(3)1-2篇代謝組學(xué)與轉(zhuǎn)錄組學(xué)和蛋白組學(xué)結(jié)合的文獻(xiàn)。
E2文獻(xiàn)數(shù)據(jù)分析部分復(fù)現(xiàn)(1篇)
(1)文獻(xiàn)深度解讀;
(2)實(shí)操:從原始數(shù)據(jù)下載到圖片復(fù)現(xiàn);
(3)學(xué)員實(shí)操。
授課時(shí)間
深度學(xué)習(xí)蛋白質(zhì):
2024.08.17—–2024.08.18全天授課(上午9:00-11:30下午13:30-17:00)
2024.08.23晚上授課(晚上19:00-22:00)
2024.08.24—–2024.08.25全天授課(上午9:00-11:30下午13:30-17:00)
2024.08.30晚上授課(晚上19:00-22:00)
2024.08.31—–2024.09.01全天授課(上午9:00-11:30下午13:30-17:00)
單細(xì)胞多組學(xué):
2024.08.03—–2024.08.04全天授課(上午9:00-11:30下午13:30-17:00)
2024.08.05—–2024.08.06晚上授課(晚上19:00-22:00)
2024.08.10—–2024.08.11全天授課(上午9:00-11:30下午13:30-17:00)
騰訊會(huì)議 線上授課(共五天授課時(shí)間 提供全程回放視頻)
機(jī)器學(xué)習(xí)代謝組學(xué):
2024.08.10—–2024.08.11全天授課(上午9:00-11:30下午13:30-17:00)
2024.08.12—–2024.08.13晚上授課(晚上19:00-22:00)
2024.08.17—–2024.08.18全天授課(上午9:00-11:30下午13:30-17:00)
報(bào)名費(fèi)用
深度學(xué)習(xí)蛋白質(zhì)設(shè)計(jì)
公費(fèi)價(jià):每人每班¥6880元 (含報(bào)名費(fèi)、培訓(xùn)費(fèi)、資料費(fèi)提供課后全程回放資料)
自費(fèi)價(jià):每人每班¥6480元 (含報(bào)名費(fèi)、培訓(xùn)費(fèi)、資料費(fèi)提供課后全程回放資料)
單細(xì)胞多組學(xué)、機(jī)器學(xué)習(xí)代謝組學(xué)
公費(fèi)價(jià):每人每班¥5680元 (含報(bào)名費(fèi)、培訓(xùn)費(fèi)、資料費(fèi)提供課后全程回放資料)
自費(fèi)價(jià):每人每班¥5380元 (含報(bào)名費(fèi)、培訓(xùn)費(fèi)、資料費(fèi)提供課后全程回放資料)
優(yōu)惠政策
優(yōu)惠一:報(bào)二贈(zèng)一:10880(原價(jià)18240元,三門課程都可以學(xué)習(xí))
優(yōu)惠二:提前報(bào)名繳費(fèi)學(xué)員+轉(zhuǎn)發(fā)到朋友圈或者到學(xué)術(shù)交流群可享受每人300元優(yōu)惠(僅限15名)
報(bào)名費(fèi)用可開具正規(guī)報(bào)銷發(fā)票及提供相關(guān)繳費(fèi)證明、邀請(qǐng)函,可提前開具報(bào)銷發(fā)票、文件用于報(bào)銷
培訓(xùn)福利
課后學(xué)習(xí)完畢提供全程錄像視頻回放,針對(duì)與培訓(xùn)課程內(nèi)容 進(jìn)行長(zhǎng)期答疑,微信解疑群永不解散,參加本次課程的學(xué)員可免費(fèi)再參加一次本單位后期組織的相同的 專題培訓(xùn)班(任意一期都可以)
授課方式
授課方式及學(xué)員反饋
通過騰訊會(huì)議線上直播,從零基礎(chǔ)開始講解,1300余頁(yè)電子PPT和教程提前發(fā)送給學(xué)員,所有培訓(xùn)使用軟件都會(huì)發(fā)送給學(xué)員,附贈(zèng)安裝教程和指導(dǎo)安裝,培訓(xùn)采取開麥共享屏幕和微信群解疑,學(xué)員和老師交流、學(xué)員與學(xué)員交流,培訓(xùn)完畢后老師針對(duì)與培訓(xùn)內(nèi)容長(zhǎng)期解疑,培訓(xùn)群不解散,往期培訓(xùn)學(xué)員對(duì)于培訓(xùn)質(zhì)量和授課方式一致評(píng)價(jià)極高
有來自四川大學(xué)、四川師范大學(xué)、中國(guó)科學(xué)院大學(xué)、西安電子科技大學(xué)、陜西科技大學(xué)、東北林業(yè)大學(xué)、渤海大學(xué)、海南大學(xué)、廣西中醫(yī)藥大學(xué)、北京化工大學(xué)、成都大學(xué)、香港浸會(huì)大學(xué)中醫(yī)藥學(xué)院、贛南師范大學(xué)、重慶陸軍勤務(wù)學(xué)院、齊魯工業(yè)大學(xué)、陜西科技大學(xué)、陜西師范大學(xué)、中科院大學(xué)?、浙江工商大學(xué)、成都中醫(yī)藥大學(xué)、上海交通大學(xué)、哈爾濱商業(yè)大學(xué)、中國(guó)人民解放軍海軍軍醫(yī)大學(xué)、西安電子科技大學(xué)、中國(guó)農(nóng)業(yè)大學(xué)、南昌大學(xué)、新疆醫(yī)科大學(xué)、山東農(nóng)業(yè)大學(xué)、合肥工業(yè)大學(xué)、清華大學(xué)、華中農(nóng)業(yè)大學(xué)、山東理工大學(xué)、北京工商大學(xué)、河南大學(xué)、江蘇大學(xué)、江南大學(xué)、大連工業(yè)大學(xué)、華南理工大學(xué)、華南農(nóng)業(yè)大學(xué)、成都中醫(yī)藥大學(xué)、東北林業(yè)大學(xué)、北京大學(xué)、浙江大學(xué)、浙江工業(yè)大學(xué)、中南大學(xué)、復(fù)旦大學(xué)、南京農(nóng)業(yè)大學(xué)、齊魯工業(yè)大學(xué)、東北大學(xué)、國(guó)防科技大學(xué)、江蘇海洋大學(xué)、華東理工大學(xué)、華中科技大學(xué)、湖北大學(xué)、中國(guó)醫(yī)學(xué)科學(xué)院、西南大學(xué)、中南大學(xué)湘雅醫(yī)院、山西省人民醫(yī)院、中國(guó)藥科大學(xué)、西安市中醫(yī)醫(yī)院、首都醫(yī)科大學(xué)附屬北京友誼醫(yī)院、上海市第十人民醫(yī)院、協(xié)和藥物研究所、中國(guó)農(nóng)業(yè)科學(xué)院基因組研究所、廣州中醫(yī)藥大學(xué)、上海中醫(yī)藥大學(xué)、上海理工大學(xué)、成都中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、武漢大學(xué)、香港大學(xué)、安陽(yáng)工學(xué)院、沈陽(yáng)藥科大學(xué)、中山大學(xué)腫瘤防治中心、山東中醫(yī)藥大學(xué)、寧波大學(xué)、寧夏大學(xué)、山東大學(xué)、甘肅中醫(yī)藥大學(xué)、醫(yī)學(xué)院附屬仁濟(jì)醫(yī)院、杭州醫(yī)學(xué)院、廣州醫(yī)科大學(xué)附屬腫瘤醫(yī)院等工程師老師學(xué)生參會(huì),還有許多因?yàn)闀r(shí)間沖突沒法參加。這次,我們誠(chéng)摯邀請(qǐng)您來參加!
報(bào)名咨詢請(qǐng)二維碼掃描下方微信
報(bào)名微信:vicolee2021


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。