從讀到寫

基因是生命的語言,在過去幾十年里,基因組測序和合成的過程,就是一部生命語言的發(fā)展史。在日前的”尹哥的深夜課堂“里,華大基因CEO尹燁博士以《基因傳:從讀到寫》為題,和我們分享了這部磅礴遼遠的發(fā)展史。
真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO

一、生命語言的讀

真·基因傳:從讀到寫-肽度TIMEDOO
和人類的傳統(tǒng)語言認(rèn)知一樣,人類對生命語言的掌握也是從最初的“讀”開始。Sanger 測序初露端倪1965年,美國康奈爾大學(xué)的生化學(xué)家羅伯特·霍利(Robert Holley)采用類似蛋白質(zhì)測序“化整為零”的方法,耗時7年(3年分離RNA,4年測序)測定了一條只有77個堿基的酵母轉(zhuǎn)運RNA序列。這算得上第一個被測定序列的核酸分子。而他也在1968年與尼倫伯格、獲拉納一起分享了當(dāng)年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。

1977年,弗雷德里克·桑格(Frederick Sanger)用雙脫氧法測定了噬菌體φX174的基因組序列,長度為5386個堿基,這是人類第一次測定一個生物體完整的基因組。但事實上這是指第一個DNA的基因組測定,第一個RNA的基因組測定其實是噬菌體MS2,由比利時根特大學(xué)的瓦爾特·菲爾斯(Walter Fiers)在1976年鑒定并公布,比前者早一年。也正是基于桑格的第一個DNA噬菌體測序,估算一個堿基的測序成本約為10美金,這就是最早人類基因組計劃預(yù)估300億美金的由來。

1980年,桑格與沃爾特·吉爾伯特(Walter Gilbert)和保羅﹒伯格(Paul Berg)一起分享了諾貝爾化學(xué)獎,成為歷史上唯一一位兩次榮獲諾貝爾化學(xué)獎的科學(xué)家。

利用Sanger雙脫氧終止法的測序原理,結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳技術(shù)來實現(xiàn)測序的自動化,很多物種的基因組破譯得以實現(xiàn)。Sanger測序技術(shù)的優(yōu)點是測序讀長長,能達到800-1K bp,且用時短,只需要幾十分鐘即可完成一次測序,準(zhǔn)確度高達99.999%,目前仍是測序的金標(biāo)準(zhǔn);2001年完成的首個人類基因組圖譜就是以改進了的Sanger法為其測序基礎(chǔ)。缺點是通量低、成本高,影響了其真正大規(guī)模的應(yīng)用。

此后,第一個測序的模式植物擬南芥于2000年完成。重要的糧食作物水稻基因組于2002年完成,第一個測序的家禽家雞基因組于2004年完成,高重復(fù)玉米基因組于2009年完成,這幾個項目華大都深度參與了。

真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO短讀長測序快速崛起2010年,大熊貓基因組測序研究項目完成,繪制出基因組精細(xì)圖。這是中國科學(xué)家第一次全面系統(tǒng)地對大熊貓基因組進行測序研究,也是全球第一個完全使用短讀長合成法測序技術(shù)完成的基因組序列圖,全部組裝和分析軟件都是深圳生命科學(xué)研究院(原深圳華大基因研究院)自主編寫。這一成果證明了短序列也能組裝成完整基因組,并成為基因組繪圖的國際標(biāo)準(zhǔn),集中體現(xiàn)了中國的科技競爭力和中國科學(xué)家的創(chuàng)新能力。

短讀長測序系統(tǒng)在2005-2007年因其可同時進行大量平行測序反應(yīng)而廣為人知。這些系統(tǒng)可以同時分析百萬甚至上億個序列反應(yīng)。短讀長測序技術(shù)相比Sanger測序大幅降低了成本,保持了較高準(zhǔn)確性,并且大幅降低了測序時間,將一個人類基因組測序從數(shù)年降至幾天之內(nèi)。

自從有了短讀長大規(guī)模高通量并行測序技術(shù),行業(yè)真正進入到物種破譯的“寒武紀(jì)”。2011年的土豆基因組、2012年第一個軟體動物牡蠣基因組、2012年第一個六倍體物種小麥基因組、2013年復(fù)雜昆蟲小菜蛾基因組、2014年火炬松基因組(迄今最大的植物基因組)的測序相繼完成。

真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO
長讀長測序法高質(zhì)量的參考基因組對研究非常重要,但是某些復(fù)雜動植物基因組(高重復(fù)序列、高雜合率)一直是基因組組裝的難題。測序技術(shù)經(jīng)過Sanger技術(shù)、短讀長技術(shù)的發(fā)展,讀長從最初的近1000bp降到了幾百bp,通量和速度大幅提升。為了彌補了讀長較短的劣勢,長讀長測序技術(shù)應(yīng)運而生。最大的特點就是單分子測序,測序過程無需進行PCR擴增。

長讀長測序技術(shù)以其獨特的長讀長優(yōu)勢,可以很好地解決復(fù)雜基因組組裝的難題。2015年發(fā)表在Nature上的復(fù)活草基因組文章,利用純長讀長測序技術(shù)完成,相比短讀長測序的動植物基因組,在組裝質(zhì)量上有了很大改善 。

2016年海馬基因組、銀杏基因組,2017年人參基因組、潘那利番茄基因組,2018年六角恐龍/蠑螈基因組(迄今為止最大的基因組)、3000株水稻項目紛紛完成。其中3000株水稻項目首次實現(xiàn)了在頂級期刊Nature中使用漢字。2019年,首次對整個云南瑞麗植物園的761份樣本進行全基因組測序,在植物研究史上添上了濃墨重彩的一筆。

真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO真·基因傳:從讀到寫-肽度TIMEDOO

二、生命語言的寫

真·基因傳:從讀到寫-肽度TIMEDOO
和人類對語言的認(rèn)知規(guī)律一樣,當(dāng)我們知道了基因的序列就是生命的語言,會讀了必然要去寫。對標(biāo)到基因語言上,合成基因、染色體就像最初開始寫句子、日記,合成物種相當(dāng)于已經(jīng)寫出華麗的文章來了。從1828年的尿素合成到2017年的酵母基因組合成,尹燁博士細(xì)數(shù)了一百多年來的生物合成史上的關(guān)鍵節(jié)點,涵蓋了氨基酸肽鏈、維生素C、奎寧、蛋白質(zhì)牛胰島素、葉綠素、青蒿素、多利羊克隆等重要合成技術(shù)突破,展示了波瀾壯闊的合成生物史。
真·基因傳:從讀到寫-肽度TIMEDOO
2017年3月,作為基因組合成領(lǐng)域的科學(xué)里程碑項目—— “人工合成酵母基因組計劃(Sc2.0 Project)”在國際合作組的通力協(xié)作下,取得了重大突破性進展。國際協(xié)作組宣布完成2號、5號、6號、10號和12號這5條染色體的從頭設(shè)計與全合成,并從多個方面進行了深入分析,最終獲得與普通酵母菌高度一致的人工合成酵母菌。人造酵母新生命的誕生,標(biāo)志著合成生物學(xué)里程碑式的進展。這個領(lǐng)域的快速突破,將變革生物制造、醫(yī)藥、能源、環(huán)境、農(nóng)業(yè)等領(lǐng)域,帶來顛覆性的發(fā)展。

三、生命語言的發(fā)展和未來

生物合成的未來就是測序的現(xiàn)在,可以說,科技服務(wù)未來在于合成生物學(xué)。
真·基因傳:從讀到寫-肽度TIMEDOO
在演講中,尹燁博士對比讀寫成本,引出SZ Index概念,指出大規(guī)模自動化的大片段基因組DNA合成技術(shù)是未來基因組合成中提高效率和降低成本的重要手段,總體成本應(yīng)降低到每堿基1美分,是國際上未來的發(fā)展趨勢。
真·基因傳:從讀到寫-肽度TIMEDOO
工欲善其事必先利其器。第一個人類基因組草圖經(jīng)6個國家的精英科學(xué)家、耗時13年、耗費38億美金;第一個中國人的基因組耗時數(shù)月、耗費300萬美金。隨著測序技術(shù)的迅猛發(fā)展,個人全基因組測序的費用以超摩爾定律的速度下降。華大在2015年底推出了自主測序平臺BGISEQ-500,并于1年后推出600美元的WGS產(chǎn)品,引領(lǐng)業(yè)界真正進入了百元基因組時代。WGS是目前大規(guī)模獲得人高質(zhì)量基因序列信息的主要手段,這些海量的數(shù)據(jù)將被用于評估個人健康和疾病,是助力精準(zhǔn)醫(yī)學(xué)的第一步。此外,華大還先后提出了“生命周期表”計劃和“地球生物基因組計劃”,旨在對已知物種進行測序,尋找基因組之間的關(guān)聯(lián),進一步挖掘隱藏在數(shù)據(jù)背后的生命規(guī)律。

四、不應(yīng)被遺忘的“基因傳”

在演講的最后,尹燁博士特別分享了自己對于暢銷書《基因傳》的補充意見。作為一部以“傳”為記、影響廣泛的科普通識讀物,《基因傳》卻忽略了部分華人在基因測序發(fā)展史上的標(biāo)志性事件,實在令人遺憾。尹燁博士現(xiàn)場列舉了其中幾點。人類染色體數(shù)目之辨1923年,著名的美國遺傳學(xué)家佩因特得出人類染色體數(shù)目是48條的結(jié)論,并長達30多年無人質(zhì)疑。直到1955年12月22日,華裔科學(xué)家蔣有興在顯微鏡下觀察到了人胚細(xì)胞的染色體,得到了46條的結(jié)論。隨后,他又進行了更進一步驗證,并把寫好的論文送到Heredity雜志,最終在1956年4月發(fā)表。結(jié)論震驚了當(dāng)時整個細(xì)胞遺傳學(xué)界,并很快得到了很多其他實驗室觀結(jié)果的驗證。人們最終接受了”人類染色體數(shù)為46條”這個科學(xué)事實。

首次合成結(jié)晶牛胰島素

1958年,我國科學(xué)家提出人工合成胰島素的設(shè)想,當(dāng)時國際上最高的科研水平,也只能合成由19個氨基酸組成的多肽。胰島素雖然是相對分子質(zhì)量較小的蛋白質(zhì),但是也由17種、51個氨基酸、兩條肽鏈組成。經(jīng)過6年多的艱苦努力,1965年9月17日,中國科學(xué)家首次用人工方法合成了結(jié)晶牛胰島素。

真正的DNA測序之父——吳瑞

1968年至1972年的幾年時間里,康奈爾大學(xué)的華人科學(xué)家吳瑞在DNA測序方面發(fā)表多篇文章。其中吳先生1968年的第一篇論文測定了DNA的堿基組成,1970年的新文章既測定DNA堿基組成又測定出順序,是真正的DNA測序第一人。而在吳瑞先生工作的啟發(fā)下,Sanger深入研究,改進了之前的方法,才最終確立了DNA測序的主流方法Sanger法。在DNA測序史上,吳瑞先生的貢獻不應(yīng)被忽略。

來源:華大科技市場部