真·基因傳:從讀到寫
從讀到寫


一、生命語言的讀

1977年,弗雷德里克·桑格(Frederick Sanger)用雙脫氧法測定了噬菌體φX174的基因組序列,長度為5386個堿基,這是人類第一次測定一個生物體完整的基因組。但事實上這是指第一個DNA的基因組測定,第一個RNA的基因組測定其實是噬菌體MS2,由比利時根特大學(xué)的瓦爾特·菲爾斯(Walter Fiers)在1976年鑒定并公布,比前者早一年。也正是基于桑格的第一個DNA噬菌體測序,估算一個堿基的測序成本約為10美金,這就是最早人類基因組計劃預(yù)估300億美金的由來。
1980年,桑格與沃爾特·吉爾伯特(Walter Gilbert)和保羅﹒伯格(Paul Berg)一起分享了諾貝爾化學(xué)獎,成為歷史上唯一一位兩次榮獲諾貝爾化學(xué)獎的科學(xué)家。
利用Sanger雙脫氧終止法的測序原理,結(jié)合熒光標(biāo)記和毛細(xì)管陣列電泳技術(shù)來實現(xiàn)測序的自動化,很多物種的基因組破譯得以實現(xiàn)。Sanger測序技術(shù)的優(yōu)點是測序讀長長,能達到800-1K bp,且用時短,只需要幾十分鐘即可完成一次測序,準(zhǔn)確度高達99.999%,目前仍是測序的金標(biāo)準(zhǔn);2001年完成的首個人類基因組圖譜就是以改進了的Sanger法為其測序基礎(chǔ)。缺點是通量低、成本高,影響了其真正大規(guī)模的應(yīng)用。
此后,第一個測序的模式植物擬南芥于2000年完成。重要的糧食作物水稻基因組于2002年完成,第一個測序的家禽家雞基因組于2004年完成,高重復(fù)玉米基因組于2009年完成,這幾個項目華大都深度參與了。





短讀長測序系統(tǒng)在2005-2007年因其可同時進行大量平行測序反應(yīng)而廣為人知。這些系統(tǒng)可以同時分析百萬甚至上億個序列反應(yīng)。短讀長測序技術(shù)相比Sanger測序大幅降低了成本,保持了較高準(zhǔn)確性,并且大幅降低了測序時間,將一個人類基因組測序從數(shù)年降至幾天之內(nèi)。
自從有了短讀長大規(guī)模高通量并行測序技術(shù),行業(yè)真正進入到物種破譯的“寒武紀(jì)”。2011年的土豆基因組、2012年第一個軟體動物牡蠣基因組、2012年第一個六倍體物種小麥基因組、2013年復(fù)雜昆蟲小菜蛾基因組、2014年火炬松基因組(迄今最大的植物基因組)的測序相繼完成。





長讀長測序技術(shù)以其獨特的長讀長優(yōu)勢,可以很好地解決復(fù)雜基因組組裝的難題。2015年發(fā)表在Nature上的復(fù)活草基因組文章,利用純長讀長測序技術(shù)完成,相比短讀長測序的動植物基因組,在組裝質(zhì)量上有了很大改善 。
2016年海馬基因組、銀杏基因組,2017年人參基因組、潘那利番茄基因組,2018年六角恐龍/蠑螈基因組(迄今為止最大的基因組)、3000株水稻項目紛紛完成。其中3000株水稻項目首次實現(xiàn)了在頂級期刊Nature中使用漢字。2019年,首次對整個云南瑞麗植物園的761份樣本進行全基因組測序,在植物研究史上添上了濃墨重彩的一筆。





二、生命語言的寫


三、生命語言的發(fā)展和未來


四、不應(yīng)被遺忘的“基因傳”
首次合成結(jié)晶牛胰島素
1958年,我國科學(xué)家提出人工合成胰島素的設(shè)想,當(dāng)時國際上最高的科研水平,也只能合成由19個氨基酸組成的多肽。胰島素雖然是相對分子質(zhì)量較小的蛋白質(zhì),但是也由17種、51個氨基酸、兩條肽鏈組成。經(jīng)過6年多的艱苦努力,1965年9月17日,中國科學(xué)家首次用人工方法合成了結(jié)晶牛胰島素。
真正的DNA測序之父——吳瑞
1968年至1972年的幾年時間里,康奈爾大學(xué)的華人科學(xué)家吳瑞在DNA測序方面發(fā)表多篇文章。其中吳先生1968年的第一篇論文測定了DNA的堿基組成,1970年的新文章既測定DNA堿基組成又測定出順序,是真正的DNA測序第一人。而在吳瑞先生工作的啟發(fā)下,Sanger深入研究,改進了之前的方法,才最終確立了DNA測序的主流方法Sanger法。在DNA測序史上,吳瑞先生的貢獻不應(yīng)被忽略。


本文系作者 @華大集團 授權(quán)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。