好消息傳來(lái)。美國(guó)國(guó)家人類(lèi)基因組研究所領(lǐng)導(dǎo)美國(guó)約翰斯·霍普金斯大學(xué)、加州大學(xué)圣克魯斯分校等多家機(jī)構(gòu)的科學(xué)家組裝了人類(lèi)Y染色體的第一個(gè)完整序列。這是最后一個(gè)被完全測(cè)序的人類(lèi)染色體,新序列填補(bǔ)了Y染色體長(zhǎng)度的一半以上的空白。兩篇相關(guān)論文于8月23日發(fā)表在《自然》雜志上。
幾十年來(lái),Y染色體作為人類(lèi)兩性染色體之一,由于其結(jié)構(gòu)的復(fù)雜性,一直是基因組學(xué)界難啃的“硬骨頭”?,F(xiàn)在,這一難以捉摸的基因組區(qū)域已經(jīng)被完整測(cè)序,這意味著,人類(lèi)泛基因組的最后一塊“拼圖”被補(bǔ)上了。
這次測(cè)序?yàn)楫?dāng)前人類(lèi)參考基因組增加了逾3000萬(wàn)個(gè)堿基對(duì),揭示了多個(gè)基因家族的完整結(jié)構(gòu),并確認(rèn)了41個(gè)新的蛋白質(zhì)編碼基因,為研究生殖、進(jìn)化和人口變化相關(guān)的重要問(wèn)題提供了關(guān)鍵信息。
Y染色體測(cè)序困難重重
深圳華大生命科學(xué)研究院副院長(zhǎng)金鑫在接受科技日?qǐng)?bào)記者采訪(fǎng)時(shí)說(shuō):“人類(lèi)基因組測(cè)序是理解人類(lèi)疾病、健康和進(jìn)化的關(guān)鍵。通過(guò)將個(gè)體基因序列與參考基因組進(jìn)行比對(duì),科學(xué)家可以找到與疾病相關(guān)的基因,進(jìn)而為個(gè)體提供更精準(zhǔn)的診斷和治療方案?!?/p>
深圳華大生命科學(xué)研究院研究員周旸介紹說(shuō),完整人類(lèi)基因組中約有30億個(gè)堿基對(duì),科學(xué)家其實(shí)很難通過(guò)直接測(cè)序把序列測(cè)通,所以在測(cè)序的時(shí)候,需要將大片段的DNA進(jìn)行隨機(jī)打斷再進(jìn)行測(cè)序。對(duì)于常染色體是如此,對(duì)于X和Y染色體亦然。所以在測(cè)序結(jié)束后,科學(xué)家需要通過(guò)對(duì)測(cè)序數(shù)據(jù)進(jìn)行拼接來(lái)得到完整真實(shí)的基因組序列。
1999年,人類(lèi)首次成功完成對(duì)人體染色體完整基因序列的測(cè)定。科學(xué)家使用“短讀長(zhǎng)”測(cè)序技術(shù)來(lái)做到這一點(diǎn),將DNA切成大約一百個(gè)堿基的小片段,然后像拼拼圖一樣重新組裝它們。
2022年,最新版人類(lèi)參考基因組(T2T-CHM13)問(wèn)世。該基因組包含22條常染色體和X染色體的無(wú)間隙序列,共有30.55億對(duì)堿基,比之前的人類(lèi)參考基因組(GRCh38)增加了近2億堿基對(duì)的遺傳信息,約等于整個(gè)基因組8%的序列信息,達(dá)到了前所未有的完整程度。然而,人類(lèi)參考基因組中的Y染色體,仍有約一半序列是缺失的。
Y染色體的測(cè)序?yàn)槭裁慈绱思郑恐軙D說(shuō):“這些未知區(qū)域主要集中在異染色質(zhì)區(qū)域。該區(qū)域主要由微衛(wèi)星序列組成。要通過(guò)測(cè)序數(shù)據(jù)確定其序列是一件非常困難的事情?!?/p>
微衛(wèi)星序列通常屬于重復(fù)序列,是一種在基因組中廣泛存在的特殊DNA序列重復(fù)單元。金鑫表示,由于Y染色體包含大量重復(fù)或“回文”序列,共有多達(dá)百萬(wàn)個(gè)堿基對(duì)。而“短讀長(zhǎng)”技術(shù)無(wú)法跨越這么長(zhǎng)的重復(fù)序列,從而無(wú)法確定正確的序列順序,也就無(wú)法繪制出完整序列。
組裝測(cè)序數(shù)據(jù)就像嘗試閱讀一本被切成條狀的長(zhǎng)書(shū),每一條都是書(shū)中的一句話(huà)。如果書(shū)中的所有句子都是唯一的,那么就更容易確定句子的順序。但是,如果同一句話(huà)重復(fù)了數(shù)千或數(shù)百萬(wàn)次,那么這些句子的原始順序就沒(méi)有那么清楚了。Y染色體上約有3000萬(wàn)個(gè)堿基字母是重復(fù)序列,就好像這本書(shū)的一半篇幅都重復(fù)著同樣的幾句話(huà)。
技術(shù)“組合拳”助力測(cè)序
如果把染色體比作一本書(shū),那么被稱(chēng)為“短讀長(zhǎng)”的DNA測(cè)序技術(shù)一次只能讀取相對(duì)較短的序列,但現(xiàn)在,“長(zhǎng)讀長(zhǎng)”DNA測(cè)序技術(shù)可在不影響準(zhǔn)確性的情況下生成更長(zhǎng)的DNA序列讀數(shù),甚至可一次閱讀整個(gè)“句子”或“段落”。這樣,研究人員能夠更準(zhǔn)確地判斷“句子”“段落”之間的排列順序,從而更有助于完成完整的測(cè)序。
得益于“長(zhǎng)讀長(zhǎng)”DNA測(cè)序技術(shù)和創(chuàng)新的序列組裝方法,科學(xué)家們終于實(shí)現(xiàn)了對(duì)Y染色體的無(wú)間隙讀取。
周旸說(shuō):“科學(xué)家利用‘長(zhǎng)讀長(zhǎng)’DNA測(cè)序技術(shù),一定程度上降低了組裝Y染色體的難度。另外,科學(xué)家也針對(duì)新技術(shù)的測(cè)序數(shù)據(jù)開(kāi)發(fā)了新的組裝算法進(jìn)行自動(dòng)化組裝,提升了組裝效率?!?/p>
今年2月,美國(guó)國(guó)立衛(wèi)生研究院研究人員發(fā)布了一種創(chuàng)新的軟件工具Verkko,用于組裝來(lái)自各種物種的真正完整的基因組序列。研究人員稱(chēng),有了Verkko,研究人員現(xiàn)在只需按下一個(gè)按鈕就能自動(dòng)獲取完整的基因組序列。
英國(guó)《新科學(xué)家》雜志網(wǎng)站8月23日?qǐng)?bào)道,研究人員還運(yùn)用了英國(guó)牛津納米孔公司所開(kāi)發(fā)的納米孔(Nanopore)測(cè)序技術(shù)。當(dāng)單個(gè)DNA分子穿過(guò)一個(gè)納米孔時(shí),就能讀取該分子的序列,產(chǎn)生數(shù)百萬(wàn)個(gè)DNA堿基字母的片段,而不僅僅是幾百個(gè)。
在本次研究中,得益于上述方法,團(tuán)隊(duì)能夠應(yīng)對(duì)Y染色體測(cè)序中的種種挑戰(zhàn)。
Y染色體上的新發(fā)現(xiàn)
此次發(fā)表的一篇論文稱(chēng),Y染色體包含62460029個(gè)堿基對(duì)序列。該數(shù)字比參考基因組GRCh38里的Y染色體數(shù)據(jù)多了3000萬(wàn)個(gè)堿基對(duì),標(biāo)志著測(cè)序完整性的顯著進(jìn)步。
通過(guò)改進(jìn)GRCh38中的錯(cuò)誤并闡明DAZ和RBMY等基因家族的結(jié)構(gòu)(這兩個(gè)基因家族都有助于精子的產(chǎn)生),該團(tuán)隊(duì)增進(jìn)了對(duì)Y染色體遺傳結(jié)構(gòu)的理解。
此外,這條完整的Y染色體有106個(gè)蛋白質(zhì)編碼基因,比參考基因組多了41個(gè)。但幾乎所有這些額外的基因都只是一種被稱(chēng)為T(mén)SPY的基因的副本。他們還辨識(shí)出以前被誤解為是細(xì)菌DNA的序列,這些序列其實(shí)是之前未知的人類(lèi)Y染色體序列。
在另一篇論文中,包括美國(guó)杰克遜基因組醫(yī)學(xué)實(shí)驗(yàn)室在內(nèi)的聯(lián)合團(tuán)隊(duì)組裝了代表世界21個(gè)不同人群的43名男性的Y染色體。這些組裝結(jié)果更詳細(xì)地闡釋了Y染色體在人類(lèi)演化歷史中的遺傳差異。研究結(jié)果揭示了新的DNA序列、保守區(qū)域的特征,以及促進(jìn)Y染色體復(fù)雜結(jié)構(gòu)的分子機(jī)制。
金鑫表示,去年公布的T2T-CHM13完整基因組樣本取自一個(gè)葡萄胎的單倍基因組(完全性葡萄胎是一種罕見(jiàn)的妊娠并發(fā)癥,由來(lái)源于胎盤(pán)的細(xì)胞異常生長(zhǎng)引起),而此次樣本取自健康的人類(lèi)個(gè)體。
上海交通大學(xué)長(zhǎng)聘教軌副教授毛亞飛告訴記者,目前來(lái)看,這個(gè)數(shù)目的樣本已經(jīng)是人類(lèi)基因組測(cè)序上很大的突破。不過(guò),下一步還應(yīng)該選擇更廣泛的樣本,包括不同種族、地理區(qū)域和人群,這樣才能更好地代表全球人類(lèi)遺傳多樣性,進(jìn)而有助于揭示人類(lèi)種群之間的遺傳差異和相似性,從而提供更準(zhǔn)確的基因組參考。
完整基因測(cè)序意義非凡
Y染色體通常與生理性別為男性的個(gè)體相關(guān)聯(lián),但它也可能存在于雌雄同體者中。盡管Y染色體上的基因相對(duì)較少,但這些基因復(fù)雜且處在動(dòng)態(tài)變化中,并具有編碼精子生成等重要功能。完整的Y染色體參考序列將使科學(xué)家能夠以前所未有的方式更好地研究人類(lèi)基因組中Y染色體的各種特征。
研究發(fā)現(xiàn),不同個(gè)體含有10到40個(gè)TSPY基因拷貝。例如,一名男子的Y染色體有與精子形成有關(guān)的TSPY基因的23個(gè)拷貝,而另一名男子則有39個(gè)拷貝?,F(xiàn)在,科學(xué)家可以使用新的參考圖譜和已建立的Y染色體測(cè)序方法更好地研究這種進(jìn)化。這可能是未來(lái)體外受精領(lǐng)域或其他生殖和不孕癥領(lǐng)域的研究焦點(diǎn)。
完整的、無(wú)間隙的Y染色體序列對(duì)于研究人類(lèi)群體進(jìn)化和遷移至關(guān)重要。毛亞飛補(bǔ)充說(shuō):“我們與猴子、黑猩猩等有共同的演化線(xiàn)索,通過(guò)解析基因組變化,可以了解人類(lèi)是如何演化而來(lái)的?!?/p>
“此前,人們其實(shí)已經(jīng)根據(jù)Y染色體的基因組草圖定位了許多與雄性發(fā)育、精子生成等過(guò)程相關(guān)的基因,也發(fā)現(xiàn)了Y染色體與諸如癌癥等疾病的關(guān)聯(lián);而最近發(fā)表的Y染色體完整序列將會(huì)為探索這些區(qū)域序列的功能提供扎實(shí)的數(shù)據(jù)基礎(chǔ)?!敝軙D指出,“新研究也進(jìn)一步揭示了個(gè)體間Y染色體的差異。這些Y染色體上的變異以及與人類(lèi)性狀的關(guān)聯(lián)分析將有助于人群演化、遺傳、疾病等方面的研究?!?/p>
總之,完整的人類(lèi)Y染色體將為許多新發(fā)現(xiàn)打開(kāi)大門(mén)。下一步,研究人員計(jì)劃通過(guò)將Y染色體納入未來(lái)版本的人類(lèi)泛基因組參考圖譜來(lái)進(jìn)一步改善Y染色體的研究。泛基因組是一種新的基因組參考,它將來(lái)自不同祖先背景的多個(gè)人的基因組信息結(jié)合起來(lái),最終可以實(shí)現(xiàn)更客觀的研究和臨床發(fā)現(xiàn),如幫助診斷疾病、預(yù)測(cè)醫(yī)療效果和指導(dǎo)治療等。
受訪(fǎng)專(zhuān)家均相信,目前發(fā)表的Y染色體的組裝結(jié)果只是一個(gè)開(kāi)始。隨著技術(shù)的不斷發(fā)展,總有一天全世界的每一個(gè)人都可以對(duì)自己的基因進(jìn)行測(cè)序。
金鑫展望道:“現(xiàn)在,我們?nèi)メt(yī)院都是做血常規(guī)、尿常規(guī)等檢測(cè),未來(lái)有了臨床基因測(cè)序技術(shù)后,我們可能要先做個(gè)基因常規(guī)檢測(cè),把最主要的遺傳信息跟疾病的關(guān)系、藥物的禁忌都先了解清楚,醫(yī)生再對(duì)癥下藥。所以,基因組測(cè)序會(huì)對(duì)整個(gè)人類(lèi),尤其是對(duì)了解我們自身的健康起到非常重要的作用。”