近日,分析化學權威期刊Analytical Chemistry發表暨南大學張弓課題組的論文Highly Robust de novo Full-length Protein Sequencing,成功研發了高穩健性、超高精度的蛋白質全長從頭測序方案,蛋白質序列覆蓋率和準確率在大部分測試中都達到了100%,最低也有99%。其穩健性和準確率都創下了迄今為止世界紀錄。

實用化的蛋白質全長高精度測序的時代已然到來。

現如今核酸測序已十分成熟,大部分測序儀都能提供超過99%的核酸測序準確度。但蛋白質的全長測序(測定其氨基酸序列)卻一直是個難題,其序列覆蓋率、準確率、成本都難以滿足應用的需求。1967年,Edman和Beggs發明了Edman降解法蛋白質測序,但只能測定肽鏈N端的25~50個氨基酸,且成本很高。隨著蛋白質質譜技術的發展,質譜技術越來越多地被用于蛋白質的從頭測序。由于整個蛋白質很難在質譜儀中進行分析,需事先用酶降解為短的肽段,再用質譜儀分析,從譜圖中識別每個肽段的氨基酸序列,再將諸多肽段的序列拼接起來成為完整的蛋白質序列。

這種方法在實踐中往往效果非常差,其主要困難在于:(1) 拼接序列需要兩個肽段具備一定的重疊部分,而常用于酶切的限制性蛋白酶切出的肽段常常不重合,因此往往拼不上。(2) 蛋白質長鏈各部分理化性質可以差異很大,沒有任何一種酶切方案能兼顧。(3) 肽段從頭測序算法誤差很大,對肽段序列的識別錯誤率很高,可高達30-50%,而且錯誤在肽段兩端分布較多,而肽段兩端恰恰是拼接時尋找重疊段的部分。

正是由于以上的困難,蛋白質全長拼接的完整度和準確度長期低迷。雖然偶爾有新算法被開發出來,在某些蛋白質上能取得較好的效果,但高度依賴實驗數據的質量,并且在其他蛋白質上效果就不好。

暨南大學張弓課題組在核酸測序方面深耕多年,其開發的FANSe系列核酸測序算法是迄今為止穩健性和準確性最高的比對算法。他們想到,蛋白質測序目前的困境在多年以前也困擾著基因組從頭測序組裝,因此他們將基因組組裝的contig-scaffolding策略移植到蛋白質測序上,使用多種非特異性蛋白酶和化學降解法對蛋白質進行切割,每次切割都進行質譜分析和初步拼接,然后將多種切割方案的初步拼接結果互相比對,組裝成更完整的蛋白質序列框架,再重復使用這些結果的序列數據進行相互校正,進行精細補空與糾錯。這一方案被稱為MuCS。

在三種不同結構特性的蛋白質的測試中,研究者故意在實驗中采用粗放的實驗手段,多次重復時產生質譜數據的質量參差不齊,但MuCS每次都能拼接出一個完整的序列,且均能達到99-100%的覆蓋度和準確率,沒有任何錯誤的序列插入。而作為對比的蛋白質測序算法pTA和ALPS,序列覆蓋度、完整性、準確度均不及MuCS,甚至會自作主張地插入最高達63%的序列(這些序列本來不存在于樣品中)。

即便是在困難的膜蛋白上,由于跨膜段沒有獲得任何質譜數據而無法拼接,其他部分MuCS均達到了穩健和精確的全長拼接結果,而pTA和ALPS的結果幾乎無法使用。更重要的是,雖然進行了三次降解和質譜,但總成本卻并不高,操作簡便,算法也大部分可自動化運行,因此這種方法十分具備可推廣性。

高穩健性、超高精度、低成本的蛋白質全長高精度測序方案,將使得分析未知蛋白質樣品成為常規檢驗項目,大大促進藥物質控、抗體工程、疾病診斷、法醫鑒定、蛋白質反向工程破解等應用。

MuCS的算法部分可在承啟生物的網站上免費下載:http://chi-biotech.com/mucs/