天天看點

解密阿裡雲高效病原體基因檢測工具

解密阿裡雲高效病原體基因檢測工具

1.背景介紹

病原體基因檢測,為各種嚴重感染的診斷提供了基礎。病原體檢測流程分成五個步驟:(1)采集病人的樣本,比方說靜脈血,痰液,肺泡灌洗液,或者腦脊髓液等。(2)對樣本進行培養,提取樣本中的核酸組織。(3)通過高通量基因測序儀,對核酸序列進行測序。高通量測序為了保證精度,會将很長的核苷酸序列,切成小的分片,分别進行測序,在讀取基因序列上,一般是50pb到200bp不等。(4)高通量測序之後,需要查詢相關的病原體标準序列,找到比對的基因序列。(5)通過将這些小的片段進行分析,得到全部基因片段的組成成分(即檢測結果),進而為病人的疾病确診以及精準治療提供有力的支援。

解密阿裡雲高效病原體基因檢測工具

圖1. 病原體基因檢測流程

對于生物分析檢測來說,通常情況下,一次病原體檢測,大約會生成5億左右的75bp的基因片段。過濾掉一些人的基因組織序列之後,還需要查詢1億左右的基因片段。通常情況下,會使用nBlast [1]工具來進行基因比對,這部分在整個病原體檢測過程中,也是非常耗時的部分,大約需要2-3個小時。阿裡雲AnalyticDB向量版提供了一個高效的基因檢索工具,大大提升了基因分析的性能,能夠在幾十分鐘内完成整個病原體的查詢檢測過程。

2.基因檢索應用

2.1 基因檢索功能

圖1展示了病原體基因檢索的界面。目前示範包含了12182個病毒的堿基序列,我們将病毒切分成150bp的小片段(總共1590804個片段),轉化成向量之後,存儲到AnalyticDB中。在檢索框中,使用者可以輸入一段基因序列,到我們目前的系統中進行檢索。為了友善大家使用,我們挑了新冠病毒,艾滋病毒,埃博拉病毒和中東呼吸綜合症的基因序列來進行示範,使用者可以拷貝相關的序列,來檢測查詢的性能。

解密阿裡雲高效病原體基因檢測工具

圖2. 核酸查詢示範

圖3使用者輸入了一段新型冠狀病毒的基因序列,可以看到排到前面的序列片段就是我們要找的新冠的病毒的序列。因為目前AnalyticDB提供高效的向量索引,系統會在毫秒級的時間内,傳回相關的基因片段。

解密阿裡雲高效病原體基因檢測工具

圖3.基因檢索結果

2.2 端到端的基因分析

我們模拟了人體的基因采樣,将新型冠病毒基因(塞爾維亞MT450872 [2],美國MT450873 [3])和中東呼吸症MERS基因(NC_019843.3 [10]),三株病毒混合在一起,打散成75bp的序列,當做測試集合。我們希望,通過目前病毒庫的檢索分析,能夠識别出目前測試集合中包含新型冠狀病毒和MERS病毒。目前系統通過比對檢測,我們生成圖4。

解密阿裡雲高效病原體基因檢測工具

圖4. 基因比對結果

可以看到經過檢測,病毒庫檢索系統傳回了三個基因組(NC_045512.2,NC_019843.3和NC_038294.1)。NC_045512.2(65%)是武漢海鮮市場的新型冠狀病毒的基因;NC_019843.3(20%)是MERS病毒的基因;而NC_038294.1(13%)是beta型英國冠狀病毒,經過查詢這個是MERS病毒的另外一個名字 [8],也屬于MERS病毒。是以,通過分析,目前混合測試集合中包含了新型冠狀病毒和MERS病毒。

2.3 應用架構總體設計

阿裡雲基因檢索系統的總體架構如圖5所示,AnalyticDB負責整個應用的全部的結構化資料(比方說,基因序列的長度,基因的名稱,基因的種類,以及基因的詳細介紹,DNA或者RNA等)和基因序列産生的特征向量的存儲和查詢。在查詢的時候,我們使用基因向量抽取模型,将基因轉化成向量,在AnalyticDB庫中進行粗排檢索。在向量比對的結果集中,我們使用經典的Needleman-Wunsch [4]算法進行精排,傳回最相似的基因序列。

解密阿裡雲高效病原體基因檢測工具

圖5.基因檢索系統架構

3.基因訓練和查詢模型

3.1 基因查詢過程

基因模型的訓練已經在上一篇文章中 [5],進行了詳細的講解。通過訓練好的DNA K-Mer模型,我們可以得到每個k-mer的向量。給定一段12bp的基因序列(如圖6),我們在這段基因序列中抽取出5個8-mers。我們将這5個8-mers轉成對應的向量,求和歸一化之後,就是這段12bp的基因序列的最終的向量。當然,為了提升精度,我們也可以使用doc2vec [6]等學習模型來對整段基因片段進行轉化。

解密阿裡雲高效病原體基因檢測工具

圖6.DNA序列轉向量

3.2 基因精度分析

我們訓練了兩個模型,全部病毒模型和21個病原體細菌模型(痤瘡丙酸杆菌,金黃色葡萄球菌,表皮葡萄球菌,溶血葡萄球菌,大腸埃希氏菌,鮑曼不動杆菌,結核分枝杆菌,肺炎鍊球菌,肺炎克雷伯氏菌,流感嗜血杆菌,副流感嗜血杆菌,嗜麥芽窄食單胞菌,銅綠假單胞菌,屎腸球菌,紋帶棒狀杆菌,人疱疹病毒4型(EB病毒),細環病毒,人腺病毒B組,黃曲黴,白色假絲酵母,耶氏肺孢子菌)。我們将一個基因,每隔150個bp,做一下切分。然後将150bp的小的分段,轉化成向量存在庫裡面,進行檢索。是以病毒資料集包括12182個病毒, 1590804個分段;21個細菌共275個基因,1521807個分段。

實驗1(見表1)系統随機的在目前的基因庫裡面,取出75bp的小的片段。我們知道這75bp的基因片段是在哪個基因的哪個片段中提取的。我們将這75bp的基因段到庫裡面進行檢索,查找傳回前N個結果集中,檢視是否包含這75bp的基因段對應的基因片段。Top-n的精度(Precision(n)),用公式(1)進行計算。

解密阿裡雲高效病原體基因檢測工具

其中,n表示查詢傳回的清單的長度。u表示查詢的次數,在實驗中u取的是1000次。

解密阿裡雲高效病原體基因檢測工具

表示在第i次查詢中,序列si是否出現在Top-n的清單中,出現為1,不出現為0。如果n越小,精度越高,說明我們的方法在實際中非常有效。我們可以看到,針對兩個模型來說,top20的精度,都在99%以上。精度在0.99以上,對于實際檢驗基因片段包含物種基因是足夠了的。

表1.基因查詢精度檢測

資料集 top 1 top 2 top 3 top 4 top 5 top 10 top 20
病毒 0.866 0.965 0.983 0.986 0.99 0.992 0.994
21個細菌 0.901 0.975 0.987 0.993 1.0

實驗2(見表2)系統随機的在目前的基因庫裡面,取出75bp的小的片段。我們将這75bp的基因段進行了2%的随機的突變(自然界中的基因突變的機率會更低,比方說人的30億個堿基,新生兒會有30個基因發生突變。病毒RNA的突變機率會高一些,一般也都小于1%),然後到庫裡面進行檢索,查找傳回前N個結果集中,檢視是否包含這75bp的基因段對應的基因片段。基因突變之後,雖然查詢的精度有所下降,但是top20的精度也都達到了0.99。

表2.基因突變查詢精度檢測

top1 top3 top4 top5 top6 top7
0.846 0.954 0.960 0.976 0.98 0.982
0.884 0.961 0.968 0.973 0.989

實驗3(見表3)對基因檢索的速度進行了比較。我們下載下傳了病毒序列,菌類的基因序列,以及部分植物基因序列 [7],總共9.7G。我們分别将相關資料,導入到AnalyticDB資料庫中和Blast庫中。我們跑了100次不同的查詢,對實驗結果取了平均。Blast需要3.22秒才能傳回結果,我們算法精度在top30的情況下,保證精度在0.95的準确性下,測試端到端的查詢(包括查詢基因轉向量,向量粗排和Needleman-Wunsch算法的精排)隻需要0.257s(提升了12.5倍)。

表3.檢索時間

解密阿裡雲高效病原體基因檢測工具

4.結尾

詳細的基因模型以及相關系統資訊請加入我們的釘釘群,歡迎大家讨論和使用。

解密阿裡雲高效病原體基因檢測工具

[1] blast+

https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

[2]

https://www.ncbi.nlm.nih.gov/nuccore/MT450872

[3]

https://www.ncbi.nlm.nih.gov/nuccore/MT450873

[4] Needleman, Saul B. & Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology. 48 (3): 443–53. doi:10.1016/0022-2836(70)90057-4. PMID 5420325.

[5]漢朝. "阿裡雲提供高效基因序列檢索功能,助力冠狀病毒序列快速分析",

https://developer.aliyun.com/article/753097?utm_content=g_1000111278

[6] Mikolov Tomas; et al. (2013). "Efficient Estimation of Word Representations in Vector Space". arXiv:1301.3781

[7] 基因資料集

https://www.ncbi.nlm.nih.gov/genome/viruses/variation/help/flu-help-center/ftp/

[8] de Groot RJ Baker SC Baric RS et al. Middle East respiratory syndrome coronavirus (MERS-CoV): announcement of the Coronavirus Study Group. J Virol. 2013; 87: 7790-7792

[9]

https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2

[10]

https://www.ncbi.nlm.nih.gov/nuccore/NC_019843.3

[11]

https://www.ncbi.nlm.nih.gov/nuccore/NC_038294.1
解密阿裡雲高效病原體基因檢測工具

往期文獻:

[1] 戴口罩也能刷門禁?疫情下AnalyticDB亮出社群管理的寶藏神器!

https://developer.aliyun.com/article/745160

[2] 阿裡雲提供高效基因序列檢索功能,助力冠狀病毒序列快速分析

https://developer.aliyun.com/article/753097