天天看點

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

據omim資料庫(人類孟德爾病資料庫)資料,單基因遺傳病的病種數量約有7000種,其中約4000多種緻病基因和發病機制比較明确。單基因遺傳病單個發病率低,但單基因病種類極多,是以總體發病率高,且具有先天性、緻死緻殘性的特點。

就診斷而言,單基因遺傳病涉及多個學科,臨床症狀複雜,且由于基因的突變具有多樣性,每種突變都可能導緻不一樣的臨床症狀,而突變的臨床意義也相當複雜,故診斷較為困難。而且,許多遺傳病都及其罕見,屬于罕見病,對于一名醫生來說,診斷經驗不足,根據症狀極易誤診。

是以對于臨床醫生而言,這些問題顯得頗有挑戰性:根據患者症狀如何快速鑒别其是否為遺傳病?患者表現為某些特定症狀時,哪種基因突變的機率最大?

如今,随着基因測序成本的大幅下降,随之而來的是基因大資料的出現,在這種形勢下,基于基因型和表型的關系,建立輔助診斷系統和臨床知識庫看起來是一條容易且有效的路徑。那麼,具體搭建過程是怎樣的呢?會遇到什麼意想不到的挑戰呢?這種方式做遺傳病診斷,遇到最大的瓶頸是什麼呢?

雷鋒網邀請了釋出國内首款遺傳病智能問診系統的北京金準基因公司副總裁孫隽回答這些問題。

孫隽,北京金準基因科技有限公司副總裁,2008年博士畢業于中科研昆明動物研究所,主攻細胞生物學,畢業後在美國康奈爾大學營養系繼續進行基礎研究,2011年回國後希望能夠從基礎科學走出來向應用方面轉化。2013年加入天津華大進行遺傳病相關基因檢測産品開發工作,2016年加入專注遺傳病基因檢測的北京金準基因負責産品研發。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

我來自北京精準科技有限公司,這三個詞可以概括我們公司做的事情:基因檢測;遺傳病基因檢測;專注于遺傳病基因檢測。我本人也一直從事遺傳病基因檢測相關産品的研發工作,今天主要和大家分享的是遺傳病基因檢測的原理和目前的一些進展,以及随着大資料而來的智能診斷。

(公開課視訊如下,孫老師聲音甜美、循循善誘……強烈建議先看視訊!)

事實上,疾病就是人體表現出表型的一種,即每一個人表現出的樣子,這些表型中有些不是疾病,隻是展現出人體的多樣性,比如膚色、發色、智商、身高和運動能力等,這些差異不是疾病。但是有一些表型就是疾病,比如說智力障礙、先天性白内障等,這些嚴重地影響到正常生活,就稱之為疾病。我們可以說每個個體表現出的樣子幾乎都和遺傳相關,疾病也不例外。

同時凡事都有兩面性,無論疾病還是其他表型都受環境和遺傳因素兩方面影響,環境因素包括營養因素、理化因素、社會因素和感染外傷等,遺傳因素包括染色體異常、單基因缺陷等。但是疾病與環境和遺傳的相關程度不同,有些疾病受遺傳因素影響的比較多,比如說染色體病、單基因病、孤獨症、一些先天性的缺陷和障礙等。一些疾病受環境影響比較多,比如理化因素的損傷、外傷等,這些疾病完全受環境調控;一些疾病既受環境影響,也有遺傳因素影響,比如身高矮小症,我們知道一個人的身高,即受到環境影響,也受父母遺傳影響。

一、所謂的遺傳因素是什麼呢?遺傳因素的本質什麼呢?

要從人的細胞說起,細胞是生命的基本機關,遺傳物質蘊藏在細胞核和線粒體中。人類的細胞核中有23對染色體,細胞核中可行使功能的基因約2萬多個。染色體展開是dna雙鍊,基因就是排布在dna雙鍊上,基因如何行使功能呢?

人體除水分外,蛋白質是最主要組成部分,同時是支撐我們生命活動最關鍵成分。那蛋白質從哪裡來?

蛋白質是由基因編碼而來。基因通過中心法則,先轉錄成rna,在蛋白質工廠核糖體加工,以其為模闆,合成不同的蛋白質。合成的蛋白質到人體的各個部位行駛各種各樣的功能,包括血紅蛋白、皮膚膠原蛋白等,另外非常重要的一組是各種各樣的生物酶。

這時,若有些dna變化,破壞雙鍊結構,蛋白沒辦法正常行使功能。比如眼睛晶體蛋白的可溶性既不能過高也不能過低,過高将無法支撐眼球的形狀,過低則會使得蛋白沉積,改變眼球的透光性,導緻白内障。編碼蛋白必須按照正常的程式來做。如果編碼蛋白程式不正常了,那會影響到正常生命活動,就構成了遺傳病。我們可以說:遺傳病就是遺存物質發生了破壞,正常基因功能改變而引起的疾病。

二、遺傳病分為哪些種類?基因檢測通常是指哪種類型的遺傳病?

我們常見的遺傳病分為這些種類:染色體病;單基因病;多基因病。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

我們目前了解比較清楚、遺傳關系和疾病關聯很明确是染色體病和單基因病,我們所說的基因檢測多半在這個領域,多基因病目前還停留在科研階段。

三、單基因病和染色體病

單基因病

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

染色體病

不同于單基因遺傳病,染色體疾病比我們想象危害更為嚴重,染色體異常包括染色體數目和結構異常。其中,大家經常聽說的唐氏綜合症、貓叫綜合征等,均屬于染色體數目異常。

資料表明:幾乎所有的染色體都有發生非整體疾病的可能,單為什麼平常所見的大多為21三體綜合征呢?

那是因為在所有的染色體中,21号染色體的數目最小,故畸變後活胎率較高,其他染色體發生畸變後可能根本就沒有活胎。除此之外,染色體畸變與自然流産也密切相關。

我們知道任何事情都有其原因所在,我們看見的是他表現出的樣子,背後的原因是什麼,進一步的分析才可能進行下一步防控。

四、那我們怎麼樣發現遺傳物質的變異呢?

遺傳病基因診斷流程大緻是:樣本收集,dna提取和處理,然後測序,或者進行一些實驗操作之後,對詞其資料進行分析,後由專家團隊根據資料分析結果進行疾病關聯性分析,最後出報告進行遺傳咨詢。

目前情況是,不管你用什麼樣的技術,診斷無外乎就是這些流程,隻不過在資料産出階段,存在不同平台和不同政策,即做不一樣的調整群組合。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

遺傳病的檢測和診斷,目前它最大的瓶頸和挑戰是什麼呢?

據歐美資料庫統計,目前已知的單基因遺傳病總數有8000多種,那明确基因的疾病有4828種,即41%疾病的機理是不明确的。我們做檢測,首先需要知道:哪個基因出問題了?之後我們才可以把它給測出來。如果對一種遺傳病的緻病基因不明确,之後的測序分析過程也無從下手,是以這是它的第一個缺陷。

限制遺傳病檢測和診斷的另一個瓶頸是:即使是已知的基因,也有一些由于其序列特點以及一些其它的困難,用目前的手段沒辦法檢測,是以,明确的42%的基因,也有一些缺乏有效的基因檢測手段。

目前,單基因病的總體檢出率在50%以下。整體看來,可以分為四個部分:8000餘種單基因病中有4000多種緻病基因是明确的,理論上這些疾病可以檢測,但其中有一部分由于技術局限性的限制沒辦法檢測,意思是雖然明确具體哪個基因有缺陷,但測不出來。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

所謂檢測/測序,就需要借助各種檢測技術,目前常見的檢測技術整體來說是兩個思路:

第一,是把dna一個個測出來,之後明确緻病基因是什麼。

第二,是借助晶片和探針,其上帶有熒光信号,之後通過熒光信号分析以及一些定量分析确定緻病基因的有無。

我們測序的技術分為一代測序、二代測序和三代測序。一代測序的優點是準确,但其限制是通量很低;二代測序,又稱高通量測序法,特點是多快好省。在人類基因組剛啟動時,數個大國一起花費了幾十億美金,才完成了一個人的基因組全測序。在現有的測序技術條件下,隻需幾天功夫,花費幾千元就能得到一個人的基因組資料。

二代測序技術應用的正常檢測流程包括:樣本收集、資料産出到資訊分析。我們知道,二代測序結果都是一些短序列,需要把成千上萬短序列列起來,與參考基因組比對,之後進入資訊分析流程,檢測變異,進行注釋,得到一個待解讀變異清單,之後分析團隊對這些突變進行分類,并進行一個疾病相關性分析,以确定該疾病的突變,最後還有進行驗證和報告。無論二代測序技術應用于疾病基因檢測或其它,一般流程都是這個。

但盡管二代測序多塊好省,但它也有不足,就是:資料量特别多,是最大的難點。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

做一個全外顯子組測序,可以産生10萬個以上的突變,怎樣在10萬個突變中找出緻病突變呢?分為兩步:

第一步,對變異進行分類,分類過程中有遊戲規則。目前業内人都是遵照acmg解讀分類規則這個标準,這個标準是,美國遺傳學會對突變分類設定了嚴格的條件,其中包括緻病性的證據、突變是否屬于劣性、是否已經發生過、突變發生的位置等。第一步相對在整個遺傳分析的過程中較為簡單,真正的難點是表型相關性的分析。

第二步,做完分類以後,已知的和臨床意義不明的基因都可能和疾病相關,接下來就需要從這些突變中找出和病人表型相關的部分,在這些突變中尋找這個基因和什麼疾病相關。

在以前報道的資料庫中尋找,已經報道的病人都是什麼表型,與我的病人的表型是否相符。最終确定一個突變是不是某種疾病的原因。用二代測序技術測基因序列之後,我們發現了大量的突變,但僅靠人工去收集那些判斷突變的證據,幾乎是一個不可能完成的任務,是以,需要用到資訊分析流程進行處理。

資訊分析主要會産生這幾方面的資訊:

首先是引發突變的基本資訊,即突變發生在哪個dna上?哪個位置?

另外是疾病資訊,這對于後續要進行的表型關聯性分析非常重要。

還有在人群中的頻率,我們知道單基因遺傳病相對罕見,是以它在正常人群中的出現頻率不能過高。

軟體預測的結果。目前有許多軟體可以預測突變有沒有可能破壞到蛋白結構?

最後是資料庫收錄的情況。主要收錄的是病人,即以往的各種研究機構、檢測機構、發表的文獻等中報道過的突變和疾病的關聯情況。如果該突變已經在一個病人中被檢出過,并且明确為緻病原因,那麼我們檢測自己的病人時,可以相對明确的去确定它是否和病人的表型相關。

總體來說,資訊分析的方式就是将解讀一個突變所需要的基本資訊整合起來。那資訊分析後的結果呢?

做完資訊分析後,會發現大堆的已知疑似和臨床意義不明的突變。

在這種情況下,需要人工分析每個突變,确定其是否與病人的表型相關,如果相關,會進行報告,後續的會進行各種各樣的驗證以該突變和疾病的關系。如果隻測了一個基因,那産生的突變數量有限,人工可以完成表型相關性分析。但如今的測序技術飛速發展,能多快好省地測越來越多的基因,相應地就有更多需要人工分析其表型相關性分析的需求。在全外顯子組測序中,大約會有200到300個突變分析人員做表型相關性分析。其實這種做法的效率很低。那既然有分類規則、有規律可循,可不可以讓計算架來幫我們做這些事情呢?

與智能化相伴随的另一個詞是大資料。

事實上,人工智能這個概念70年代就已經被提出了,所謂神經網絡算法以及一些公式在那個時候就已經有了,但近些年來,它忽然大熱,就是因為大資料的出現。沒有大資料支撐的智能化運算,就像汽車沒有輪子一樣。反過來也是一樣的,如果有大資料,還需要相應計算能力幫助實作智能診斷。

剛才我們說過了,如果要做病人基因資料、測序資料的分析,人工的做法是:第一步,把突變進行分類,将那些良性或疑似良性的扔掉;第二步,用剩餘的突變去關聯該疾病的表型,并與重點對象的表型進行比對。

突變評級有遊戲規則,故突變評級相對簡單,相對來說也是可自動化操作的。評級無外乎就是參考一些資料庫。

1、正常人群資料庫

首先是正常人群的資料庫,這個是一個非常重要的參考依據,如果要看頻率,一定是資料量越大越好,是以,我們常用的正常人群資料庫的趨勢是越來越大。正常人群資料庫的作用主要有2點:

分析一個突變是否有害。通過其在人群中頻率的高低,除去那些人群中非常高頻的變異。

通過頻率進一步排除掉有可能是良性的變異。

2、軟體預測

另外,軟體預測的結果也可作突變評級的參考。

其中有保守性預測的軟體,所謂保守性預測,是指如果一種蛋白比較重要,那在不同物種中都有該蛋白的同源物。如果其存在不同物種中,甚至在人類的進化中,它都一直在,一隻保持不變,那麼可能意味着,這個蛋白非常重要。如果它發生突變,相應的個體就會被淘汰掉,這是保守性預測的一個依據。保守性預測是借助于其他物種的全基因組合蛋白資料,而這是非常大的資料量,是以遺傳分析離不開資料。

另外還有綜合性預測軟體,除保守性預測之外,還要參考人群頻率,參考氨基酸的生化性質等等資料,這種方法需要多個的資料以證明方法是可靠的,并且是一個不斷修正的過程。

3、疾病人群資料庫

在突變分分歧時,需要考慮:這個突變是否在過往的有類似表型的人身上出現過。如果有,并且确定它是緻病的,那對突變評級是一個非常有力的支援因素。是以,分析也需要非常龐大量的疾病人群資料庫。一般疾病人群資料庫無外乎包含這些資訊:病人的資訊:男女、年齡,表型資訊;基因型以及資料的來源等。

這些資料庫和軟體預測,這些證據可以用于突變評級,是我們分析的第一步。綜合多種遊戲規則寫出一個公式,就可以相對友善的,對所得的突變進行分級。

但上述工作做完之後,才遇到智能診斷真正的一個難點——也就是症狀關聯分析。

傳統關聯分析的做法是挑出所有需要解讀的突變的基因,然後到資料庫裡看,找到基因關聯的是什麼疾病,表型是什麼。之後,基于之前的受檢人資訊,人工進行比對。那對于智能化診斷的智能化症狀關聯,思路是怎樣的呢?

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

具體過程是這樣的:對病人進行臨床症狀的分析,之後進行臨床症狀的标準化,然後根據标準化的這個詞,搜尋基因疾病表型資料庫,然後得到疾病和基因清單,根據其與和病人表型的相關度進行排序。其中,關聯的關鍵是需要把表達同一個意思、關聯同一種異常的不同詞關聯起來,通過前期的資料積累關聯起來,然後才可以把疾病和病人進行關聯

1、做這個的難點是什麼呢?

在整個過程中,無論用什麼算法,無外乎是一種比對和關聯的。但實踐落地的時候會碰到真正的難點。

首先是臨床資訊不規範。一種表型有多種表述方法。比如智力障礙,那可以說腦子有問題、遲鈍、傻、呆、笨等,表述方法是多種多樣的。這種不規範的表述導緻沒有辦法用标準化的語言,意思就是雞同鴨講,輸入的表型資訊算法沒辦法識别,

第二是病人的臨床資訊不完整。人工分析的時候,也常常遇到這樣的情況:送檢單上根本沒有完整地呈現出病人的完整資訊。比如有一些病人隻有一些發現時的資訊,但像某些細菌性疾病、代謝性疾病,早期與後期的症狀是非常不同的。是以,這些情況下,

在标準化資料庫中進行搜尋,關聯的常常是不準确的。

第三,單遺傳病常常具有臨床抑制性,相同的基因所關聯的疾病很多,且即使同一個突變位點,不同的病人表型也是不一樣的,那麼這樣也給智能化檢索帶來了很大的難度。

第四,表型不完全外顯,即基因突變所導緻的表型沒完整展現出來,這種情況下,表型本事不能代表典型的性狀。

我們在做智能化檢索時,在疾病表型資料庫方面,目前還存在很大提升空間。其中存在這樣的問題:

第一,單基因病數目很多,有8000多種,目前還沒有一個非常完善的資料庫,能收錄所有疾病所關聯表型。

第二,目前遺傳病資料分散于世界各地,如果能整合起來,那我們就可以得到一個相對全面準确的資料庫。但是多機構資料的整合常常存在各種各樣的困難。

對于這些問題,金準基因怎麼做的呢?

首先,相對來講,臨床資訊不規範的問題目前解決得比較好。我這裡給大家介紹的是hpo——臨床症狀定義、分級。hpo,建立描述人類疾病中異常表型的标準詞條,每一個詞條都能精确描述一種人類異常表型,并且組成一個樹狀結構。也就是說,目前所能想到的所有疾病展現出的所有表型,全都标準化了。

它的特點是沒有含義是唯一的,很精細,關系明确,計算機可識别。

目前,hpo資料庫總共包含了11000種表型,并且其與疾病關聯到了一起。也就是說,這4000種疾病分别都有哪些表型,這個資料庫已經進行了基本的關聯。中國對hpo資料庫進行了一個标準用語的翻譯,即所謂chpo。截至2016年10月,已翻譯詞條11896種。

下面這張圖清晰地呈現了其構架:呈樹狀結構;根部是眼部異常,往下走是眼部形态異常,之後眼球異常,眼前節異常、晶狀體異常到白内障,最後關聯到一個最底下一個單獨的id是先天性白内障。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

有了hpo以及注釋出來的資料庫以後,就可以就是做一些智能化表型關聯的嘗試。北京精準科技有限公司推出了國内首款單基因遺傳病輔助軟體——明鑒系統,我們的做法,也如前面所介紹的。

這是一個11歲的男孩,其臨床表征是是肝硬化、門靜脈高壓、肝功能亢進、全血細胞減少。看到這種情況,醫生想重點關注的基因是:血色病相關4個基因(hamp、hfe、hfe2、slc11a3

)、多囊腎(pkd1、pkd2)、先天性肝氫氧化。但在這幾個基因上均未發現可疑的突變位點。

但我們通過基因檢測,在pkd1這個基因上呢,發現了一個已知的緻病突變,所謂已知是指已經在病人中被檢出過了,意思是其緻病性應該是非常明确的。

那這個案例在明鑒系統上如何操作呢?

首先呢,tert基因對應21個omim編号的疾病,共101種臨床表型。這個病人兩個主要的臨床表型是肝硬化和全血細胞減少,肝硬化對應的是72個基因,全血細胞減少對應74個基因,是以兩者對應基因交集,理論上便是參考範圍。這是我們計算的一個原則,我們做了這個交集以後,得到了10個基因。tert也在這10個基因中,并且排名非常靠前。這個案例中,明鑒系統找出一個清單,但這個清單并不是唯一的,是以我們還沒有達到100%精确的地步。

第二個案例是一個11歲的女孩,雙下肢進行性運動障礙四年,肌肉活檢、電圖沒有異常,沒有吞咽困難,構音不清等其他症狀,僅表現為運動障礙,另外,否認家族史。頭mri檢測結果為:腦白質病變。我們對這兩個症狀進行檢索:即輸入運動障礙和腦白質病變,明鑒系統做了計算,輸出右邊框中的這些基因。

如何利用大資料做遺傳病智能化診斷?| 硬創公開課

結合這個新清單與基因測序的資料,我們發現:排名倒數第二的eif2b5基因,在白質消融性腦病上出現過,顯出一個融合突變。就這個突變,我們也可以關聯出一系列有這樣表型的清單,進一步提高其準确性。

我們輸入運動障礙,這個詞所在的根目錄是神經系統異常,之後是運動神經異常、神經異常、運動異常、運動障礙。但運動障礙的下遊還有各種各樣的條目,再進一步,我們把他關聯到步态不穩。同時輸入步态不穩和白質腦變,發現所關聯的基因是eif2b5。在我們所有的計算結果中,這兩種表型的關聯結果準确性排名第一。

這個案例告訴我們,在做智能化表型關聯時,我們輸入的表型直接影響到結果,在不明确症狀時,我們可以選擇更為廣義的症狀,進而擴大計算出最終結果的量。

第三個案例是一個17歲的男孩,其臨床表型是全身皮膚發黑、生殖器未發育,智力低下,口齒不清;主要病史:性激素低下、皮質醇低下、垂體促性腺激素低下、腦垂體核磁正常、腎上腺ct未找到腎上腺;家族史是母親有智力低下病史、父親殘疾(走路不穩)。

我們在明鑒系統中輸入這個病人的幾個表型。

第一個表型是腎上腺皮質腎上腺缺失、腎上腺異常;第二個表型是生殖器異常;第三個表型是皮膚色素異常。在這3個表型的引導下,我們生成一個基因突變清單。關聯這些基因與基因測序資料,我們沒有發現可疑突變。但我們進一步分析發現,這個基因有其他類型的突變。我們進一步對這個案例進行分析,在生成的結果中排名第一的nr0b1基因有一個原因未知的情況。

我們到資料庫中看這個基因,其所關聯的表型腎上腺發育不全、促性腺激素分泌不足、性腺功能減退症,但是46種表型中并無智力低下,并沒有病人智力低下這一表型,是以其是不相符的。但我們進一步分析發現,另外一個基因il1rapl1,表型為x連鎖智力低下21型、女性雜合攜帶者會出現輕度智力低下。

這個案例是這兩個基因共同導緻的表型,不是一個嚴格意義上的單基因病,而且是兩種單基因病共同組成的一個複雜表型。我們對這兩個基因進行分析,發現他們在染色體上的位置非常接近,均有缺失/插入的疾病報道,臨床症狀符合,之後我們就去做了臨近缺失及重複緻病可能性計算。

我們不斷積累這樣的案例,不斷測評并且回報給系統,這個系統得以不斷改進。我們的願景是,我們需要進一步提升該系統的表型關聯、準确性以及各方面的技能,我們能做的就是資料積累,才可以不斷測評,不斷改進。

1、輔助臨床症狀輸入:根據hpo樹狀結構,标準化語義輸入是遺傳病診斷的根本。

2、相關基因突變類型提示,即基因突變多樣性。

3、智能進化,測評失敗案例進行學習,研發改進方案。

4、友善後續資料管理——下載下傳及快速關聯。

最後總結一下,表型相關性判斷是智能診斷的難點,是做遺傳分析兩大步中非常重要的一部。難點在于,病人臨床資訊不規範、臨床資訊不完整是兩個相對來說比較容易解決的,我們可以使用hpo這樣的資料庫,對其不斷推廣、不斷改進。如果疾病的每一個患者都用相同的語言來描述臨床表型,那就可以很友善地進行關聯。病人資訊、其臨床資訊突發性和表型不完全外顯等情況是目前需要進一步改進的。我們需要完善疾病表型資料庫,該資料庫需要包括疾病的不同階段。疾病不同階段的人員越多,就可以關聯得越完整。另外,人越多越好。

疾病表型資料庫本身的建構存在的困難也待于慢慢改進的。首先是疾病樹木很多,建構疾病表型資料庫難難度非常大。另外,多機構的資料整合困難。

如果說hpo是一個關聯,表型的标準化可以實作基因組和疾病組的對話。這裡有三個不同的次元:

一、基因組,我們需要覆寫得更全面,需要測試的準确度更高;需要各種各樣的算法進行模組化;需要很強的資料存儲能力;盡量多的人群。

二、表型組:進一步标準化、詞條化、統一化。更多進行關聯,目前雖然已經有大量的表型,但并沒有100%覆寫人類所有的異常表型。

三、疾病組:關鍵是全和準。疾病組的全和準是遺傳病智能診斷的關鍵。

全:需要更多的病人和表型,比如遺傳病有臨床抑制性,是以不同的病人常常呈現出不一樣的表型。隻有當病人足夠多時,才可以相對更完整地把一種疾病和其表型更完整地收錄進來;其次需要把不同年齡階段不同、發病階段的表型也更合理整合出來,以便各種發病階段的人都可以做關聯。

準:一個病人的表型其實多種多樣,有時候遺傳變異的關聯性不是唯一的。

整個基因檢測流程是一個非常長的環節,涉及多個領域,需要it人員、醫生、病人、生物學家等多種力量的參與。對于遺傳病來說,其智能化診斷才剛剛開始,徹底推向臨床還有待時日。