天天看點

生物資訊學入門必須了解的名詞

生物資訊學(bioinformatics):綜合計算機科學、資訊技術和數學的理論和方法來研究所學生物資訊的交叉學科。包括生物學資料的研究、存檔、顯示、處理和模拟,基因遺傳和實體圖譜的處理,核苷酸和氨基酸序列分析,新基因的發現和蛋白質結構的預測等。

基因組(genome):是指一個物種的單倍體的染色體數目,又稱染色體組。它包含了該物種自身的所有基因。

基因(gene):是遺傳資訊的實體和功能機關,包含産生一條多肽鍊或功能RNA所必需的全部核苷酸序列。

基因組學(genomics):是指對所有基因進行基因組作圖(包括遺傳圖譜、實體圖譜、轉錄圖譜)、核酸序列測定、基因定位和基因功能分析的科學。基因組學包括結構基因組學(structural genomics)、功能基因組學(functional genomics)、比較基因組學(Comparative genomics)。

蛋白質組學(proteomics):闡明生物體各種生物基因組在細胞中表達的全部蛋白質的表達模式及功能模式的學科。包括鑒定蛋白質的表達、存在方式(修飾形式)、結構、功能和互相作用等。

高通量測序:高通量測序技術(High-throughputsequencing,HTS)是對傳統Sanger測序(稱為一代測序技術)革命性的改變, 一次對幾十萬到幾百萬條核酸分子進行序列測定, 是以在有些文獻中稱其為下一代測序技術(next generation sequencing,NGS )足見其劃時代的改變, 同時高通量測序使得對一個物種的轉錄組和基因組進行細緻全貌的分析成為可能, 是以又被稱為深度測序(Deep sequencing)。

下一代測序:英文名為Next Generation Sequencing,簡稱為NGS。也叫做二代測序或者高通量測序。也稱為高通量測序,high-throughput sequencing,或者稱為新一代測序,全基因組測序WGS等等概念。是指相對于Sanger為主的第一代測序技術來說的,其特點是測序産量高,讀長短,價格便宜。現在通常所說的二代測序技術,主要包括ABI的solid測序,羅氏的454測序技術、Life 公司的Ion Torrent測序技術和illumina公司的Hiseq、miseq測序技術等。目前最主要的是指illunina測序。

全基因組測序 (Whole Genome Sequecing,WGS):是指利用高通量測序平台對人類 不同個體或群體進行全基因組測序,并在個體或群體水準上進行生物資訊分析的技術手段. 全基因組測序可全面挖掘 DNA 水準的遺傳變異,包括較大的結構性變異,為篩選疾病的緻病 及易感基因,研究發病及遺傳機制 ,以及推斷種群遷徙和進化等提供重要資訊。全基因組測序可以檢測人基因組上SNP突變,INDEL突變之外,還可以用于檢測拷貝數變異CNV和結構變異SV,融合基因,病毒整合位點檢測,非編碼區突變檢測等。

全外顯子組測序, Whole Exon Sequencing:也就是隻測序基因組上的外顯子區域。目前主要用于人基因組的研究,也包括一些小鼠等。人類基因組中約有180,000個外顯子,占人全部基因組的1%,約30M。外顯子測序是利用探針雜交富集外顯子區域的DNA序列,然後通過高通量測序,主要用于研究基因組上編碼區域的資訊。WES隻包含了基因組上外顯子的資訊,而WGS則覆寫了所有的遺傳資訊。相比于WGS,WES可以進行大樣本高深度的測序。

目标區域測序(Target Region Sequenceing,TRS):是針對研究者感興趣的基因組序列,通過定制目标區域的探針,與基因組DNA進行雜交,将目标區域DNA富集後進行高通量測序的技術手段。

目标區域測序可以進行更大樣本量的測序,可以用于發現和驗證疾病相關位點或候選基因,廣泛應用于臨床診斷和藥物研究。

RAD(Restriction site Associated DNA):是與限制性核酸内切酶識别位點相關的DNA。RAD方法對基因組DNA進行單酶切,然後對酶切片段超音波随機打斷,進行高通量測序。

GBS(Genotyping-By-Sequencing):是指通過測序進行基因分型。GBS方法對基因組DNA進行單酶切,不需要超音波随機打斷,而是利用PCR進行片段大小選擇。

BSA(Bulked segreant analysis):也稱為叢集分離分析法或混合分組分析法,通常指的是從作圖群體中挑選極端個體,然後混合樣 本構成DNA池。通過計算DNA池中的突變表型親本的基 因型頻率,實作基因定位。

第三代測序技術:主要是相對于二代測序技術來說的,主要包括Pacbio 測序,nanopore測序等單分子測序技術。相對于二代測序讀長短的特點,三代測序讀長更長,因為不使用pcr技術,讀長不受pcr技術的限制,目前的pacbio測序可以達到20K的讀長,但是三代測序目前主要面臨測序錯誤過高的問題。往往是将其與二代測序的illumina資料混合來使用。

宏基因組學:宏基因組學(又稱元基因組學,環境基因組學,生态基因組學等),這個詞主要來源于Environmental Microbiology的簡稱,也叫做meta genomics。是以微生物多樣性、 種群結構、 進化關系、 功能活性、 互相協作關系及與環境之間的關系為研究目的的新的微生物研究方法。是研究直接從環境樣本中提取的基因組遺傳物質的學科。傳統的微生物研究依賴于實驗室培養,元基因組的興起填補了無法在傳統實驗室中培養的微生物研究的空白。宏基因組研究目前主要分為16s測序和宏基因組測序。16S測序以分類研究為核心,可以提供物種分類,物種豐度以及系統進化分析。宏基因組測序除了能提供物種分類,物種豐度分析之外,還能做基因功能以及代謝通路相關的研究。

小RNA測序:小RNA為一類重要的體内調節分子,主要包括miRNA、piRNA、siRNA。它的功能主要是誘導基因沉默,參與基因轉錄後調控,進而調節細胞生長、分化,以及個體發育、生殖等重要生物學過程。

小RNA測序技術采用膠分離技術,收集樣品中18-30nt的RNA片段,利用高通量測序技術,能夠一次性獲得單堿基分辨率的數百萬條小RNA序列資訊,通過資料分析,鑒定已知小RNA,并預測新的小RNA及其靶标。推測小RNA與樣品表型之間互相作用的關系。

數字化表達譜分析(DGE):Digital Gene Expression Profile,利用新一代高通量測序技術和高性能計算分析技術,能夠全面、經濟、快速地檢測某一物種特定組織在特定狀态下的基因表達情況,即運用特定的酶對mRNA距polyA tail 21-25nt的位置進行酶切,所獲得的帶polyA尾的序列(Tag)通過高通量測序,該tag被測得的次數即是對應基因的表達值。數字基因表達譜已被廣泛應用于基礎科學研究、醫學研究和藥物研發等領域。特點是經濟,但獲得 的資料量有限。若想獲得轉錄本的更多資訊的話,一般都采用轉錄組測序的方法來測序。而且這裡面需要注意,DGE是通過固定的polyA探針,從樣品中篩選出表達的基因,因為原核生物mRNA沒有固定的探針序列,是以,原核生物無法做DGE測序分析。

全基因組Bisulfite甲基化測序:全基因組甲基化測序是DNA甲基化研究的黃金标準,它具有單堿基的分辨率,可精确評估單個C堿基的甲基化水準,覆寫範圍廣。它可以建構精細甲基化圖譜,建立表觀遺傳學研究資料庫,為後續大規模開展不同樣品間的甲基化差異分析提供參考圖譜。醫學研究方面可以闡明複雜疾病的部分發生、發展機制;幹細胞的傳代、分化、重程式設計過程中甲基化調控;以及環境因素(如激素、飲食、壓力、損傷等)對甲基化修飾的影響,進而引起一系列疾病或是表型的改變。農業研究方面可以繪制某物種的甲基化圖譜,研究特定區域的甲基化與物種特定表型的相關性,進一步研究營養、環境、自然選擇壓力對物種的甲基化修飾的影響,為動植物分子育種研究提供基礎。

MeDIP Sequencing(MeDIP-Seq):MeDIP-Seq是基于免疫富集原理進行高成本效益的全基因組DNA甲基化研究。可以以較小的資料量快速有效地尋找基因組上的甲基化區域,進而比較不同細胞、組織、甚至疾病樣本間的DNA甲基化修飾模式的差異。可廣泛的用于大樣本量的疾病研究和分子育種研究。

ChIP Sequencing(ChIP-Seq):染色質免疫共沉澱(Chromatin Immunoprecipition, ChIP)是研究蛋白質與DNA互相作用的經典實驗方法,ChIP與高通量測序的結合(ChIP Sequencing)可以在全基因組範圍内對蛋白結合位點進行高效而準确地篩選與鑒定,廣泛應用于組蛋白修飾,轉錄因子調控等相關領域的研究。

表觀遺傳學:Epigenetics,是指在基因組DNA序列沒有改變的情況下,基因的表達調控和性狀發生了可遺傳的變化。表觀遺傳的現象很多,已知的有DNA甲基化(DNA methylation),基因組印記(genomic impriting),母體效應(maternal effects),基因沉默(gene silencing),核仁顯性,休眠轉座子激活和RNA編輯(RNA editing)等。全基因組甲基化測序:DNA 甲基化是指在 DNA 甲基化轉移酶的作用下,在基因組 CpG 二核苷酸的胞嘧啶5'碳位共價鍵結合一個甲基基團。DNA 甲基化已經成為表觀遺傳學和表觀基因組學的重要研究内容。甲基化是基因表達的主要調控方式之一,研究染色體DNA甲基化情況是了解基因調控的重要手段。對已經有參考基因組的物種的基因組DNA用标準亞硫酸氫鹽(Bisulfite)處理後,未甲基化的胞嘧啶C會脫氨基形成尿嘧啶U,經PCR擴增,U替換為胸腺嘧啶T,而發生甲基化的胞嘧啶C保持不變。将處理組與參考基因組序列進行比對,可發現甲基化位點并對甲基化情況進行定量分析的方法叫做全基因組甲基化測序。

ChIp-Seq:Chromatin Immunoprecipitation sequencing,即染色質免疫共沉澱-測序技術,即通過染色質免疫共沉澱技術特異性地富集目的蛋白結合的DNA片段。對富集得到的DNA片段進行純化與文庫建構,然後進行高通量測序,進而得到全基因組範圍内可以與目的蛋白互相作用的DNA片段的方法叫做ChIP-Seq。

轉錄組測序:轉錄組即特定細胞在某一功能狀态下所能轉錄出來的所有RNA的總和,包括mRNA和非編碼RNA。轉錄組研究是基因功能及結構研究的基礎和出發點,通過新一代高通量測序,能夠全面快速地獲得某一物種特定組織或器官在某一狀态下的幾乎所有轉錄本及基因序列,已廣泛應用于基礎研究、臨床診斷和藥物研發等領域。

全基因組重測序:全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序,并在此基礎上對個體或群體進行差異性分析。全基因組重測序的個體,通過序列比對,可以找到大量的單核苷酸多态性位點(SNP),插入缺失位點(InDel,Insertion/Deletion)、結構變異位點(SV,Structure Variation)位點。SBC可以協助客戶,通過生物資訊手段,分析不同個體基因組間的結構差異, 同時完成注釋。

可變剪切:可變剪切(或選擇性剪切)是一個過程,即主要基因或者mRNA前體轉錄所産生的RNA的外顯子以多種方式通過RNA剪切進行重連。由此産生的不同的基因可能被翻譯成不同的蛋白質構體,是以,一個基因可能編碼多種蛋白質。

基因融合:兩個基因或兩個基因的各自一部分(或全部)的序列融合成一個新的基因的過程。

同源重組:是指發生在非姐妹染色單體(sister chromatin) 之間或同一染色體上含有同源序列的DNA分子之間或分子之内的重新組合。(又稱為一般性重組它是由兩條同源互補的DNA分子通過配對鍊的斷裂和再連接配接而産生片段交換的過程)。

cDNA文庫:以mRNA為模闆,經反轉錄酶催化,在體外反轉錄成cDNA,與适當的載體(常用噬菌體或質粒載體)連接配接後轉化受體菌,則每個細菌含有一段cDNA,并能繁殖擴增,這樣包含着細胞全部mRNA資訊的cDNA克隆集合稱為該組織細胞的cDNA文庫。

GO :GO是基因聯合會(Gene Onotology Consortium)所創立的資料庫,旨在建立一個适用于各種堆基因和蛋白質功能進行限定和描述的,并能随着研究不斷深入而更新的語言詞彙标準。GO是多種生物本體語言的一種,提供了三層結構的系統定義方式,用于描述基因産物的功能。

KEGG:Kyoto Encyclopedia of Genes and Genomes,京都基因及基因組百科全書,是一個有關生物系統較完善的資料庫,關聯基因組資訊和功能資訊的知識庫。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化學物質(KEGG Ligand)、分子互相作用和代謝通路圖(KEGG Pathway)和各種生物之間的層次關系(KEGG Brite)構成,在功能注釋分析中,我們主要關注的是KEGG代謝通路圖的分析。【教程:KEGG資料庫使用及通路分析教程】

COG:Cluster of Orthologous Groups of pretein,蛋白相鄰類的聚簇。該資料庫是對細菌、藻類和真核生物的21個完整基因組的編碼蛋白,根據系統進化關系分類建構而成的。對于預測單個蛋白質的功能和整個新基因組中的蛋白質的功能非常有用。

轉錄組測序:轉錄組即特定細胞在某一功能狀态下所能轉錄出來的所有RNA的總和,包括mRNA和非編碼RNA。轉錄組研究是基因功能及結構研究的基礎和出發點,通過新一代高通量測序,能夠全面快速地獲得某一物種特定組織或器官在某一狀态下的幾乎所有轉錄本及基因序列,已廣泛應用于基礎研究、臨床診斷和藥物研發等領域。

全基因組重測序:全基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序,并在此基礎上對個體或群體進行差異性分析。全基因組重測序的個體,通過序列比對,可以找到大量的單核苷酸多态性位點(SNP),插入缺失位點(InDel,Insertion/Deletion)、結構變異位點(SV,Structure Variation)位點。SBC可以協助客戶,通過生物資訊手段,分析不同個體基因組間的結構差異, 同時完成注釋。

可變剪切:可變剪切(或選擇性剪切)是一個過程,即主要基因或者mRNA前體轉錄所産生的RNA的外顯子以多種方式通過RNA剪切進行重連。由此産生的不同的基因可能被翻譯成不同的蛋白質構體,是以,一個基因可能編碼多種蛋白質。

基因融合:兩個基因或兩個基因的各自一部分(或全部)的序列融合成一個新的基因的過程。

同源重組:是指發生在非姐妹染色單體(sister chromatin) 之間或同一染色體上含有同源序列的DNA分子之間或分子之内的重新組合。(又稱為一般性重組它是由兩條同源互補的DNA分子通過配對鍊的斷裂和再連接配接而産生片段交換的過程)。

微進化:又稱種内進化(microevolution),是由突變,遺傳漂變,基因流和自然選擇導緻的等位基因頻率的改變。

趨同進化:convergent evolution,不同的生物,在相同或相似的環境條件下,逐漸具有相似性狀的進化過程。

平行進化:parallel evolution,來自共同祖先的兩個生物類群,在不同生态環境中産生性狀分異,後又因生活于相似生态環境而産生相似性狀的進化方式。

遺傳漂變(genetic drift):對于所有有限大小的種群來說,由于小樣本抽樣的基因數量有限而導緻種群的等位基因頻率在世代間發生變化的現象

遺傳重組 genetic recombination :指分别來自兩個親本的基因連鎖群間所産生的交換,形成兩個親本所沒有的連鎖群組合,産生具有重組性狀的後代(重組體)的現象。

Ka/Ks:在遺傳學中,Ka/Ks或者dN/dS表示的是異義替換(Ka)和同義替換(Ks)之間的比例。這個比例可以判斷是否有選擇壓力作用于這個蛋白質編碼基因。異義替換導緻氨基酸的改變,而同義替換由于密碼子雖然改變,但是仍舊對應的是同一氨基酸。由于異義替換往往對于生命體有害,是以在純化選擇的作用下,異義替換常常會在群體中被逐漸消滅。

進化樹:英文Evolutionary Trees。在生物學中,用來表示物種之間的進化關系,又稱“系統樹”、“系譜樹”。生物分類學家和進化論者根據各類生物間的親緣關系的遠近,把各類生物安置在有分枝的樹狀的圖表上,簡明地表示生物的進化曆程和親緣關系。

分子樹(molecular tree):依據分子資料建構的反映分子系統發育的樹。

系統發生樹(英文:Phylogenetic tree):又稱為演化樹(evolutionary tree),是表明被認為具有共同祖先的各物種間演化關系的樹。是一種親緣分支分類方法(cladogram)。在樹中,每個節點代表其各分支的最近共同祖先,而節點間的線段長度對應演化距離(如估計的演化時間)。

基因樹(Gene tree): 當一個分子系統樹是根據某一個基因資料建構而來的,稱為基因樹.

物種樹(Species tree): 是指代表一組物種進化過程的系統樹,映物種實際種系發生的樹

MP 最大簡約法(maximal parsimony):假設4種核苷酸或者20中氨基酸可以突變為與其自身不同的任何一種,這樣對于任何一個給定的拓樸結構,可以推斷每個位點的祖先狀态。對這一拓樸結構,可以計算出用來解釋整個進化過程所需核苷酸或者氨基酸的最小替代數。對所有可能正确的拓樸結構進行這種計算,并挑選出所需替代數最小的拓樸結構作為最優系統樹。

NJ 鄰接法(neighbour joining):是距離法中的一種,這種方法并不檢驗所有可能的拓樸結構,但在物種聚合時要應用最小進化原則。

ML 最大似然法( maximal likelihood ):在ML法中,以一個特定的替代模型分析既定的一組序列資料,使所獲得的每一個拓樸結構的拟自然率最大,挑選出其中拟自然率最大的拓樸結構作為最終樹。

Read:高通量測序平台産生的短序列就稱為reads,也稱為一個讀段,reads可以是單獨一條,成為Single End reads,簡稱SE read,也可以是兩條具有實體關系的一對reads,根據reads方向,可以分為Pair-end reads和mate-pair reads,簡稱為PE reads。在很多分析中會利用管道reads之間的關系。

Contig:來自于單詞contiguous,拼接軟體基于reads之間的overlap關系,連接配接成為更長的序列為contig,contig序列之間不再具有overlap關系,也不包含N堿基。

Scaffold:基因組拼接得到contig序列之後,通過reads之間的pair-end或者mate-pair關系,連接配接成更長的片段成為scaffold,scaffold序列一般包含N堿基。

N50:N50是基因組拼接之後一個評價名額,将拼接得到的所有的序列,根據序列大小從大到小進行排序,然後逐漸開始累加,當加和長度超過總長一半時,加入的序列長度即為N50長度。N50越長,拼接得到的更長的序列越多,類似的還有N90等。

Coverage depth:(覆寫深度,亦簡稱覆寫度,也叫乘數),指每個堿基被測序的平均次數,是用來衡量測序量的首要參數。

Coverage ratio :(覆寫比率,亦簡稱覆寫率),指被測序到的堿基占全基因組大小的比率。覆寫比率随覆寫深度升高而提高,亦受測序bias的影響,如illumina測序會受到GC bias的影響而導緻測序不均勻。

回文序列:palindromic sequence;palindrome具有反向重複的DNA序列。通常是DNA結合蛋白的識别部位,也是限制性核酸内切酶識别位點的序列特征。

串聯重複序列(Tandem Repeat sequences):在染色體上一段序列的多次重複,稱為串聯重複序列。常用來作為實體圖譜中的标記子。

LTR:長末端重複轉座子(long terminal repeat),是由RNA反轉錄而成的元件,它在兩端有長大數百堿基對的LTR。Length:1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats。

LINE:長散在重複序列(long interspersed nuclear elements),意為散在分布的長細胞核因子,是散在分布在哺乳動物基因組中的一類重複,這種重複序列比較長,平均長度大于1000bp,平均間隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。

SINE:為短散在重複序列(short interspersed nuclear elements)。SINE是非自主轉座的反轉錄轉座子,來源于RNA聚合酶III 的轉錄物,它的平均長度約為300bp,平均間隔1000bp,如:Alu家族,Hinf家族序列。

SNP:單核苷酸多态性(英語:Single Nucleotide Polymorphism,簡稱SNP,讀作/snip/)指的是DNA序列上發生的單個核苷酸堿基之間的變異,在人群中這種變異的發生頻率至少大于1%,否則被認為是點突變。在人類遺傳基因的各種差異,有90%都可歸因于SNP所引起的基因變異。在人基因組中,每隔100至300個堿基就會存在一處SNP。每3個SNP中有兩個會是胞嘧啶(C)和胸腺嘧啶(T)的互相轉變。

同義突變(synonymous mutation):由于生物地遺傳密碼子存在兼并現象,是堿基被替換之後,産生了新地密碼子,但新舊密碼子是同義密碼子,所編碼的氨基酸種類保持不變,是以同義突變并不産生突變效應。

錯義突變(missense mutation):是編碼某種氨基酸的密碼子經堿基替換以後,變成編碼另一種氨基酸的密碼子,進而使多肽鍊的氨基酸種類和序列發生改變。錯義突變的結果通常能使多肽鍊喪失原有功能,許多蛋白質的異常就是由錯義突變引起的。

無義突變(nonsense mutation ):是指由于某個堿基的改變使代表某種氨基酸的密碼子突變為終止密碼子,進而使肽鍊合成提前終止。編碼氨基酸的密碼子突變為終止密碼子,使肽鍊合成中斷。

移碼突變(frameshift mutation):在正常地DNA分子中,堿基缺失或增加非3地倍數,造成這位置之後的一系列編碼發生移位錯誤的改變,這種現象稱移碼突變。

InDel:一般把基因組突變小于50bp的插入和缺失成為InDel,一般50bp小于一個reads長度,可以通過reads進行檢測。

CNV:copy number variation:基因組拷貝數變異,基因組拷貝數變異是基因組變異的一種形式,通常使基因組中大片段的DNA形成非正常的拷貝數量。

基因組結構變化,Structure Variation,簡稱SV:染色體結構變異是指在染色體上發生了大片段的變異。分為廣義和狹義之分,廣義上來說基因組上所有的變化都可以成為SV,目前主要使用其狹義的概念,主要是指基因組結構變化超過50個堿基的突變,包括染色體大片段的插入和缺失,染色體内部的某塊區域發生翻轉颠換,兩條染色體之間發生重組(inter-chromosometrans-location)等。

Segment Duplication:一般稱為SD區域,串聯重複是由序列相近的一些DNA片段串聯組成。串聯重複在人類基因多樣性的靈長類基因中發揮重要作用。在人類染色體Y和22号染色體上,有很大的SD序列。

NT庫:NCBI非備援的核酸資料庫,包括GeneBank、Refseq和PDB。

NR 庫 :NR庫是由NCBI收集的非備援蛋白資料庫,包括所有非備援GeneBank CDS的翻譯序列 + 參考序列蛋白 + PDB資料庫 + SwissProt蛋白資料庫 + PRF蛋白資料庫,内容豐富。

SwissProt:SwissProt資料庫是經過注釋的蛋白序列資料庫,由歐洲生物資訊學研究所(EBI)維護。每個條目包括蛋白質序列、引用文獻、分類學資訊和注釋等。注釋包括蛋白質的功能、轉錄後修飾、特殊位點、二級結構等資訊。

TrEMBL :TrEMBL資料庫中大多數蛋白序列不是直接由實驗得到,而是通過DNA序列翻譯而得到,是一個計算機注釋的蛋白質資料庫,作為SwissProt的補充。該庫主要從EMBL/GeneBank/DDBJ核酸資料庫中根據CDS翻譯而得到蛋白質序列。