點選檢視:資料庫學習不可不知的開發者詞條彙總(一) 點選檢視:資料庫學習不可不知的開發者詞條彙總(二)
69、使用者定義函數(UDF)
使用者定義函數(UDF) 由一個或多個SQL語句組成的子程式,可用于封裝代碼以便重新使用。通常情況下不将使用者限制在定義為SQL語言一部分的内置函數上,而是允許使用者建立自己的使用者定義函數......
點選檢視全文70、全文檢索
全文檢索(Full-Text Search)是20世紀末産生的一種新的資訊檢索技術。經過幾十年的發展,特别是以計算機技術為代表的新一代資訊技術應用,使全文檢索從最初的字元串比對和簡單的布爾邏輯檢索技術演進到能對超大文本、語音、圖像、活動影像等非結構化資料進行綜合管理的複合技術。由于内涵和外延的深刻變化,全文檢索系統已成為新一代管理系統的代名詞,衡量全文檢索系統的基本名額和全文檢索的内涵也發生巨大變化......
71、高可用性(HA)
高可用性(High Availability, HA)指的是通過盡量縮短因日常維護操作(計劃)和突發的系統崩潰(非計劃)所導緻的停機時間,以提高系統和應用的可用性。它與被認為是不間斷操作的容錯技術有所不同。HA系統是企業防止核心計算機系統因故障停機的最有效手段。高可用性通常來描述一個系統經過專門的設計,進而減少停工時間,而保持其服務的高度可用性,是分布式系統架構設計中必須考慮的因素之一......
72、流計算
在傳統的資料處理流程中,總是先收集資料,然後将資料放到資料庫中。當人們需要的時候通過資料庫對資料做查詢,得到答案或進行相關的處理。這樣看起來雖然非常合理,但是結果卻非常的緊湊,尤其是在一些實時搜尋應用環境中的某些具體問題,類似于MapReduce方式的離線處理并不能很好地解決問題。這就引出了一種新的資料計算結構---流計算方式。它可以很好地對大規模流動資料在不斷變化的運動過程中實時地進行分析,捕捉到可能有用的資訊,并把結果發送到下一計算節點......
73、消息隊列MQ
消息是在兩台計算機間傳送的資料機關。消息可以非常簡單,例如隻包含文本字元串;也可以更複雜,可能包含嵌入對象。消息被發送到隊列中。消息隊列(Message Queue, MQ)是在消息的傳輸過程中儲存消息的容器。消息隊列管理器在将消息從它的源中繼到它的目标時充當中間人......
74、B-Tree
B-tree(多路搜尋樹,并不是二叉的)是一種常見的資料結構。使用B-tree結構可以顯著減少定位記錄時所經曆的中間過程,進而加快存取速度。B-Tree中的B代表平衡(balance),而不是二叉(binary),因為B-Tree樹是從最早的平衡二叉樹演化而來的。這個資料結構一般用于資料庫的索引,綜合效率較高......
75、R-Tree
R-Tree是B-Tree向多元空間發展的另一種形式,它将對象空間按範圍劃分,每個結點都對應一個區域和一個磁盤頁,非葉結點的磁盤頁中存儲其所有子結點的區域範圍,非葉結點的所有子結點的區域都落在它的區域範圍之内;葉結點的磁盤頁中存儲其區域範圍之内的所有空間對象的外接矩形......
76、GiST
通用搜尋樹(Generalized Search Trees,GiST)是一種通用索引機制,由加州大學Berkeley分校開發,支援研究人員對新的資料類型開發實驗索引。現在GiST已經内嵌在PostgreSQL中。GiST能有效支援資料類型和查詢謂詞的可擴充,在資料庫中引入新的資料類型時能提供對新的資料類型索引的支援,利用這種結構可以很容易實作R樹、RD樹等。它是一種可擴充的樹型索引結構架構......
77、MADLib
Apache MADlib是Pivotal與UCBerkeley合作的一個基于SQL的資料庫内置的可擴充的開源機器學習庫,提供了精确的資料并行實作、統計和機器學習方法對結構化和非結構化資料進行分析。MADlib提供了豐富的分析模型,包括回歸分析,決策樹,随機森林,貝葉斯分類,向量機,風險模型,KMEAN聚集,文本挖掘,資料校驗等......
78、即席查詢(Ad Hoc)
即席查詢(Ad Hoc)是使用者根據自己的需求,靈活的選擇查詢條件,系統能夠根據使用者的選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不同是普通的應用查詢是定制開發的,而即席查詢是由使用者自定義查詢條件的......
79、分布式拒絕服務攻擊(DDoS)
分布式拒絕服務攻擊(Distributed Denial of Service Attack, DDoS) 是指處于不同位置的多個攻擊者同時向一個或數個目标發動攻擊,或者一個攻擊者控制了位于不同位置的多台機器并利用這些機器對受害者同時實施攻擊。由于攻擊的發出點是分布在不同地方的,這類攻擊稱為分布式拒絕服務攻擊,其中的攻擊者可以有多個......
80、NoSQL
NoSQL,泛指非關系型的資料庫。随着網際網路web2.0網站的興起,傳統的關系資料庫在處理web2.0網站,特别是超大規模和高并發的SNS類型的web2.0純動态網站已經顯得力不從心,出現了很多難以克服的問題,而非關系型的資料庫則由于其本身的特點得到了非常迅速的發展......
81、BASE
NoSQL的BASE特性指的是基本可用(BA)、軟狀态(S)、最終一緻性(E),這一概念由由 Eric Brewer 定義。BASE系統傾向于更加簡單和迅速,因為它們不必編寫處理鎖定和釋放資源的代碼。它們的任務是保證流程運轉并稍後處理出錯的部分。BASE系統非常适合支援網上商店,填滿購物車和下訂單才是它們的主要優先功能......
82、MongoDB
MongoDB是一個基于分布式檔案存儲的資料庫。由C++語言編寫。旨在為Web應用提供可擴充的高性能資料存儲解決方案。MongoDB是一個介于關系資料庫和非關系資料庫之間的産品,是非關系資料庫當中功能最豐富,最像關系資料庫的。它支援的資料結構非常松散,是類似JSON的BSON格式,是以可以存儲比較複雜的資料類型......
83、Redis
Redis(全稱:Remote Dictionary Server 遠端字典服務)是一個開源的使用ANSI C語言編寫、支援網絡、可基于記憶體亦可持久化的日志型、Key-Value資料庫,并提供多種語言的API......
84、遺傳算法
遺傳算法(Genetic Algorithm, GA)是模拟達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模拟自然進化過程搜尋最優解的方法。遺傳算法是一種基于“适者生存”的高度并行、随機和自适應的優化算法,通過複制、交叉、變異将問題解編碼表示的“染色體”群一代代不斷進化,最終收斂到最适應的群體,進而求得問題的最優解或滿意解......
85、分級存儲
分級存儲是将資料采取不同的存儲方式分别存儲在不同性能的儲存設備上,減少非重要性資料在一級本地磁盤所占用的空間,還可加快整個系統的存儲性能......
86、服務等級協定(SLA)
服務等級協定(Service-Level Agreement, SLA)是指提供服務的企業與客戶之間就服務的品質、水準、性能等方面所達成的雙方共同認可的協定或契約......
87、資料庫連接配接池
資料庫連接配接(Database Connection Pool)是一種關鍵的、有限的、昂貴的資源,這一點在多使用者的網頁應用程式中展現得尤為突出。對資料庫連接配接的管理能顯著影響到整個應用程式的伸縮性和健壯性,影響到程式的性能名額。資料庫連接配接池正是針對這個問題提出來的......
88、JDBC
Java資料庫連接配接(Java Database Connectivity, JDBC)是Java語言中用來規範用戶端程式如何來通路資料庫的應用程式接口(API),提供了諸如查詢和更新資料庫中資料的方法。可以為多種關系資料庫提供統一通路,它由一組用Java語言編寫的類和接口組成,是Java通路資料庫的标準規範。JDBC提供了一種基準,據此可以建構更進階的工具和接口,使資料庫開發人員能夠編寫資料庫應用程式......
89、MapReduce
MapReduce是一種程式設計模型,其基于“映射”與“歸約”的思想,把一堆雜亂無章的資料按照某種特征歸納起來,然後處理并得到最後的結果。MapReduce程式設計思想是将用于解決一些大問題可以被分解為許多子問題的場景,且這些子問題相對獨立,将這些子問題并行處理完後,大問題也就被解決......
90、HBase
HBase是一個分布式的、面向列的開源資料庫,也是高可靠性、高性能、面向列、可伸縮的分布式存儲系統,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化資料的分布式存儲系統”,是谷歌BigTable的開源實作,主要用來存儲非結構化和半結構化的松散資料。。HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系資料庫,它是一個适合于非結構化資料存儲的資料庫。另一個不同的是HBase基于列的而不是基于行的模式......
91、Bigtable
BigTable是Google設計的分布式資料存儲系統,用來處理海量的資料的一種非關系型的資料庫。BigTable是非關系型資料庫,是一個稀疏的、分布式的、持久化存儲的多元度排序Map。Bigtable的設計目的是快速且可靠地處理PB級别的資料,并且能夠部署到上千台機器上......
92、Hadoop
Apache Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,它允許使用簡單的程式設計模型跨計算機叢集對大型資料集進行分布式處理。它被設計成從單個伺服器擴充到數千台機器,每台機器都提供本地計算和存儲。庫本身的設計目的是在應用層檢測和處理故障,而不是依賴硬體來提供高可用性,是以在計算機叢集之上提供高可用性服務,而每個叢集都可能容易出現故障......
93、HDFS
Hadoop分布式檔案系統(Hadoop Distributed File System, HDFS)是指被設計成适合運作在通用硬體上的分布式檔案系統。它和現有的分布式檔案系統有很多共同點。但同時,它和其他的分布式檔案系統的差別也是很明顯的......
94、Memcached
Memcached是一個自由開源的,高性能,分布式記憶體對象緩存系統。Memcached是以LiveJournal旗下Danga Interactive公司的Brad Fitzpatric為首開發的一款軟體。現在已成為mixi、hatena、Facebook、Vox、LiveJournal等衆多服務中提高Web應用擴充性的重要因素......
95、Flume
Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統。Flume具有簡單靈活的基于流資料流的體系結構。它具有魯棒性和容錯性,具有可調的可靠性機制和許多故障轉移和恢複機制......
96、Sqoop
Apache Sqoop是一個用于在Apache Hadoop和關系資料庫等結構化資料存儲之間高效傳輸大容量資料的開源工具......
97、Mahout
Mahout 是 Apache基金會旗下的一個開源項目,其提供一些可擴充的機器學習領域經典算法的實作,旨在幫助開發人員更加友善快捷地建立智能應用程式。Mahout包含許多實作,包括聚類、分類、推薦過濾、頻繁子項挖掘。此外,通過使用 Apache Hadoop 庫,Mahout 可以有效地擴充到雲中......
98、Pig
Apache Pig 是一個進階過程語言,特點是其結構易于大量并行化,适合于使用 Hadoop 和 MapReduce 平台來查詢大型半結構化資料集。通過允許對分布式資料集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用......
99、Hive
Hive是基于Hadoop的一個資料倉庫工具,用來進行資料提取、轉化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模資料的機制。Apache Hive資料倉庫軟體有助于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型資料集。 可以将結構投影到已經存儲的資料上。 提供了指令行工具和JDBC驅動程式以将使用者連接配接到Hive......
100、Zookeeper
ZooKeeper是用于維護配置資訊、命名、提供分布式同步以及提供組服務的集中式服務。ZooKeeper是Google的Chubby一個開源的實作,是Hadoop和HBase的重要元件。它是一個為分布式應用提供一緻性服務的軟體,提供的功能包括:配置維護、域名服務、分布式同步、組服務等。ZooKeeper的目标就是封裝好複雜易出錯的關鍵服務,構成一個高效可靠的原語集,将簡單易用的接口和性能高效、功能穩定的系統提供給使用者......
101、Cassandra
Apache Cassandra是一套開源分布式NoSQL資料庫系統。它最初由Facebook開發,用于儲存收件箱等簡單格式資料,集Google BigTable的資料模型與Amazon Dynamo的完全分布式的架構于一身Facebook于2008将 Cassandra 開源,此後,由于Cassandra良好的可擴充性,被Digg、Twitter等知名Web 2.0網站所采納,成為了一種流行的分布式結構化資料存儲方案,線性可擴充性和在商用硬體或雲基礎架構上經過驗證的容錯能力使它成為關鍵任務資料的理想平台......
持續更新中。。。擷取更多内容請關注
阿裡雲術語庫官方技術圈