結構化大資料的幾種計算方法（二）

2023-05-22 00:17:47

3、 SQL：這裡是指完整的SQL/SP，即ANSI 2000或其超集。以Greenplum為例,GreenplumSQL計算能力強，開發效率高，性能高，這是它最大的優勢。其他優勢包括語言通用性強，學習成本低，維護簡單、有一定的移植可能性。當然，它還有個絕招：支援存儲過程，可以進行複雜的計算，是以可以友善地從大資料中獲得商業價值。示例如下：

CREATE OR REPLACE functionview.merge_emp()

returns void as $$

BEGIN

truncate view.updated_record;

insert into view.updated_record selecty.* from view.emp_edw x right outer join emp_srcy on x.empid=y.empid where x.empid is not null;

update view.emp_edw setdeptno=y.deptno,sal=y.sal from view.updated_record y where view.emp_edw.empid=y.empid;

insert into emp_edw select y.* fromemp_edw x right outer join emp_src y on x.empid=y.empidwhere x.empid is null;

end;

$$ language 'plpgsql';

類似的MPP架構的資料庫還有Teradata、Vertical 、Oracle、IBM等，它們的文法特征大多相似。缺點也有相似性。它們的購買成本和後續維護成本極高。其中自稱廉價的Greenplum實則價格不菲，它按資料規模收費，被稱為披着BigData外皮的BigMoney。其他缺點包括：難以調試、文法不相容、擴容時停機時間長、難以進行多資料源的計算等。

4、類SQL：這是指具有JDBC/ODBC等輸出接口，但僅是标準SQL的子集的一類腳本語言。這裡以Hive QL為例。開發友善的同時可以廉價橫向擴容，這是Hive QL最大的優勢。它具有SQL的文法特征，是以學習成本低，開發效率高，維護簡單。另外Hive是Hadoop的元件，開源是它的一大優勢。示例如下：

SELECT e.* FROM (

SELECTname, salary, deductions["Federal Taxes"] as ded,

salary* (1 – deductions["Federal Taxes"]) as salary_minus_fed_taxes

FROMemployees

WHEREround(e.salary_minus_fed_taxes) > 70000;

Hive QL的缺點是不支援存儲過程，是以難以進行複雜計算，也就難以真正提供有價值的計算結果。稍複雜的計算它需要求助于MapReduce，開發效率很低。性能差，有門檻時間也是個緻命弱點，比如配置設定任務，或執行多表關聯計算、行間計算、多級子查詢、有序分組計算等算法時。是以很難實作實時的Hadoop大資料應用。

也有其他産品支援類SQL，比如MongoDB，但比Hive尚有差距。

大資料計算的方法不外乎API 、Script、SQL、類SQL這四類，希望它們更進一步，出現更多成本低廉、計算能力強的實用産品。

結構化大資料的幾種計算方法（二）

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark