1. 背景
GraphStudio是DataWorks團隊和GraphCompute(原MaxGraph)團隊合作推出的一站式圖計算研發平台。基于GraphCompute圖計算引擎和DataWorks飛天大資料平台,我們緻力于幫助使用者以簡單易用的方式完成圖模型建構、資料導入、算法探索、算法結果應用等一系列工作。
1.1 GraphCompute

從DB-Engine 2019年釋出的各類資料庫發展趨勢圖上可以看出,最上方綠色的這條Graph DBMS代表圖資料庫。自2013年以來,圖資料庫的發展速度一騎絕塵,圖存儲、圖計算相關技術産品不斷湧現。
圖計算究竟能幫助我們解決哪些問題?
- 社交關系:在社交應用中,可以通過建構人與人的社交關系,分析特定使用者的多度好友、關注度、轉發量等。
- 金融風控:人員和事件構成一張龐大的關系網絡,通過關聯分析可以快速識别異常,及時避免風險。例如識别電商領域的刷單行為,金融領域的洗錢、騙保等。
- 網絡安全防控:把IP、域名、主機的一系列實體建構成圖,借助圖的互聯互通,找出網絡環境中的不安全因素。比如木馬病毒經常控制若幹域名進行惡意通訊,在已經發現不安全域名時,通過域名和伺服器IP的關聯關系,快速找出新的有問題的域名。
在這樣的背景下GraphCompute應運而生,從基于MaxCompute的bigGraph,到具備獨立部署能力的MaxGraph,再到完成品牌更新、與大資料平台進一步融合的GraphCompute。GraphCompute發展逐漸成熟,具有彈性擴充高可用性、高性能低延時、查詢分析雙引擎、與大資料生态深度內建等優勢。
1.2 DataWorks
DataWorks是集資料治理、資料開發、任務排程、中繼資料管理、資料內建為一體的全域智能大資料平台。從支援MaxCompute單引擎,已逐漸發展為跨存儲+跨引擎+跨雲+跨region的、有資料綜合治理和AI加持的飛天大資料平台。
1.3 GraphStudio
GraphStudio搭建了GraphCompute和DataWorks融合的橋梁。GraphStudio是DataWorks智能資料開發中的一員,為GraphCompute的開發者提供圖執行個體模組化、資料查詢、執行個體運維等圖計算開發分析服務。并依托DataWorks中的資料內建和任務排程,支援GraphCompute資料導入;依托資料綜合治理,提供圖查詢結果的資料分析。
在2019年5月份完成GraphStudio v0.1彈内釋出後,我們已經逐漸完成了已有圖執行個體的使用遷移、GraphStudio v1.0的彈内釋出、GraphCompute與GraphStudio的公有雲首發,同時GraphCompute與GraphStudio将在專有雲企業版3.9版本輸出。本文将為大家介紹最新版本GraphStudio的主要功能,以及我們的後續産品規劃。
2. 核心能力
GraphStudio提供一站式的圖計算開發能力,包括:執行個體建立、模型設計、資料導入、資料導入運維、實時查詢、執行個體管理。
- 執行個體建立:建立GraphCompute執行個體并與DataWorks項目空間綁定,在公有雲上支援将使用者VPC與圖執行個體打通。
- 模型設計:定義Graph執行個體中的點和邊,以表格或可視化的方式完成檢視、建立、編輯、删除等操作,可視化方式幫助使用者非常直覺的了解整個模型。
- 資料導入:基于DataWorks的資料內建功能,支援從ODPS導入資料到GraphCompute,可單次執行、可定時排程。
- 資料導入運維:基于DataWorks的運維中心,支援以執行個體粒度或類型粒度查詢資料導入任務運作狀态。
- 實時查詢:基于實時查詢服務,支援Gremlin語句的查詢,支援查詢結果的表格式和可視化展示,以及豐富的可視化互動操作。
3. 功能詳解
3.1 執行個體建立
在公有雲,使用者可從
阿裡雲官網購買GraphCompute執行個體,并在DataWorks管控台綁定項目空間使用。
3.2 模型設計
我們支援兩種模組化方式,表格模式和可視化模式。
表格模式
- 支援表格式檢視、新增、編輯、删除模型中的點和邊。
- 點和邊的定義包括:屬性,關系(源點、目标點),顯示屬性(顔色、大小、顯示内容)。顯示屬性的設定會生效到可視化模組化以及實時查詢的可視化結果中。
一站式圖計算研發平台GraphStudio1. 背景2. 核心能力3. 功能詳解4. 展望
可視化模式
- 支援通過可視化的圓形和連線檢視已有模型。
- 支援通過拖拽圓形、拖拽連線來觸發點、邊的建立,通過在圖形界面左右鍵點選觸發編輯和删除操作。
可視化模組化的優勢在于:
- 使用者可以非常直覺的檢視目前整個圖的模型設計,洞察點和邊之間的關聯關系。
- 使用者可以快速的通過拖拽方式觸發點、邊的建立。
一站式圖計算研發平台GraphStudio1. 背景2. 核心能力3. 功能詳解4. 展望
3.3 資料導入
在完成執行個體模組化後,可以在模組化頁面通過“資料導入”跳轉到DataStudio,設定資料導入任務。
- 支援自動生成資料導入任務:對于每個點或者邊下的關聯,我們會自動建立對應的資料導入節點,并同步好資料去向資訊。
- 人工配置:使用者補充資料來源,建立資料來源到資料去向的字段映射即可。目前我們支援從ODPS資料源導入到GraphCompute資料源,後續我們會支援更多的資料來源類型。
- 支援單次排程、周期排程:資料導入任務可以單次補資料執行,也可以設定為周期定時排程,這部分和DataWorks其他排程任務一緻。
一站式圖計算研發平台GraphStudio1. 背景2. 核心能力3. 功能詳解4. 展望
3.4 資料導入運維
在GraphStudio的運維tab中我們支援圖執行個體導入任務執行個體的查詢,友善使用者快速檢視某一個執行個體下全部點和邊的資料導入執行個體運作狀态,并可跳轉DataWorks運維中心檢視運作詳情,解決了在DataWorks的運維中心中無法以圖執行個體粒度或類型粒度進行查詢的問題。
3.5 實時查詢
gremlin查詢
在資料查詢檔案中,使用者可編寫并運作單條gremlin語句,系統将同步執行查詢,查詢結果将以可視化和表格化兩種形式展現。
- 支援可視化查詢結果:以圓形和線表示查詢得到的點和關聯,并提供了豐富的互動操作 1) 檢視點/邊詳細資訊;2)設定點/邊的顯示屬性、顔色、大小;3)調節可視化面闆。
- 支援表格化查詢結果:以表格形式展現查詢結果,尤其适用于非點和邊的查詢結果,并支援 1)文本搜尋;2) 線上資料分析。
擴充
在可視化查詢結果中,可以執行擴充指定邊或擴充全部操作,以指定點為起點查詢對應類型的邊和終點。擴充操作非常适用于從指定點出發的探索場景。
4. 展望
以上是GraphStudio現有版本的功能,未來我們會在以下方面重點發展。
- 提升模型設計易用性,幫助使用者簡化已有關系型資料到圖資料的模組化和ETL過程。
- 與GraphCompute同步更新算法能力,支援内置算法的使用,支援自定義算法的開發、釋出。
- 與DataWorks各部分能力進一步深度內建
- 資料導入:支援除ODPS外的資料源類型,如MySQL、OSS等。
- 資料服務:支援定義GraphCompute查詢語句并生成API,用于報表分析等場景。
- AppStudio:支援Graph SDK嵌入、圖可視化元件嵌入,快速搭建基于圖計算的應用。
期望為圖計算使用者提供更簡單、更完備的圖計算開發分析運維平台。