天天看點

Serverless 在大規模資料處理的實踐

Serverless 服務平台可以使您的應用快速水準擴充,并行處理的工作更加有效。本文詳細闡述了 Serverless 在大規模資料處理上的實踐,并給出了具體的實踐案例。

Serverless 在大規模資料處理的實踐

作者 | 西流  阿裡雲技術專家

<關注阿裡巴巴雲原生公衆号,背景回複 606 即可下載下傳相關 PPT>

前言

當您第一次接觸 Serverless 的時候,有一個不那麼明顯的新使用方式:與傳統的基于伺服器的方法相比,Serverless 服務平台可以使您的應用快速水準擴充,并行處理的工作更加有效。這主要是因為 Serverless 可以不必為閑置的資源付費,不用擔心預留的資源不夠。而在傳統的使用範式中,使用者必須預留成百上千的伺服器來做一些高度并行化但執行時長較短的任務,而且必須為每一台伺服器買單,即使有的伺服器已經不再工作了。

以阿裡雲 Serverless 産品——函數計算為例,便可以完美解決您上述所有顧慮:

  • 如果您的任務本身計算量不是很大,但是有大量的并發任務請求需要并行處理, 比如多媒體檔案處理、文檔轉換等;
  • 一個任務本身計算量很大,要求單個任務很快處理完,并且還能支援并行處理多個任務。
在這種場景下,使用者唯一關注的就是:您的任務是可以分治拆解并且子任務是可以并行處理的,一個需要一個小時才能處理完的長任務,可以分解成 360 個獨立的 10 秒長的子任務并行處理,這樣,以前您要花一個小時才能處理完的任務,現在隻需要 10 秒就可以搞定。由于采用的是按量計費的模型,完成的計算量和成本是大緻相當的,而傳統模型則因為預留資源肯定會存在浪費,浪費的費用也是需要您去承擔的。

接下來,将詳細闡述 Serverless 在大規模資料處理上的實踐。

極緻彈性擴縮容應對計算波動

在介紹相關的大規模資料處理示例之前, 這裡先簡單介紹一下函數計算。

1. 函數計算簡介

Serverless 在大規模資料處理的實踐
  • 開發者使用程式設計語言編寫應用和服務,函數計算支援的開發語言請參見開發語言清單;
  • 開發者上傳應用到函數計算;
  • 觸發函數執行:觸發方式包括 OSS、API 網關、日志服務、表格存儲以及函數計算 API、SDK 等;
  • 動态擴容以響應請求:函數計算可以根據使用者請求量自動擴容,該過程對您和您的使用者均透明無感覺;
  • 根據函數的實際執行時間按量計費:函數執行結束後,可以通過賬單來檢視執行費用,收費粒度精确到 100 毫秒。

詳情:函數計算官網

至此,您大約可以簡單了解到函數計算是怎麼運作的,接下來以大量視訊并行轉碼的案例來闡述:假設一家在家教育或娛樂相關的企業,老師授課視訊或者新的片源一般是集中式産生,而您希望這些視訊被快速轉碼處理完以便能讓客戶快速看到視訊回放。比如在當下疫情中,線上教育産生的課程激增,而出課高峰一般是 10 點、12 點、16 點、18 點等明顯的峰值段,特定的時間内(比如半個小時)處理完所有新上傳的視訊是一個通用而且普遍的需求。

2. 彈性高可用的音視訊處理系統

  • OSS 觸發器
Serverless 在大規模資料處理的實踐

如上圖所示,使用者上傳一個視訊到 OSS,OSS 觸發器自動觸發函數執行,函數計算自動擴容,執行環境内的函數邏輯調用 FFmpeg 進行視訊轉碼,并且将轉碼後的視訊儲存回 OSS。

  • 消息觸發器
Serverless 在大規模資料處理的實踐

如上圖所示,應用隻需要發一個消息,自動觸發函數執行音視訊處理的任務即可,函數計算自動擴容,執行環境内的函數邏輯調用 FFmpeg 進行視訊轉碼, 并且将轉碼後的視訊儲存回 OSS。

  • 直接手動調用 SDK 執行音視訊處理任務

以 python 為例,大緻如下:

python
    # -*- coding: utf-8 -*-
    import fc2
    import json
    client = fc2.Client(endpoint="http://123456.cn-hangzhou.fc.aliyuncs.com",accessKeyID="xxxxxxxx",accessKeySecret="yyyyyy")
    # 可選擇同步/異步調用
    resp = client.invoke_function("FcOssFFmpeg", "transcode", payload=json.dumps(
    {
        "bucket_name" : "test-bucket",
        "object_key" : "video/inputs/a.flv",
        "output_dir" : "video/output/a_out.mp4"
    })).data
    print(resp)
           

從上面我們也可以看出,觸發函數執行的方式也很多,同時簡單配置下 SLS 日志,就可以很快實作一個彈性高可用、按量付費的音視訊處理系統,同時能提供免運維、具體業務資料可視化、強大自定義監控報警等超強功能的 dashboard。

Serverless 在大規模資料處理的實踐

目前已經落地的音視訊案例有 UC、語雀、躺平設計之家、虎撲以及幾家線上教育的頭部客戶等,其中有些客戶高峰期間,彈性使用到了萬核以上 CPU 計算資源,并行處理的視訊達到 1700+,同時提供了極高的成本效益。

詳情可以參考:

  • simple-video-processing)
  • fc-oss-ffmpeg

任務分治,并行加速

這種将任務分而治之的思想應用在函數計算上是一件有趣的事情,在這裡舉一個例子,比如您有一個超大的 20G 的 1080P 高清視訊需要轉碼,即使您使用一台高配機器,需要的時間可能還是要按小時計,如果中途出問題中斷轉碼,您隻能重新開始再重複一遍轉碼的過程,如果您使用分治的思想+函數計算,轉碼的過程衍變為 

分片-> 并行轉碼分片-> 合并分片

,這樣就可以解決您上述的兩個痛點:

  • 分片和合成分片是記憶體級别的拷貝,需要的計算量極小,真正消耗計算量的轉碼,拆分成了很多子任務并行處理,在這個模型中,分片轉碼的最大時間基本等同于整個大視訊的轉碼時間;
  • 即使中途某個分片轉碼出現異常,隻需要重試這個分片的轉碼即可,不需要整個大任務推倒重來。

通過将大任務合理的分解,配合使用函數計算,編寫一點 code,就可以快速完成一個彈性高可用、并行加速、按量付費的大型資料處理系統。

在介紹這個方案之前,我們先簡單介紹一下 Serverless 工作流,Serverless 工作流可以很好地将函數和其他雲服務和自建服務有組織地編排起來。

1. Serverless 工作流簡介

Serverless 工作流(Serverless Workflow)是一個用來協調多個分布式任務執行的全托管雲服務。在 Serverless 工作流中,您可以用順序、分支、并行等方式來編排分布式任務,Serverless 工作流會按照設定好的步驟可靠地協調任務執行,跟蹤每個任務的狀态轉換,并在必要時執行使用者定義的重試邏輯,以確定工作流順利完成。Serverless 工作流簡化了開發和運作業務流程所需要的任務協調、狀态管理以及錯誤處理等繁瑣工作,讓您聚焦業務邏輯開發。

詳情:Serverless 工作流官網

接下來以一個大視訊快速轉碼的案例來闡述 Serverless 工作編排函數,實作大計算任務的分解,并行處理子任務,最終達到快速完成單個大任務的目的。

2. 大視訊的快速多目标格式轉碼

Serverless 在大規模資料處理的實踐

如上圖所示,假設使用者上傳一個 mov 格式的視訊到 OSS,OSS 觸發器自動觸發函數執行,函數調用 FnF 執行,FnF 同時進行 1 種或者多種格式的轉碼(由 template.yml 中的 DST_FORMATS 參數控制),假設配置的是同時進行 mp4 和 flv 格式的轉碼。

  • 一個視訊檔案可以同時被轉碼成各種格式以及其他各種自定義處理,比如增加水印處理或者在 after-process 更新資訊到資料庫等;
  • 當有多個檔案同時上傳到 OSS,函數計算會自動伸縮,并行處理多個檔案,同時每次檔案轉碼成多種格式也是并行;
  • 結合 NAS + 視訊切片,可以解決超大視訊的轉碼,對于每一個視訊,先進行切片處理,然後并行轉碼切片,最後合成,通過設定合理的切片時間,可以大大加快較大視訊的轉碼速度;
  • fnf 可以跟蹤每一步執行情況,并且可以自定義每一個步驟的重試,提高任務系統的魯棒性,如:retry-example

詳情可以參考:fc-fnf-video-processing

在任務分治,并行加速具體的案例中,上面分享的是 CPU 密集型任務分解,但也可以進行 IO 密集型任務分解,比如這個需求:上海的 region 的 OSS bucket 中的一個 20G 大檔案,秒級轉存回杭州的 OSS Bucket 中。這裡也可以采用分治的思路,Master 函數在接到轉存任務之後,将超大檔案進行分片的 range 配置設定給每個 Worker 子函數,Worker 子函數并行轉存屬于自己那部分的分片,Master 函數待所有子 Worker 運作完畢之後,送出合并分片請求,完成整個轉存任務。

Serverless 在大規模資料處理的實踐

詳情可以參考:利用函數計算多執行個體并發實作秒級轉存超大檔案

總結

本文探讨了 Serverless 服務平台可以使您的應用快速水準擴充,并行處理的工作更加有效,并給出了具體的實踐案例,無論在 CPU 密集型還是 IO 密集型場景,函數計算 + Serverless 都能完美解決您以下顧慮:

  • 不必為閑置的資源付費
  • 不用擔心計算資源預留不夠
  • 大計算量的任務需要快速處理完畢
  • 更好的任務流程跟蹤
  • 完善的監控報警、免運維、業務資料可視化等
  • ....

本文中對于 Serverless 音視訊處理隻是一個示例,它展示的是函數計算配合 Serverless 工作流在離線計算場景中的能力和獨一無二的優勢。我們可以用發散的方式去拓展 Serverless 在大規模資料處理實踐的邊界,比如AI、基因計算、科學仿真等。希望本篇文章能吸引您,開啟您的 Serverless 奇妙之旅。

課程推薦

為了更多開發者能夠享受到 Serverless 帶來的紅利,這一次,我們集結了 10+ 位阿裡巴巴 Serverless 領域技術專家,打造出最适合開發者入門的 Serverless 公開課,讓你即學即用,輕松擁抱雲計算的新範式——Serverless。

點選即可免費觀看課程:https://developer.aliyun.com/learning/roadmap/serverless

“阿裡巴巴雲原生關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的公衆号。”