大檔案問題
函數計算對上傳的 zip 代碼包尺寸限制為 50M。某些場景中代碼包中會超過這一限制,比如未經裁剪的
serverless-chrome,類似的還有 libreoffice ,此外常見的還有機器學習訓練的模型檔案。
目前解決大檔案問題有三種方法
- 采用更高壓縮比的算法,比如本文介紹的 brotli 算法
- 采用 OSS 運作時下載下傳
- 采用 NAS 檔案共享
簡單的比較一下這三種方法的優劣
方法 | 優點 | 缺點 |
---|---|---|
高密度壓縮 | 釋出簡單,啟動最快 | 上傳代碼包較慢;要寫解壓代碼;大小受限制不超過 50 M |
OSS | 下載下傳解壓後檔案不超過 512 M | 需要預先上傳至 OSS;要寫下載下傳和解壓代碼,大概 50M/s 的下載下傳速度 |
NAS | 檔案大小沒有限制,無需壓縮 | 需要預先上傳至 NAS;VPC 環境有冷啟動時延(~5s) |
正常情況下如果代碼包能控制在 50M 以下啟動較快。而且工程上也比較簡單,資料和代碼放在一起,不需要額外的寫腳本去同步更新 OSS 或者 NAS。
壓縮算法
Brotli是 Google 工程師開發的開源壓縮算法,目前已經被新版的主流浏覽器支援,作為 HTTP 傳輸的壓縮算法。下面是在網上找到的關于 Brotli 和其他常見壓縮算法對比基準測試。

從上面三幅圖我們可以看出:相比于 gzip、xz 和 bz2,brotli 有最高的壓縮比,接近于 gzip 的解壓速度,以及最慢的壓縮速度。
然而在我們的場景對于壓縮慢這一缺點不敏感,壓縮任務隻要在開發準備物料的階段執行一次就好了。
制作壓縮檔案
下面我先介紹一下如何制作壓縮檔案。下面的代碼和用例都來自于項目
packed-selenium-java-example。
安裝 brotli 指令
Mac 使用者
brew install brotli
Windows 使用者可以去這個界面下載下傳,
https://github.com/google/brotli/releases打包并壓縮
打包前兩個檔案大小分别為 7.5M 和 97M
╭─ ~/D/test1[◷ 18:15:21]
╰─ ll
total 213840
-rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver
-rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
使用 GZip 打包并壓縮,大小為 44 M。
╭─ ~/D/test1[◷ 18:15:33]
╰─ tar -czvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:16:41]
╰─ ll
total 306216
-rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver
-rw-r--r-- 1 vangie staff 44M 3 6 18:16 chromedriver.tar
-rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
tar 去掉 z 選項再打包一遍,大小為 104M
╭─ ~/D/test1[◷ 18:16:42]
╰─ tar -cvf chromedriver.tar chromedriver headless-chromium
a chromedriver
a headless-chromium
╭─ ~/D/test1[◷ 18:17:06]
╰─ ll
total 443232
-rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver
-rw-r--r-- 1 vangie staff 104M 3 6 18:17 chromedriver.tar
-rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
壓縮後的大小為 33M,相比 Gzip 的 44M 小了不少。耗時也非常的感人 6 分 18 秒,Gzip 隻要 5 秒。
╭─ ~/D/test1[◷ 18:17:08]
╰─ time brotli -q 11 -j -f chromedriver.tar
brotli -q 11 -j -f chromedriver.tar 375.39s user 1.66s system 99% cpu 6:18.21 total
╭─ ~/D/test1[◷ 18:24:23]
╰─ ll
total 281552
-rwxr-xr-x 1 vangie staff 7.5M 3 5 11:13 chromedriver
-rw-r--r-- 1 vangie staff 33M 3 6 18:17 chromedriver.tar.br
-rwxr-xr-x 1 vangie staff 97M 1 25 2018 headless-chromium
運作時解壓縮
下面以 java maven 項目為例
添加解壓依賴包
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-compress</artifactId>
<version>1.18</version>
</dependency>
<dependency>
<groupId>org.brotli</groupId>
<artifactId>dec</artifactId>
<version>0.1.2</version>
</dependency>
commons-compress
是 apache 提供的解壓縮工具包,對于各種壓縮算法提供一緻的抽象接口,其中對于 brotli 算法隻支援解壓,這裡足夠了。
org.brotli:dec
包是 Google 提供的 brotli 解壓算法的底層實作。
實作 initialize 方法
public class ChromeDemo implements FunctionInitializer {
public void initialize(Context context) throws IOException {
Instant start = Instant.now();
try (TarArchiveInputStream in =
new TarArchiveInputStream(
new BrotliCompressorInputStream(
new BufferedInputStream(
new FileInputStream("chromedriver.tar.br"))))) {
TarArchiveEntry entry;
while ((entry = in.getNextTarEntry()) != null) {
if (entry.isDirectory()) {
continue;
}
File file = new File("/tmp/bin", entry.getName());
File parent = file.getParentFile();
if (!parent.exists()) {
parent.mkdirs();
}
System.out.println("extract file to " + file.getAbsolutePath());
try (FileOutputStream out = new FileOutputStream(file)) {
IOUtils.copy(in, out);
}
Files.setPosixFilePermissions(file.getCanonicalFile().toPath(),
getPosixFilePermission(entry.getMode()));
}
}
Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();
System.out.println("Extract binary elapsed: " + timeElapsed + "ms");
}
}
實作
FunctionInitializer
接口的
initialize
方法。解壓過程剛開始是四層嵌套流,作用分别如下:
-
讀取檔案FileInputStream
-
提供緩存,介紹系統調用帶來的上下文切換,提示讀取的速度BufferedInputStream
-
對位元組流進行解碼BrotliCompressorInputStream
-
把 tar 包裡的檔案逐個解出來TarArchiveInputStream
然後
Files.setPosixFilePermissions
的作用是還原 tar 包中檔案的權限。代碼太長此處略去,參閱
Instant start = Instant.now();
...
Instant finish = Instant.now();
long timeElapsed = Duration.between(start, finish).toMillis();
System.out.println("Extract binary elapsed: " + timeElapsed + "ms");
上面的代碼段會列印出解壓的耗時,真實執行大概在 3.7 s 左右。
最後不要忘記在
template.yml
裡配置上
Initializer
和
InitializationTimeout
參考閱讀
- https://www.opencpu.org/posts/brotli-benchmarks/
- https://github.com/vangie/packed-selenium-java-example
加入我們
團隊介紹
阿裡雲函數服務是一個全新的,支援事件驅動程式設計模式的計算服務。 他幫助使用者聚焦自身業務邏輯,以 Serverless的方式建構應用,快速的實作低成本,可擴充,高可用的系統,而無需考慮伺服器等底層基礎設施的管理。 使用者能夠快速的建立原型,同樣的架構能随業務規模平滑伸縮。讓計算變得更高效,更經濟,更彈性,更可靠。無論小型創業公司,還是大型企業,都受益其中。我們的團隊正在迅速擴張,求賢若渴。我們想尋找這樣的隊友:
基本功紮實。既能閱讀論文追蹤業界趨勢,又能快速編碼解決實際問題。
嚴謹的,系統化的思維能力。既能整體考慮業務機會,系統架構,運維成本等諸多因素,又能掌控設計/開發/測試/釋出的完整流程,預判并控制風險。
好奇心和使命感驅動。樂于探索未知領域,不僅是夢想家,也是踐行者。
堅韌、樂觀、自信。能在壓力和困難中看到機會,讓工作充滿樂趣!
如果您對雲計算充滿熱情,想要建構一個有影響力計算平台和生态體系,請加入我們,和我們一起實作夢想!
職位描述
建構新一代 Serverless 計算平台,包括:
- 設計和實作完整可擴充的前端系統,包括身份驗證/權限管理,中繼資料管理,流量控制,計量計費,日志監控等等
- 設計和實作彈性可靠的後端系統,包括資源排程,負載均衡,容錯處理等等
- 豐富易用的 SDK/Tools/CLI/控制台
- 使用者需求驅動,追蹤業界趨勢,利用技術推動業務的成長
職位要求
- 算法/資料結構/作業系統等基礎知識紮實,優秀的邏輯思維能力。
- 至少掌握一門程式設計語言。例如 Java/Go/C/C#/C++。
- 有大規模、高可用分布式系統開發經驗者優先。
- 有 Web/Mobile Backends/Microservice 開發經驗者優先。
- 良好的溝通能力和團隊合作精神,有一定的組織協調能力。
- 大學及以上學曆
- 3 年以上工作經驗,通過“阿裡巴巴編碼規範” 認證的同學優先錄取,認證位址: https://edu.aliyun.com/certification/cldt02
履歷送出
yixian.dw AT alibaba-inc.com
“ 阿裡巴巴雲原生技術圈 關注微服務、Serverless、容器、Service Mesh 等技術領域、聚焦雲原生流行技術趨勢、雲原生大規模的落地實踐,做最懂雲原生開發者的技術圈。”