編輯 | sunlei
釋出 | ATYUN訂閱号

谷歌在3月份推出了Coral Dev Board,采用張量處理器(Edge TPU)AI加速器晶片,以及一個USB加密狗,旨在加速現有Raspberry Pi和Linux系統的機器學習推理。
今天,谷歌釋出了一系列新的分類模型EfficientNet-EdgeTPU,經過優化,可以在Coral闆的系統級子產品上運作。
同時,GitHub上提供了EfficientNet-EdgeTPU的訓練代碼和預訓練模型。
精度高,速度快
随着半導體尺寸的減小變得越來越困難,業界正在重新關注開發特定領域的架構,例如硬體加速器,以繼續提高計算能力。雖然這些架構在資料中心和邊緣計算平台上不斷湧現,但在其上運作的AI模型很少被自定義以利用底層硬體。
是以,EfficientNet-EdgeTPU項目的目标是将源自谷歌的EfficientNets的模型定制為功率高效,低開銷的Edge TPU晶片。EfficientNets已經證明,相對于現有的人工智能系統的某些類别,它具有更高的精度和更好的效率,将參數大小和FLOPS降低了一個數量級。
EfficientNet-EdgeTPU-S實作了更高的精度,但運作速度比ResNet-50快10倍
這是因為EfficientNets使用網格搜尋來識别固定資源限制下的基線AI模型的縮放次元之間的關系。搜尋确定每個次元的适當縮放系數,然後應用系數以将基線模型按比例放大到期望的模型大小或計算預算。
根據Gupta,Tan等人的說法,重新架構EfficientNets以利用Edge TPU,需要調用谷歌開發的AutoML MNAS架構。
MNAS從候選模型清單中識别理想的模型體系結構,方法是結合增強學習來考慮硬體限制,然後在選擇最佳模型之前執行各種模型并測量它們的實際性能。
團隊使用延遲預測子產品對其進行了補充,該子產品在Edge TPU上執行時提供了算法延遲的估計。
整體方法産生了一個基線模型,即EfficientNet-EdgeTPU-S,研究人員通過選擇輸入圖像分辨率縮放,網絡寬度和深度縮放的最佳組合來擴大規模。
在實驗中,與流行的圖像分類模型(如Inception-resnet-v2和Resnet50)相比,由此産生的更大的體系結構——EfficientNet-EdgeTPU-M和EfficientNet-EdgeTPU-L,以更高的延遲為代價實作了更高的準确性,并且在Edge TPU上運作得更快。
EfficientNet-EdgeTPU釋出的前一天,針對TensorFlow的谷歌s模型優化工具包剛剛釋出,這是一套工具,包括混合量化、全整數量化和修剪。值得注意的是訓練後的float16量化,它可以将AI模型的大小減少50%,同時隻損失了很少的精度。
Github:
github.com/tensorflow/tpu/tree/master/models/official/efficientnet/edgetpu
End