除了 AI 硬件設計者們在努力開發低功耗的專用芯片以外,還有一組研究人員正想方設法讓 DNN 本身更加“低碳化”:將 DNN 模型高效地部署到各種硬件平臺上,涉及根據具體硬件算力進行重新設計(或裁剪)以及重頭訓練,由此帶來的成本會隨著硬件平臺的數量而線性增長,造成大量的能源消耗與碳排放。
一次訓練就能適應多平臺部署的 Once for All(OFA)方案,成為一種解決思路。
最近,來自麻省理工學院的韓松團隊就發表了這個方向的一項新成果:團隊開發了一個適用于多種不同硬件平臺的 AutoML 系統,這種系統碳足跡更小,硬件上的計算效率更高。這將是一項頗具應用前景的研究。
該方法訓練了一個大型的母網絡,其中包含許多不同大小的子網絡,就能實現子網無需再訓練即可適應不同的硬件平臺,從而大幅降低了為新平臺 (可能包括數十億個物聯網設備) 訓練每個專門的神經網絡所需的成本。
團隊估計,與當今最先進的神經網絡架構搜索方法(NAS)相比,利用該系統訓練一個計算機視覺模型只需要大約原來 1/ 1300 的碳排放(圖 1),同時在不損失準確率的前提下,將推理時間縮短了 1.5-2.6 倍(圖 2)。

圖 1:OFA 和傳統 NAS 方法的訓練代價比較(以碳排放量計)

圖 2:OFA 和 EfficientNet, MobileNet-v3 的推理性能比較
“我們的目標是更小、更環保的神經網絡。目前搜索高效的神經網絡架構會產生巨大的碳排放,新方法減少了幾個數量級的碳排放”,韓松說。
團隊基于 AutoML 建立了這個系統,從而可以自動搜索巨大的神經網絡結構空間,以尋找適合于給定硬件平臺的網絡結構。但是這仍然存在效率問題:不同硬件平臺必須單獨選擇模型,然后從頭開始對選擇的模型進行訓練。
韓松介紹道:“我們如何才能為從 1 美元的物聯網設備,到上百美元的智能手機,到上千美元的 GPU 和云 AI 都有效地適配不同的網絡?考慮到物聯網設備的多樣性,神經架構搜索的計算成本將會激增。”
而團隊開發的 AutoML 系統之所以能避開這些成本,關鍵在于只訓練作為 OFA 的 “母” 網絡。

來源:Han Lab
這個 “母” 網絡嵌套了非常多的子網,與所有的子網絡共享所有的學習權值,這意味著子網絡基本上是經過預先訓練的。因此,每個子網可以在推理時獨立運行而無需再訓練。
針對特定的平臺,系統會使用 OFA 作為搜索空間,根據與平臺的能力和速度限制相吻合的準確性和延遲權衡,找到最佳的子網。例如,對于物聯網設備,系統會找到一個較小的子網。對于智能手機,它將選擇較大的子網,但根據電池壽命和計算資源的不同,子網的結構也將不同。OFA 將模型訓練和架構搜索解耦,并將一次性訓練成本分攤到多個推理硬件平臺和資源約束上,在需要多平臺部署的場景下顯現優勢。
這依賴于 “漸進收縮” 算法,它能有效地訓練 OFA 網絡以同時支持所有的子網。“漸進收縮”算法首先用最大尺寸訓練整個網絡,然后逐步縮小網絡的大小去覆蓋更小的子網。小的子網絡在大的子網絡的幫助下一起提升。最后,系統支持不同大小的所有子網絡,并允許基于平臺的能力和速度限制進行快速定制化。它支持多種硬件設備,在添加新設備時,訓練成本為零。
“一個通用的 OFA 網絡,支持在大量不同的結構設置下通過截取 OFA 網絡的不同部分來進行高效推理”,HAN Lab 博士生蔡涵說。根據論文,一個 OFA 網絡可包含超過 10 的 19 次方個結構設置,幾乎覆蓋了所有需要的平臺。
那么成本以外,準確性如何?
結果顯示,這種方法在移動設備上提供了目前最優的 ImageNet 精度(圖 3)。
蔡涵表示:“從計算資源的角度,NAS 方法的總計算資源是隨著部署場景數量的增加而線性增長的。當有多個部署場景的時候,OFA 會比 NAS 方法高效得多。具體上,在 40 個部署場景的情況下,OFA 的總計算資源消耗是 ProxylessNAS 的 1/16,MnasNet 的 1/1300”。

圖 3:OFA 網絡只需 595M MACs 即可實現 80.0% ImageNet top-1 準確率。
從準確率的角度,OFA 中的子網在經過微調后可以達到比單獨從頭訓練更好的準確率。在 ImageNet 上,OFA 在大量的硬件平臺和效率約束下都達到了明顯好于 EfficientNet 和 MobileNetV3 的性能(圖 2)。在 ImageNet 的 Mobile Vision 條件下(圖 3)
現在,該研究論文已被 ICLR 2020 大會收錄,并在 github 上開源了訓練代碼以及 50 個用于各種硬件平臺的 ImageNet 預訓練模型,包括了在 600M MACs 約束下達到 80.0%ImageNet 準確率的模型、預訓練的 OFA 網絡。
接下來,團隊將繼續拓展 OFA 在不同應用下的效率提升,讓 AI 輕量化,既能運行在云端平臺也能運行在邊緣設備上。
責任編輯:倪穎





