計世網

互聯網高科技公司領導AI工業化,MatrixGo加速人工智能落地
來源:財經街
2022-02-21
MatrixGo的推出,標志著AI工業化迎來了一個全新里程碑,也將極大推動AI工程化進展。

 

AI(人工智能)工業化與AI工程化正在引領人工智能的大趨勢。AI工程化主要從企業CIO角度,著眼于在企業生產環境中規模化落地AI應用的工程化舉措;而AI工業化則從AI供應商的角度,著眼于以規?;绞綖槠髽I用戶提供AI技術、方案和服務,從而在企業生產環境中能夠規?;涞谹I應用。AI工業化和AI工程化相當于一個硬幣的兩面,一面是AI技術供給和供應鏈的規模化,一面是AI技術使用和落地的規模化。

AI工程化已經連續兩年入選Gartner的2021年及2022年重要戰略科技趨勢報告。在2021年,Gartner指出只有53%的項目能夠從AI原型轉化到生產環境,AI項目的擴展難度很大。而在2022年報告中,Gartner預測到2025年,10%建立了AI工程化最佳實踐的企業,將比余下90%的企業實現至少高三倍的收益。AI工程化不足之處,AI工業化補足。作為AI模型生命周期高質量數據服務供應商,澳鵬中國高級產研總監張童皓指出:數據優化為AI推理帶來的效果提升,要遠比代碼優化的效果強很多,企業到了建立AI數據供應鏈的時機。

AI工業化與AI工程化都包括了DataOps、ModelOps和DevOps三大實踐,統稱為AIOps。其中ModelOps和DevOps已經有眾多成熟的自動化工具與平臺以及相應的從業人員,而DataOps正處于快速上升期,AI數據標注是DataOps中的一個關鍵領域。2022年1月,澳鵬中國推出了MatrixGo高精度AI數據標注平臺企業版,專門面向企業本地部署環境,幫助CIO們以高度自動化、標準化和規?;绞浇I標注數據供應鏈。

MatrixGo的推出,標志著AI工業化迎來了一個全新里程碑,也將極大推動AI工程化進展。

AI數據工業化大趨勢

以深度神經網絡模型為代表的深度學習算法正釋放人工智能產業的紅利。自深度神經網絡算法在2015年取得視覺識別的突破、在2017年取得語音識別的突破,以及2018年底BERT大規模預訓練神經網絡模型問世以來,深度學習算法就在互聯網和高科技行業率先推動了一波大規模應用,包括自動駕駛、新聞匯聚、自然語言處理、虛擬助理、娛樂等應用領域,而其成果就是推高了互聯網和高科技公司的市值。

除了互聯網和高科技公司外,AI創業公司也是深度學習算法在各行各業落地的主力軍。在全球市場,根據CB Insights統計,2010年到2021年,全球AI 100強共獲得了117億美元的股權融資,自動駕駛、醫藥研發、AI處理器等是最主要投融資領域,如今AI 100強在零售、快速消費品、游戲等18個行業領域推動著AI的落地。在中國,除了百度、阿里、騰訊、京東、滴滴、華為、科大訊飛等互聯網和高科技巨頭外,高校與科研機構、AI四小龍以及一批智能駕駛公司等在推動深度學習算法發展與落地。

近年來,人工智能領域在第三次浪潮爆發后經歷了快速的發展,許多特定領域的專用人工智能算法已經大幅度超越了人類的水平,并在工業生產和社會生活中得到了廣泛應用。目前,深度學習算法的本質是海量數據驅動的統計學習,是隨著計算機算力和大數據可及性的快速提升而出現的產物。特別是近兩年出現超大規模預處理自然語言模式,例如北京智源人工智能研究院的人工智能大模型“悟道2.0”參數規模就達到1.75萬億[1]。

既然深度學習算法是算力與大數據的產物,那么深度學習算法模型的工業化優化,也就需要AI數據供應鏈的工業化。所謂“工業化”,即以自動化、標準化和規?;蓴U展方式為標志。澳鵬Appen是一家有著超過25年歷史的人工智能訓練數據服務公司,澳鵬Appen近期發布的《2021年人工智能與機器學習現狀調查報告》顯示,隨著深度學習算法越來越成熟,模型算法本身的迭代優化已經不能帶來明顯的效果,而AI數據的高質量優化是模型效果提升的下一個關鍵。AI數據即需要經過人工標注后的數據,才能用于AI模型的訓練和推理及優化。此前,AI標注數據的供應基本以作坊式為主,難以保證AI標注數據的高質量供給,接下來AI標注數據的供給將迎來工業化爆發。

構建AI數據供應鏈能力

隨著互聯網高科技企業等越來越大規模地將AI嵌入到自己的商業運營、產品與服務等方方面面,大規模的AI項目對標注數據的快速和持續供給需求已經越來越迫切。以互聯網高科技企業為代表的AI用戶已經率先與外部的數據服務供應商合作,以解決持續的AI標注數據外包、數據準備、數據質量評估以及數據供給等挑戰。但在AI標注數據的規模化供給方面,自動化、標準化和規?;蓴U展仍然是需要解決的關鍵問題。

澳鵬中國高級產研總監張童皓表示,2022年將是AI標注數據供給產業的一個分水嶺——之前的AI標注數據行業最佳實踐逐漸沉淀為可復用的軟件工具,以更為自動化、標準化和規?;蓴U展的方式,為整個AI模型生命周期提供高精度和高質量的標注數據,滿足數據采集、標注、數據版本更新、AI模型再訓練等端到端過程,以工業化方式構建起完整AI標注數據供應鏈。在2019年進入中國市場之前,澳鵬Appen已經擁有業內先進的人工智能輔助數據標注平臺、一體化AI數據及資源管理平臺、全球100多萬名眾包資源以及豐富的實踐。

將AI標注數據實踐沉淀為方法論,這不是一件容易的事情。其中很多要解決的問題,包括:如何組織大規模的標注數據人員團隊、如何保證數據質量、如何更有效地反饋模型訓練結果、如何繼續優化訓練數據集等,同時還要應對用戶業務中出現的各種復雜場景,甚至是業務出海場景中的地域差異等。這不僅要將AI標注數據的具體實踐落地到一個強大而高效的工具集中,還要為項目管理、團隊協作等設計靈活、高效、可擴展的工作流程,此外還要能夠對外開放一定的API,將數據標注結果與各種AIOps流程相結合。

張童皓強調,數據標注平臺非常復雜,在某種程度上是Office +數據倉庫+AIOps的結合體,很多互聯網高科技企業CIO們都意識到這并不屬于自己核心研發部門所需要投入的研發方向和領域。當前,為了更好地訓練和再訓練AI模型以及AI推理,企業CIO們都構建了自己的數據資產管理平臺,數據資產管理平臺對接著兩端——一端是數據供應鏈,一端是模型訓練環境。對于專業的AI標注數據服務公司來說,將已有的方法論進行沉淀,再將行之有效的方式固化下來,形成能夠復用且易用的產品級能力,就能大規模賦能AI模型迭代。

全場景覆蓋AI模型生命周期

在意識到數據標注工具平臺對于AIOps的重要性后,澳鵬Appen在2019收購了創立于硅谷的數據標注平臺Figure 8,并將之與澳鵬全球上百萬的眾包工作者和團隊相結合,澳鵬中國也于2022年1月推出了自研的面向中國大陸、港澳臺及亞太區域的MatrixGo企業版。目前,這些地區的客戶可以通過MatrixGo的公有云SaaS版或純私有化部署企業版,構建自己的AI標注數據供應鏈。

MatrixGo作為AI標注數據的采標一體化平臺,為企業AI模型優化實現端到端的數據深度整合,同時提供豐富的標注工具以及一套支持大規模生產和復雜協同的智能標注工作流,在保證企業數據安全的前提下,建立企業AI數據供應鏈能力。MatrixGo被定位于AI行業賦能者,它可覆蓋豐富的場景——支持全領域數據類型及應用場景,承諾極致的數據質量——提供海量高質量、無偏見、多元化的AI訓練數據生產服務,確保數據標注流程合規及隱私保護——通過了ISO27001等標準及各種安全測試、眾包員工年度完成合規培訓。MatrixGo沉淀了豐富的AIOps方法論,提供豐富的API能力,可以與上下游系統進行良好集成。

MatrixGo讓數據標注團隊獲得極高的生產力,大幅降低標注數據人員的門檻。MatrixGo面向AI數據標注的項目經理、標注員/質檢員、供應商管理員、供應商項目經理供應商團隊標注員/質檢員、系統管理員等多種角色提供了豐富的平臺功能:項目管理、資源管理、標注工具箱(AI輔助引擎、工作流引擎)、標注引擎等四大模塊,其中項目管理可完成項目配置、工作流配置、資源分配、質量控制、可視化分析等,資源管理則是企業自有團隊管理、BPO管理,數據收集和標注工具箱則提供了手機端數據收集應用、一系列標注工具以及人工智能輔助標注功能,而核心引擎則提供了標注引擎、質檢引擎、任務分發和數據服務等。

數據收集和標注工具是MatrixGo的核心亮點之一。數據收集包括:手機端應用,可完成視頻圖像、音頻文本甚至是復雜的手寫體數據收集等;數據收集后的分發、質檢反饋、工作量結算等,可實現系統化的數據收集和分發。特色標注工具則有語音數據處理的語音切分轉寫,高精度完成長語音的切分,可引導標注員方便地瀏覽或在不同音頻段之間跳轉;圖像通用關鍵點標注工具能讓標注員一邊接受培訓一邊上手做項目,提高項目冷啟動時的效率;2D圖像標注工具支持網格視圖模式且將質量保證固化到工具中,3D點云工具與2D標注框邏輯綁定,連續幀模式下可做到線性填充,部分幀可分鐘級完成標注,質檢達每幀秒級等等。

(澳鵬2D圖像復合標注示例)

【澳鵬3D點云拉框及2D映射(融合標注)示例】

此外,MatrixGo還提供了模板引擎組件:支持腳本編程,可構建適配于項目定制化需求的工具,分鐘級完成自定義工具,自定義工具與MatrixGo平臺的數據統計等各流程節點直接集成。MatrixGo最重要的亮點是工作流調度:面向海量任務,支持高并發呑吐架構,平臺上單點能夠支持每秒3萬任務的吞吐量,還可無限自動橫向擴容;工作流并行消費數據中心的數據,進行各自生產再向統一節點進行交付;在項目生產過程中,項目經理可以隨時修改任務,平臺自動確保數據統計等正確。

張童皓強調,推出MatrixGo 私有化版本主要是為了滿足對數據安全有更高訴求、在合規性方面有更高要求的中大型公司,科研和小型創業公司則更適合公有云SaaS方式。特別是MatrixGo的SaaS版本可對接澳鵬全球的數據標注眾包人力資源并可通過擴展支持私有化文件服務的方式增強安全性,可滿足中國企業出海的需求。目前,澳鵬中國的主要客戶包括互聯網、高科技、自動駕駛、AI創業公司、零售、醫療、高校等,2022年還將拓展更多的傳統企業數字化轉型市場。

總結來說:2022年是整個AI產業的一個分水嶺,更高自動化程度的AI數據標注平臺,正在定義整個模型生命周期內的AI模型質量與效果。AI數據標注的工業化運作,讓DataOps成為了整個AIOps中最重要的環節。當前,互聯網和高科技企業正在引領這一大趨勢,未來將有更多的科技企業和傳統企業數字化轉型也將采用專業的AI數據標注平臺。以澳鵬中國MatrixGo為代表的AI數據標注平臺,將成為AI發展的重要賦能平臺。

(注1:北京智源人工智能研究院:《2021人工智能的認知神經基礎》白皮書。)

責任編輯:劉沙