計世網

2019大數據發展關鍵字:技術融合、產業深化
來源:中國信息通信研究院
2019-12-18
本白皮書在前三版的基礎上,聚焦一年多來大數據領域在技術、產業、數據資產化、數據管理、數據安全等方面的進展和趨勢,梳理主要問題并進行展望。

 

12月10日,中國信息通信研究院發布了《大數據白皮書(2019年)》,這是繼2014、2016和2018年之后,中國信通院第四次發布大數據白皮書。本白皮書在前三版的基礎上,聚焦一年多來大數據領域在技術、產業、數據資產化、數據管理、數據安全等方面的進展和趨勢,梳理主要問題并進行展望。

縱觀整個白皮書,2019年大數據發展的關鍵字可以概括為:技術融合、產業深化、數據資產、數據合規。

技術融合

當前,大數據體系的底層技術框架已基本成熟。大數據技術正逐步成為支撐型的基礎設施,其發展方向也開始向提升效率轉變,逐步向個性化的上層應用聚焦,技術的融合趨勢愈發明顯。

算力融合:多樣性算力提升整體效率

隨著大數據應用的逐步深入,場景愈發豐富,數據平臺開始承載人工智能、物聯網、視頻轉碼、復雜分析、高性能計算等多樣性的任務負載。同時,數據復雜度不斷提升,以高維矩陣運算為代表的新型計算范式具有粒度更細、并行更強、高內存占用、高帶寬需求、低延遲高實時性等特點,以 CPU 為底層硬件的傳統大數據技術無法有效滿足新業務需求,出現性能瓶頸。

當前,以 CPU 為調度核心,協同 GPU、FPGA、ASIC 及各類用于 AI 加速“xPU”的異構算力平臺成為行業熱點解決方案,以 GPU為代表的計算加速單元能夠極大提升新業務計算效率。

不同硬件體系融合存在開發工具相互獨立、編程語言及接口體系不同、軟硬件協同缺失等工程問題。為此,產業界試圖從統一軟件開發平臺和開發工具的層面來實現對不同硬件底層的兼容。

流批融合:平衡計算性價比的最優解

流處理能夠有效處理即時變化的信息,從而反映出信息熱點的實時動態變化。而離線批處理則更能夠體現歷史數據的累加反饋。隨著技術架構的演進,流批融合計算正在成為趨勢,并不斷在向更實時更高效的計算推進,以支撐更豐富的大數據處理需求。

TA 融合:混合事務/分析支撐即時決策

TA 融合是指事務(Transaction)與分析(Analysis)的融合機制。混合事務/分析處理(HTAP)的設計理念是為了打破事務和分析之間的那堵“墻”,實現在單一的數據源上不加區分的處理事務和分析任務。這種融合的架構具有明顯的優勢,可以避免頻繁的數據搬運操作給系統帶來的額外負擔,減少數據重復存儲帶來的成本,從而及時高效地對最新業務操作產生的數據進行分析。

模塊融合:一站式數據能力復用平臺

大數據的工具和技術棧已經相對成熟,大公司在實戰經驗中圍繞工具與數據的生產鏈條、數據的管理和應用等逐漸形成了能力集合,并通過這一概念來統一數據資產的視圖和標準,提供通用數據的加工、管理和分析能力。數據能力集成的趨勢打破了原有企業內的復雜數據結構,使數據和業務更貼近,并能更快地使用數據驅動決策。

云數融合:云化趨勢降低技術使用門檻

大數據基礎設施向云上遷移是一個重要的趨勢。向云化解決方案演進的最大優點是用戶不用再操心如何維護底層的硬件和網絡,能夠更專注于數據和業務邏輯,在很大程度上降低了大數據技術的學習成本和使用門檻。

數智融合:數據與智能多方位深度整合

大數據與人工智能的融合則成為大數據領域當前最受關注的趨勢之一。這種融合主要體現在大數據平臺的智能化與數據治理的智能化。

產業深化

前幾年,大數據的應用還主要在互聯網、營銷、廣告領域。而隨著大數據工具的門檻降低以及企業數據意識的不斷提升,越來越多的行業開始嘗到大數據帶來的“甜頭”。這幾年,無論是從新增企業數量、融資規模還是應用熱度來說,與大數據結合緊密的行業逐步向工業、政務、電信、交通、金融、醫療、教育等領域廣泛滲透,應用逐漸向生產、物流、供應鏈等核心業務延伸,涌現了一批大數據典型應用,企業應用大數據的能力逐漸增強。電力、鐵路、石化等實體經濟領域龍頭企業不斷完善自身大數據平臺建設,持續加強數據治理,構建起以數據為核心驅動力的創新能力,行業應用“脫虛向實”趨勢明顯,大數據與實體經濟深度融合不斷加深。

從產品角度來看,目前大數據技術產品主要包括大數據基礎類技術產品(承擔數據存儲和基本處理功能,包括分布式批處理平臺、分布式流處理平臺、分布式數據庫、數據集成工具等)、分析類技術產品(承擔對于數據的分析挖掘功能,包括數據挖掘工具、BI 工具、可視化工具等)、管理類技術產品(承擔數據在集成、加工、流轉過程中的管理功能,包括數據管理平臺、數據流通平臺等)等。我國在這些方面都取得了一定的進展,其中:大數據基礎類技術產品市場成熟度相對較高;大數據分析類技術產品發展迅速,個性化與實用性趨勢明顯;大數據管理類技術產品還處于市場形成的初期。

數據資產

“數據資產”這一概念是由信息資源和數據資源的概念逐漸演變而來的。在中國共產黨十九屆四中全會上,中央首次公開提出“健全勞動、資本、土地、知識、技術、管理和數據等生產要素按貢獻參與分配的機制。”這是中央首次在公開場合提出數據可作為生產要素按貢獻參與分配。

在數據資產化背景下,數據資產管理是在數據管理基礎上的進一步發展,可以視作數據管理的“升級版”。

數據資產管理工具是數據資產管理工作落地的重要手段。由于大數據技術棧中開源軟件的缺失,數據資產管理的技術發展沒有可參考的模板,工具開發者多從數據資產管理實踐與項目中設計工具架構,各企業數據資產管理需求的差異化使得數據資產管理工具的形態各異。因此,數據資產管理工具市場呈現百花齊放的狀態。

目前,數據資產化還面臨著諸多挑戰:

數據確權困難 數據估值困難 數據交易市場尚未成熟

數據合規

與全球不斷收緊的數據合規政策相類似,我國在數據法律監管方面也日趨嚴格規范。當前我國大數據方面的立法呈現出以個人信息保護為核心,包含基本法律、司法解釋、部門規章、行政法規等綜合框架。2019 年以來,數據安全方面的立法進程明顯加快,中央網信辦相繼發布了針對四項關于數據安全的管理辦法征求意見稿。

大數據合規要求的落地,要靠數據安全技術的助力。當前我國數據安全法律法規重點關注個人信息的保護,大數據行業整體合規也必然將以此作為核心。目前的數據安全技術中有為數不少的技術手段瞄準了敏感數據在處理使用中的防護,例如數據脫敏、安全多方計算、聯邦學習等等。

大數據發展展望

技術方面,我們仍然處在“數據大爆發”的初期,隨著 5G、工業互聯網的深入發展,將帶來更大的“數據洪流”,這就為大數據的存儲、分析、管理帶來更大的挑戰,牽引大數據技術再上新的臺階。硬件與軟件的融合、數據與智能的融合將帶動大數據技術向異構多模、超大容量、超低時延等方向拓展。

應用方面,大數據行業應用正在從消費端向生產端延伸,從感知型應用向預測型、決策型應用發展。當前,互聯網行業已經全面進入“DT 時代”。未來幾年,隨著各地政務大數據平臺和大型企業數據中臺的建成,將促進政務、民生與實體經濟領域的大數據應用再上新的臺階。

治理方面,隨著國家數據安全法律制度的不斷完善,各行業的數據治理也將深入推進。數據的采集、使用、共享等環節的亂象得到遏制,數據的安全管理成為各行各業自覺遵守的底線,數據流通與應用的合規性將大幅提升,健康、可持續的大數據發展環境逐步形成。

責任編輯:周星如