當數據遭遇“爆倉”，你可以把它們都倒進“湖”里！

作者:劉沙 | 來源:計算機世界

2020-03-30

實施數據湖的組織比同類公司在有機收入增長方面高出 9%。

　　新冠肺炎疫情的蔓延讓我們再次體會到了大數據的重要性：通過疫情電信大數據分析模型，可以統計全國人員流動的情況，從而幫助政府預判疫情傳播趨勢；通過密切接觸者分析模型，可以判斷可能產生的新高風險區域；通過智慧交通大數據，可以監測到熱點城市的交通樞紐以及城市內部出行人流的強度，判斷復產復工率……

　　事實上，不只是對于政府，對于企業來說，數據也是極其重要的戰略資產。在AWS首席云計算企業戰略顧問張俠博士看來，企業里的數據流，就像人體里的血液流一樣重要。

AWS首席云計算企業戰略顧問張俠博士

　　早在2017年，《經濟學人》雜志就曾發出過"世界最有價值的資源不再是石油，而是數據"的論斷。而在近兩年所有IT人言必稱的"數字化轉型"中，一個很重要的內容就是把企業的數據資產用好。

　　從數據倉庫到數據湖

　　其實，數據的價值在于從中提取出真正有用的信息，然后把這些信息轉變成知識，再指導我們的行動。這些都離不開數據的存儲、計算、分析等過程。

　　而在這個移動互聯網時代，數據已呈現出指數級生長，數據的來源五花八門，數據的形式日益多元化，數據的使用者遍布各行各業，用來分析數據的工具也越來越多，傳統的數據庫已經不能應對數據的增長。

　　張俠解釋到，傳統的方法是數據庫放在最下面，從ERP、CRM等業務系統中整理出數據，放在數據倉庫里，然后再展示出商務智能。如今數據的來源已變成各種裝置、網站、傳感器和社交軟件，如果還是走從數據庫到數據倉庫再到商務智能的老路，就會形成所謂的數據孤島，無法滿足數據的迅速增長。"這時，企業需要的是一個數據湖。"

　　張俠表示，數據湖不僅能解決上述的問題，還能兼容傳統的數據倉庫、數據分析方法，而且特別適合與機器學習這樣的新技術結合起來，做更多預測性的分析。

　　那么，數據湖究竟是什么？

　　張俠解釋到，數據湖是一個集中式存儲數據的容器，這個容器可以存儲各種各樣結構化和非結構化的數據，這些數據從數據量上非常容易快速縮放，利用云計算海量存儲的能力和各種查詢能力，以及各種數據分析和處理的能力，可以直接對這些原始數據進行查詢。在查詢的過程中，還可以通過建目錄和數據的轉移、抽取等方式，把它們進一步歸類，快速做各種各樣的分析。數據湖有兩個很重要的特點：一個是高可用、高持久、海量的數據，另一個是滿足安全、合規、可審計的要求。

　　"打個比方，以前的數據流就像一條小河，我們知道這條河里大概會來多少水，我們有閘門可以處理、使用這些數據。但是到了移動互聯網時代，新的海量數據爆發出來，我們很難掌握這些數據是什么性質，可能數據量會突然變得很大、很多，我們來不及整理。過去可能要花幾個月、甚至半年時間才能把這些數據整理清楚，存在數據庫里，再提取到數據倉庫里，然后再使用它們。但現在我們只好先找一大片洼地，把所有數據像湖水一樣先蓄在湖里，不過現在我們有工具可以直接查詢它們。"

　　云上的數據湖到底什么樣？

　　據了解，亞馬遜很早就推出了有關數據湖的服務，2011年就有了數據湖的概念和一些開源應用。2016年左右，AWS推出了關鍵服務，開始把Amazon S3作為數據湖的核心存儲。Amazon S3可以存儲任何以二進位為基礎的信息，包含結構化和非結構化的數據，可以把來自不同地方、不同形式的數據通過一定的方法提取出來，存儲下來，做一個目錄登記，存在數據湖的核心里，然后再用各種各樣的分析手段把這些數據還原成數據倉庫的性質，或者變成各種報表，或者變成各種預測，或者用來做機器學習的分析等等。

　　"從AWS的角度來講，我們有相應的服務可以實現上述每一個功能。這些服務都是以云的方式提供的，而且非常容易上手。"張俠向記者介紹。

　　首先是Amazon S3，它可以存儲所有類型的數據，有11個9的數據持久性，它在云上的三個可用區里存了六份，互為備份。它的后端有個叫Amazon Glacier的冷存儲，把不常用的數據轉存到這里，可以降低很多費用，只是再拿出來時需要多三四個小時，還有一個深度冷存儲Deep Archive。此外還有一個非關系型數據庫Amazon DynamoDB，存儲鍵值類的數據，全球有大量鍵值配對的數據都存儲在Amazon DynamoDB中。張俠補充到，"這兩種是最基礎的存儲服務。"

　　Amazon RDS是云托管的關系型數據庫，支持SQL Server、Oracle的數據庫，開源的PostgreSQL、MySQL數據庫，以及亞馬遜專有的Amazon Aurora數據庫。

　　Amazon Aurora是全方位托管的，可以兼容MySQL和PostgreSQL的純云原生數據庫。張俠強調，"這個數據庫自推出以來，是AWS所有云服務里增長速度最快的，擁有大量用戶。"

　　Amazon Redshift是云數據倉庫，使用簡單，可以擴展，成本是傳統數據庫的1/10左右。

　　Amazon EMR是用類似開源、Hadoop的方法來做大數據的集群分析。

　　Amazon Kinesis用來處理實時數據，包括四種不同類型，有的能直接處理視頻的數據流，有的可以把數據直接導到關鍵服務，各自有不同的用法。

　　Amazon Athena是一種交互式查詢服務，它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service （Amazon S3）中的數據。由于Athena是一種無服務器服務，因此客戶不需要管理基礎設施，只為他們運行的查詢付費。Athena可以自動擴展，并行執行查詢，即便是大型數據集和復雜的查詢，也能很快獲得查詢結果。

　　AWS Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據，加載數據到數據庫、數據倉庫和數據湖，用于數據分析。使用AWS Glue，在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務，客戶在執行ETL任務時，只需要為他們所消耗的計算資源付費。

　　近日，Amazon Athena和AWS Glue也在由西云數據運營的AWS中國（寧夏）區域正式上線了。

　　張俠告訴記者，雖然數據湖是個好工具，但是建立安全的數據湖還是要面臨一定挑戰。在一般情況下，構建安全的數據湖，首先要把數據設置好，存儲起來，然后把數據移動、加載到不同地方，進行清理，編寫數據目錄，再配置并實施安全性與合規性策略，之后在需要的時候就可以把這些數據拿出來做各種分析。

　　為了幫助企業用戶更快的使用數據湖，AWS專門推出了AWS Lake Formation服務，讓上述建立數據湖的工作可以自動化操作，讓企業在短短幾天內就完成數據湖的建設工作。

　　不可或缺的數據分析

　　AWS全球副總裁及大中華區執行董事張文翊表示，"AWS可擴展、可靠的云存儲，加上廣泛的分析服務，使客戶比以往任何時候都更容易收集、存儲、分析和共享數據。中國區域的客戶可以從任意多的數據源傳輸和處理數據，整合數據到數據湖，并且可以選用多種AWS分析服務，分析所有數據。"

　　據介紹，AWS提供的數據分析組件包括：

　　數據遷移和移動工具，如AWS Database Migration Service數據庫遷移服務 (DMS)， AWS Snowball (雪球)，AWS Storage Gateway， AWS Backup數據備份服務。

　　數據存儲工具，如Amazon S3、Amazon Glacier、Amazon DynamoDB，以及非關系型數據庫、Amazon RDS關系型數據庫、Amazon Aurora純原生的云數據庫、Amazon ElastiCache云上內存式數據庫，還有Amazon Neptune基于圖形的數據庫。

　　數據湖，最主要的三大元素是Amazon S3/Glacier， AWS Glue和AWS Lake Formation。

　　數據分析工具，如Amazon Redshift數據倉庫，Amazon EMR大數據分析，AWS Glue無服務器數據分析，Amazon Athena (雅典娜)交互式分析，Amazon Elasticsearch運維分析，還有Amazon Kinesis實時數據分析。

　　機器學習工具，如圖形可視化的Amazon QuickSight、 Amazon Polly、Amazon Transcribe、Amazon SageMaker。其中Amazon SageMaker是人工智能服務，很快會在中國推出。

　　張俠補充到："在大數據分析服務的全景圖中，大多數服務都已經在中國落地，目前已有很多客戶在使用。"

　　讓更多企業通過數據洞察先機

　　Aberdeen 的一項調查表明，通過數據成功創造商業價值的企業將勝過同行，實施數據湖的組織比同類公司在有機收入增長方面高出 9%。

　　目前全球范圍內有大量公司都在使用AWS的數據湖和數據分析工具，無論是互聯網公司，還是傳統企業公司，幾乎覆蓋了各行各業。

　　張俠強調，"AWS的創新都是圍繞客戶需求來做的。"亞馬遜自己就是云數據庫的受益者。很多業內人都知道，亞馬遜曾經是Oracle全球數據庫最大的用戶，它用了7500多個Oracle數據庫，存放75PB數據。亞馬遜的1000多個不同的團隊，如運營、電商、市場營銷、庫存等等，過去都是基于Oracle的數據庫。在過去一年半到兩年時間里，亞馬遜全方位遷出了Oracle的數據庫，遷移到了自己相應的產品云數據庫中。此次遷移解決了過去擴展困難、費用昂貴，需要向Oracle支持高額費用等一系列問題，減少了數據庫費用成本60%，減少了數據庫管理費用70%，增加的關鍵性能高達40%。

　　不僅如此，亞馬遜還在企業內部建了一個專供內部使用的數據湖，這個數據湖把亞馬遜的數據整合在一起，存儲量從50PB長到100PB數據。通過這個數據湖，亞馬遜每天可處理多達60萬的分析任務，做各種各樣的數據分析，從給用戶的推薦、各種運營信息、庫存信息、物價信息，都可以通過數據湖來實現。"這也是亞馬遜的核心競爭力之一。"張俠表示。

　　在對數據管理極為嚴苛的金融行業里也不乏成功應用。

　　納斯達克交易所每天要處理300-500億條信息，構建了基于Amazon S3的數據湖以后，不僅降低了成本，把上市時間縮短為原來的1/3，還可以選擇無限制增加存儲的數據量，在其數據湖中支持數十年的納秒級消息數據。

　　同樣是屬于金融行業的美國金融監管機構FINRA每天要對超過1500億個事件、20PB的數據運行復雜的監視查詢，以檢測和分析非法的市場活動。FINRA把大數據應用遷移到亞馬遜的數據湖進行提取和處理后，系統提高了敏捷性和速度，每年可節省1000-2000萬美元的成本。

　　中國也有不少企業在使用亞馬遜的數據產品，如Club Factory。這是2016年由嘉云數據在杭州創建的一家時尚、美容和生活領域的電子商務商店，它整合了上百萬個供應商，上游有數千萬個SKU，下游覆蓋27個國家和地區，積累了1億多全球用戶群。Club Factory每天要處理15億條各種行為的分析，支撐80多位工程師的數據分析和算法需求，支撐180個活躍數據的分析調度任務，同步4000多個各種數據到Amazon Redshift，支撐的數據總量達600TB?；贏WS數據湖架構建設數據化智能化的電商平臺，Club Factory實現了業務任意規模的擴展，以及人工智能+商品、人工智能+消費者、人工智能+供應鏈的全方位技術創新，有效節省了存儲成本，降低了ETL和操作層面的復雜度，以及額外的工作量。

　　張俠指出，基本上各行各業、各種規模的企業都可以采用數據湖為自己搭建數據應用平臺。我們可以看到，很多企業用戶都通過使用數據湖和數據分析，為企業的創新和發展洞察先機。隨著人工智能、物聯網、5G、邊緣計算等技術普及，數據湖的應用和作用性也將會越來越強。

責任編輯：劉沙

當數據遭遇“爆倉”，你可以把它們都倒進“湖”里！

專題

最新發布

當數據遭遇“爆倉”，你可以把它們都倒進“湖”里！

專題

最新發布

當數據遭遇“爆倉”，你可以把它們都倒進“湖”里！