實施數據湖的組織比同類公司在有機收入增長方面高出 9%。
新冠肺炎疫情的蔓延讓我們再次體會到了大數據的重要性:通過疫情電信大數據分析模型,可以統計全國人員流動的情況,從而幫助政府預判疫情傳播趨勢;通過密切接觸者分析模型,可以判斷可能產生的新高風險區域;通過智慧交通大數據,可以監測到熱點城市的交通樞紐以及城市內部出行人流的強度,判斷復產復工率……
事實上,不只是對于政府,對于企業來說,數據也是極其重要的戰略資產。在AWS首席云計算企業戰略顧問張俠博士看來,企業里的數據流,就像人體里的血液流一樣重要。
早在2017年,《經濟學人》雜志就曾發出過"世界最有價值的資源不再是石油,而是數據"的論斷。而在近兩年所有IT人言必稱的"數字化轉型"中,一個很重要的內容就是把企業的數據資產用好。
從數據倉庫到數據湖
其實,數據的價值在于從中提取出真正有用的信息,然后把這些信息轉變成知識,再指導我們的行動。這些都離不開數據的存儲、計算、分析等過程。
而在這個移動互聯網時代,數據已呈現出指數級生長,數據的來源五花八門,數據的形式日益多元化,數據的使用者遍布各行各業,用來分析數據的工具也越來越多,傳統的數據庫已經不能應對數據的增長。
張俠解釋到,傳統的方法是數據庫放在最下面,從ERP、CRM等業務系統中整理出數據,放在數據倉庫里,然后再展示出商務智能。如今數據的來源已變成各種裝置、網站、傳感器和社交軟件,如果還是走從數據庫到數據倉庫再到商務智能的老路,就會形成所謂的數據孤島,無法滿足數據的迅速增長。"這時,企業需要的是一個數據湖。"
張俠表示,數據湖不僅能解決上述的問題,還能兼容傳統的數據倉庫、數據分析方法,而且特別適合與機器學習這樣的新技術結合起來,做更多預測性的分析。
那么,數據湖究竟是什么?
張俠解釋到,數據湖是一個集中式存儲數據的容器,這個容器可以存儲各種各樣結構化和非結構化的數據,這些數據從數據量上非常容易快速縮放,利用云計算海量存儲的能力和各種查詢能力,以及各種數據分析和處理的能力,可以直接對這些原始數據進行查詢。在查詢的過程中,還可以通過建目錄和數據的轉移、抽取等方式,把它們進一步歸類,快速做各種各樣的分析。數據湖有兩個很重要的特點:一個是高可用、高持久、海量的數據,另一個是滿足安全、合規、可審計的要求。
"打個比方,以前的數據流就像一條小河,我們知道這條河里大概會來多少水,我們有閘門可以處理、使用這些數據。但是到了移動互聯網時代,新的海量數據爆發出來,我們很難掌握這些數據是什么性質,可能數據量會突然變得很大、很多,我們來不及整理。過去可能要花幾個月、甚至半年時間才能把這些數據整理清楚,存在數據庫里,再提取到數據倉庫里,然后再使用它們。但現在我們只好先找一大片洼地,把所有數據像湖水一樣先蓄在湖里,不過現在我們有工具可以直接查詢它們。"
云上的數據湖到底什么樣?
據了解,亞馬遜很早就推出了有關數據湖的服務,2011年就有了數據湖的概念和一些開源應用。2016年左右,AWS推出了關鍵服務,開始把Amazon S3作為數據湖的核心存儲。Amazon S3可以存儲任何以二進位為基礎的信息,包含結構化和非結構化的數據,可以把來自不同地方、不同形式的數據通過一定的方法提取出來,存儲下來,做一個目錄登記,存在數據湖的核心里,然后再用各種各樣的分析手段把這些數據還原成數據倉庫的性質,或者變成各種報表,或者變成各種預測,或者用來做機器學習的分析等等。
"從AWS的角度來講,我們有相應的服務可以實現上述每一個功能。這些服務都是以云的方式提供的,而且非常容易上手。"張俠向記者介紹。
首先是Amazon S3,它可以存儲所有類型的數據,有11個9的數據持久性,它在云上的三個可用區里存了六份,互為備份。它的后端有個叫Amazon Glacier的冷存儲,把不常用的數據轉存到這里,可以降低很多費用,只是再拿出來時需要多三四個小時,還有一個深度冷存儲Deep Archive。此外還有一個非關系型數據庫Amazon DynamoDB,存儲鍵值類的數據,全球有大量鍵值配對的數據都存儲在Amazon DynamoDB中。張俠補充到,"這兩種是最基礎的存儲服務。"
Amazon RDS是云托管的關系型數據庫,支持SQL Server、Oracle的數據庫,開源的PostgreSQL、MySQL數據庫,以及亞馬遜專有的Amazon Aurora數據庫。
Amazon Aurora是全方位托管的,可以兼容MySQL和PostgreSQL的純云原生數據庫。張俠強調,"這個數據庫自推出以來,是AWS所有云服務里增長速度最快的,擁有大量用戶。"
Amazon Redshift是云數據倉庫,使用簡單,可以擴展,成本是傳統數據庫的1/10左右。
Amazon EMR是用類似開源、Hadoop的方法來做大數據的集群分析。
Amazon Kinesis用來處理實時數據,包括四種不同類型,有的能直接處理視頻的數據流,有的可以把數據直接導到關鍵服務,各自有不同的用法。
Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3) 中的數據。由于Athena是一種無服務器服務,因此客戶不需要管理基礎設施,只為他們運行的查詢付費。Athena可以自動擴展,并行執行查詢,即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。
AWS Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務,客戶在執行ETL任務時,只需要為他們所消耗的計算資源付費。
近日,Amazon Athena和AWS Glue也在由西云數據運營的AWS中國 (寧夏) 區域正式上線了。
張俠告訴記者,雖然數據湖是個好工具,但是建立安全的數據湖還是要面臨一定挑戰。在一般情況下,構建安全的數據湖,首先要把數據設置好,存儲起來,然后把數據移動、加載到不同地方,進行清理,編寫數據目錄,再配置并實施安全性與合規性策略,之后在需要的時候就可以把這些數據拿出來做各種分析。
為了幫助企業用戶更快的使用數據湖,AWS專門推出了AWS Lake Formation服務,讓上述建立數據湖的工作可以自動化操作,讓企業在短短幾天內就完成數據湖的建設工作。
不可或缺的數據分析
AWS全球副總裁及大中華區執行董事張文翊表示,"AWS可擴展、可靠的云存儲,加上廣泛的分析服務,使客戶比以往任何時候都更容易收集、存儲、分析和共享數據。中國區域的客戶可以從任意多的數據源傳輸和處理數據,整合數據到數據湖,并且可以選用多種AWS分析服務,分析所有數據。"
據介紹,AWS提供的數據分析組件包括:
數據遷移和移動工具,如AWS Database Migration Service數據庫遷移服務 (DMS), AWS Snowball (雪球),AWS Storage Gateway, AWS Backup數據備份服務。
數據存儲工具,如Amazon S3、Amazon Glacier、Amazon DynamoDB,以及非關系型數據庫、Amazon RDS關系型數據庫、Amazon Aurora純原生的云數據庫、Amazon ElastiCache云上內存式數據庫,還有Amazon Neptune基于圖形的數據庫。
數據湖,最主要的三大元素是Amazon S3/Glacier, AWS Glue和AWS Lake Formation。
數據分析工具,如Amazon Redshift數據倉庫,Amazon EMR大數據分析,AWS Glue無服務器數據分析,Amazon Athena (雅典娜)交互式分析,Amazon Elasticsearch運維分析,還有Amazon Kinesis實時數據分析。
機器學習工具,如圖形可視化的Amazon QuickSight、 Amazon Polly、Amazon Transcribe、Amazon SageMaker。其中Amazon SageMaker是人工智能服務,很快會在中國推出。
張俠補充到:"在大數據分析服務的全景圖中,大多數服務都已經在中國落地,目前已有很多客戶在使用。"
讓更多企業通過數據洞察先機
Aberdeen 的一項調查表明,通過數據成功創造商業價值的企業將勝過同行,實施數據湖的組織比同類公司在有機收入增長方面高出 9%。
目前全球范圍內有大量公司都在使用AWS的數據湖和數據分析工具,無論是互聯網公司,還是傳統企業公司,幾乎覆蓋了各行各業。
張俠強調,"AWS的創新都是圍繞客戶需求來做的。"亞馬遜自己就是云數據庫的受益者。很多業內人都知道,亞馬遜曾經是Oracle全球數據庫最大的用戶,它用了7500多個Oracle數據庫,存放75PB數據。亞馬遜的1000多個不同的團隊,如運營、電商、市場營銷、庫存等等,過去都是基于Oracle的數據庫。在過去一年半到兩年時間里,亞馬遜全方位遷出了Oracle的數據庫,遷移到了自己相應的產品云數據庫中。此次遷移解決了過去擴展困難、費用昂貴,需要向Oracle支持高額費用等一系列問題,減少了數據庫費用成本60%,減少了數據庫管理費用70%,增加的關鍵性能高達40%。
不僅如此,亞馬遜還在企業內部建了一個專供內部使用的數據湖,這個數據湖把亞馬遜的數據整合在一起,存儲量從50PB長到100PB數據。通過這個數據湖,亞馬遜每天可處理多達60萬的分析任務,做各種各樣的數據分析,從給用戶的推薦、各種運營信息、庫存信息、物價信息,都可以通過數據湖來實現。"這也是亞馬遜的核心競爭力之一。"張俠表示。
在對數據管理極為嚴苛的金融行業里也不乏成功應用。
納斯達克交易所每天要處理300-500億條信息,構建了基于Amazon S3的數據湖以后,不僅降低了成本,把上市時間縮短為原來的1/3,還可以選擇無限制增加存儲的數據量,在其數據湖中支持數十年的納秒級消息數據。
同樣是屬于金融行業的美國金融監管機構FINRA每天要對超過1500億個事件、20PB的數據運行復雜的監視查詢,以檢測和分析非法的市場活動。FINRA把大數據應用遷移到亞馬遜的數據湖進行提取和處理后,系統提高了敏捷性和速度,每年可節省1000-2000萬美元的成本。
中國也有不少企業在使用亞馬遜的數據產品,如Club Factory。這是2016年由嘉云數據在杭州創建的一家時尚、美容和生活領域的電子商務商店,它整合了上百萬個供應商,上游有數千萬個SKU,下游覆蓋27個國家和地區,積累了1億多全球用戶群。Club Factory每天要處理15億條各種行為的分析,支撐80多位工程師的數據分析和算法需求,支撐180個活躍數據的分析調度任務,同步4000多個各種數據到Amazon Redshift,支撐的數據總量達600TB?;贏WS數據湖架構建設數據化智能化的電商平臺,Club Factory實現了業務任意規模的擴展,以及人工智能+商品、人工智能+消費者、人工智能+供應鏈的全方位技術創新,有效節省了存儲成本,降低了ETL和操作層面的復雜度,以及額外的工作量。
張俠指出,基本上各行各業、各種規模的企業都可以采用數據湖為自己搭建數據應用平臺。我們可以看到,很多企業用戶都通過使用數據湖和數據分析,為企業的創新和發展洞察先機。隨著人工智能、物聯網、5G、邊緣計算等技術普及,數據湖的應用和作用性也將會越來越強。
事實上,不只是對于政府,對于企業來說,數據也是極其重要的戰略資產。在AWS首席云計算企業戰略顧問張俠博士看來,企業里的數據流,就像人體里的血液流一樣重要。

AWS首席云計算企業戰略顧問 張俠博士
早在2017年,《經濟學人》雜志就曾發出過"世界最有價值的資源不再是石油,而是數據"的論斷。而在近兩年所有IT人言必稱的"數字化轉型"中,一個很重要的內容就是把企業的數據資產用好。
從數據倉庫到數據湖
其實,數據的價值在于從中提取出真正有用的信息,然后把這些信息轉變成知識,再指導我們的行動。這些都離不開數據的存儲、計算、分析等過程。
而在這個移動互聯網時代,數據已呈現出指數級生長,數據的來源五花八門,數據的形式日益多元化,數據的使用者遍布各行各業,用來分析數據的工具也越來越多,傳統的數據庫已經不能應對數據的增長。
張俠解釋到,傳統的方法是數據庫放在最下面,從ERP、CRM等業務系統中整理出數據,放在數據倉庫里,然后再展示出商務智能。如今數據的來源已變成各種裝置、網站、傳感器和社交軟件,如果還是走從數據庫到數據倉庫再到商務智能的老路,就會形成所謂的數據孤島,無法滿足數據的迅速增長。"這時,企業需要的是一個數據湖。"
張俠表示,數據湖不僅能解決上述的問題,還能兼容傳統的數據倉庫、數據分析方法,而且特別適合與機器學習這樣的新技術結合起來,做更多預測性的分析。
那么,數據湖究竟是什么?
張俠解釋到,數據湖是一個集中式存儲數據的容器,這個容器可以存儲各種各樣結構化和非結構化的數據,這些數據從數據量上非常容易快速縮放,利用云計算海量存儲的能力和各種查詢能力,以及各種數據分析和處理的能力,可以直接對這些原始數據進行查詢。在查詢的過程中,還可以通過建目錄和數據的轉移、抽取等方式,把它們進一步歸類,快速做各種各樣的分析。數據湖有兩個很重要的特點:一個是高可用、高持久、海量的數據,另一個是滿足安全、合規、可審計的要求。
云上的數據湖到底什么樣?
據了解,亞馬遜很早就推出了有關數據湖的服務,2011年就有了數據湖的概念和一些開源應用。2016年左右,AWS推出了關鍵服務,開始把Amazon S3作為數據湖的核心存儲。Amazon S3可以存儲任何以二進位為基礎的信息,包含結構化和非結構化的數據,可以把來自不同地方、不同形式的數據通過一定的方法提取出來,存儲下來,做一個目錄登記,存在數據湖的核心里,然后再用各種各樣的分析手段把這些數據還原成數據倉庫的性質,或者變成各種報表,或者變成各種預測,或者用來做機器學習的分析等等。
"從AWS的角度來講,我們有相應的服務可以實現上述每一個功能。這些服務都是以云的方式提供的,而且非常容易上手。"張俠向記者介紹。

首先是Amazon S3,它可以存儲所有類型的數據,有11個9的數據持久性,它在云上的三個可用區里存了六份,互為備份。它的后端有個叫Amazon Glacier的冷存儲,把不常用的數據轉存到這里,可以降低很多費用,只是再拿出來時需要多三四個小時,還有一個深度冷存儲Deep Archive。此外還有一個非關系型數據庫Amazon DynamoDB,存儲鍵值類的數據,全球有大量鍵值配對的數據都存儲在Amazon DynamoDB中。張俠補充到,"這兩種是最基礎的存儲服務。"
Amazon RDS是云托管的關系型數據庫,支持SQL Server、Oracle的數據庫,開源的PostgreSQL、MySQL數據庫,以及亞馬遜專有的Amazon Aurora數據庫。
Amazon Aurora是全方位托管的,可以兼容MySQL和PostgreSQL的純云原生數據庫。張俠強調,"這個數據庫自推出以來,是AWS所有云服務里增長速度最快的,擁有大量用戶。"
Amazon Redshift是云數據倉庫,使用簡單,可以擴展,成本是傳統數據庫的1/10左右。
Amazon EMR是用類似開源、Hadoop的方法來做大數據的集群分析。
Amazon Kinesis用來處理實時數據,包括四種不同類型,有的能直接處理視頻的數據流,有的可以把數據直接導到關鍵服務,各自有不同的用法。
Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3) 中的數據。由于Athena是一種無服務器服務,因此客戶不需要管理基礎設施,只為他們運行的查詢付費。Athena可以自動擴展,并行執行查詢,即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。
AWS Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務,客戶在執行ETL任務時,只需要為他們所消耗的計算資源付費。
近日,Amazon Athena和AWS Glue也在由西云數據運營的AWS中國 (寧夏) 區域正式上線了。
張俠告訴記者,雖然數據湖是個好工具,但是建立安全的數據湖還是要面臨一定挑戰。在一般情況下,構建安全的數據湖,首先要把數據設置好,存儲起來,然后把數據移動、加載到不同地方,進行清理,編寫數據目錄,再配置并實施安全性與合規性策略,之后在需要的時候就可以把這些數據拿出來做各種分析。
為了幫助企業用戶更快的使用數據湖,AWS專門推出了AWS Lake Formation服務,讓上述建立數據湖的工作可以自動化操作,讓企業在短短幾天內就完成數據湖的建設工作。
不可或缺的數據分析
AWS全球副總裁及大中華區執行董事張文翊表示,"AWS可擴展、可靠的云存儲,加上廣泛的分析服務,使客戶比以往任何時候都更容易收集、存儲、分析和共享數據。中國區域的客戶可以從任意多的數據源傳輸和處理數據,整合數據到數據湖,并且可以選用多種AWS分析服務,分析所有數據。"
據介紹,AWS提供的數據分析組件包括:
數據遷移和移動工具,如AWS Database Migration Service數據庫遷移服務 (DMS), AWS Snowball (雪球),AWS Storage Gateway, AWS Backup數據備份服務。
數據存儲工具,如Amazon S3、Amazon Glacier、Amazon DynamoDB,以及非關系型數據庫、Amazon RDS關系型數據庫、Amazon Aurora純原生的云數據庫、Amazon ElastiCache云上內存式數據庫,還有Amazon Neptune基于圖形的數據庫。
數據湖,最主要的三大元素是Amazon S3/Glacier, AWS Glue和AWS Lake Formation。
數據分析工具,如Amazon Redshift數據倉庫,Amazon EMR大數據分析,AWS Glue無服務器數據分析,Amazon Athena (雅典娜)交互式分析,Amazon Elasticsearch運維分析,還有Amazon Kinesis實時數據分析。
機器學習工具,如圖形可視化的Amazon QuickSight、 Amazon Polly、Amazon Transcribe、Amazon SageMaker。其中Amazon SageMaker是人工智能服務,很快會在中國推出。
張俠補充到:"在大數據分析服務的全景圖中,大多數服務都已經在中國落地,目前已有很多客戶在使用。"
讓更多企業通過數據洞察先機
Aberdeen 的一項調查表明,通過數據成功創造商業價值的企業將勝過同行,實施數據湖的組織比同類公司在有機收入增長方面高出 9%。
目前全球范圍內有大量公司都在使用AWS的數據湖和數據分析工具,無論是互聯網公司,還是傳統企業公司,幾乎覆蓋了各行各業。
張俠強調,"AWS的創新都是圍繞客戶需求來做的。"亞馬遜自己就是云數據庫的受益者。很多業內人都知道,亞馬遜曾經是Oracle全球數據庫最大的用戶,它用了7500多個Oracle數據庫,存放75PB數據。亞馬遜的1000多個不同的團隊,如運營、電商、市場營銷、庫存等等,過去都是基于Oracle的數據庫。在過去一年半到兩年時間里,亞馬遜全方位遷出了Oracle的數據庫,遷移到了自己相應的產品云數據庫中。此次遷移解決了過去擴展困難、費用昂貴,需要向Oracle支持高額費用等一系列問題,減少了數據庫費用成本60%,減少了數據庫管理費用70%,增加的關鍵性能高達40%。
不僅如此,亞馬遜還在企業內部建了一個專供內部使用的數據湖,這個數據湖把亞馬遜的數據整合在一起,存儲量從50PB長到100PB數據。通過這個數據湖,亞馬遜每天可處理多達60萬的分析任務,做各種各樣的數據分析,從給用戶的推薦、各種運營信息、庫存信息、物價信息,都可以通過數據湖來實現。"這也是亞馬遜的核心競爭力之一。"張俠表示。

在對數據管理極為嚴苛的金融行業里也不乏成功應用。
納斯達克交易所每天要處理300-500億條信息,構建了基于Amazon S3的數據湖以后,不僅降低了成本,把上市時間縮短為原來的1/3,還可以選擇無限制增加存儲的數據量,在其數據湖中支持數十年的納秒級消息數據。
同樣是屬于金融行業的美國金融監管機構FINRA每天要對超過1500億個事件、20PB的數據運行復雜的監視查詢,以檢測和分析非法的市場活動。FINRA把大數據應用遷移到亞馬遜的數據湖進行提取和處理后,系統提高了敏捷性和速度,每年可節省1000-2000萬美元的成本。
中國也有不少企業在使用亞馬遜的數據產品,如Club Factory。這是2016年由嘉云數據在杭州創建的一家時尚、美容和生活領域的電子商務商店,它整合了上百萬個供應商,上游有數千萬個SKU,下游覆蓋27個國家和地區,積累了1億多全球用戶群。Club Factory每天要處理15億條各種行為的分析,支撐80多位工程師的數據分析和算法需求,支撐180個活躍數據的分析調度任務,同步4000多個各種數據到Amazon Redshift,支撐的數據總量達600TB?;贏WS數據湖架構建設數據化智能化的電商平臺,Club Factory實現了業務任意規模的擴展,以及人工智能+商品、人工智能+消費者、人工智能+供應鏈的全方位技術創新,有效節省了存儲成本,降低了ETL和操作層面的復雜度,以及額外的工作量。
張俠指出,基本上各行各業、各種規模的企業都可以采用數據湖為自己搭建數據應用平臺。我們可以看到,很多企業用戶都通過使用數據湖和數據分析,為企業的創新和發展洞察先機。隨著人工智能、物聯網、5G、邊緣計算等技術普及,數據湖的應用和作用性也將會越來越強。
責任編輯:劉沙





