
IBM大中華區大數據與分析業務技術總監 劉勝利
提到IA到AI,從信息架構到人工智能,我想從幾個方面來講這個話題:
在座的CIO、CDO或項目負責人,我們應該怎樣自信的站在領導人面前講我們的角色?通過近幾年不斷接觸各行各業的領導,我體會到我們在數字化轉型做得比較超前的,或者說有創新性的企業都是CIO、CDO或是創新部門在做這種驅動。CIO、CDO要參與企業的規劃,參與數字化的設計,參與企業核心能力的建設。
再回到數據本身,企業內部的數據以及可開源產品之間數據的整合,以及在數據本身,數據的生命周期,從產生、使用、抽取、變形到最后銷毀和刪除,以及怎樣在各種平臺下使用各種類型的數據,都是現在最新的話題。
企業在數據上要具備幾個能力:
第一是管理混合數據的能力,包括關系型數據庫、大數據平臺Hadoop、內容管理、知識管理、Nosql、流處理能力、Spark能力、云化能力、開發與運維能力。這些構成了企業的數據源,管好這些數據源才能用好未來的數據。
第二是所有企業都是比較容易忽視的能力,也是最難培養的能力。數據治理以及數據的生命周期這一塊有大量的工作可為,這一塊工作對于IT企業來講是一種強筋健骨的能力,包括云上云下的思考,以及合規的問題都在數據的范圍,企業需要慎重思考。
第三是當前數據領域最熱門的話題,也就是數據科學。數據科學涵蓋了AI、人工智能、機器學習,這一塊包括一些業務人員在用。當前有一個很大的轉型,過去的IT是IT人員用的,今天的IT要讓企業級領導做分析決策、直接使用,未來將要發生什么,下一步采取什么動作,多數企業對于將來發生和將要采取什么步驟是需要加強的。
IBM數據產品簡化成三條產品線,覆蓋數據處理的各個方面:Collect數據收集與管理、Organize數據管控、Analyze數據分析。在數據分析領域以及數據科學領域,包括IBM自己在內,投入了大量的資源和能力轉向數據科學,包括優化以及機器學習的算法,數據科學這一塊是比較成熟的,有一些工具可以使用。
在IBM全球發展方向上,我們認為從數據治理到分析,合在一起構成了數據科學,數據科學完整加載這些內容才能實現真正有價值的人工智能。
談到AI,往往大家看到的都是美麗的冰山露在水上的部分,而數據科學是全部。實際上要看整個冰山,不是看冰山露在水面上美麗的部分。真正做機器學習、數據科學的項目80%的時間花在冰山下,也就是數據管理和治理。
以下是我對開源、自主、可控的一些理性思考:開源不等于自主、可控。開源就像西天取經一樣的,你會不斷遇到問題,讀懂源代碼、開源編譯和維護要求成本非常高,大家要理性的思考這個問題。為什么自主不是可控的?基于開源開發的軟件,由于無法跟隨原軟件升級,變得失控了?,F在這個問題變得非常嚴重。試用基于開源開發的軟件,是更嚴重的鎖定。使用開源早的企業逐漸認識到,企業需要的不是被鎖定,而是有選擇的主動權。我們應該采用什么樣的開源策略?要求商業軟件始終遵循一致的標準才能最大可能的減少鎖定。
企業處在不同的階段,我們到底應該怎樣做,要有科學的方法論。IBM在做數據治理、數據科學方面有現成的方法論,有機會大家可以做一些探討。
責任編輯:焦旭





