計世網

甲骨文推出Oracle云數據科學平臺
來源:計算機世界
2020-02-25
該平臺提供七個新服務及功能,包括新的數據目錄服務(用于發現、查找、組織、豐富和創建數據資產)、新的大數據服務(用于提供完整的Cloudera Hadoop實施)、支持通過SQL訪問HDFS的新服務,以及用于運行Apache Spark應用的全托管式服務。

 


  甲骨文公司近日發布Oracle云數據科學平臺(Oracle Cloud Data Science Platform)。該平臺的核心服務為Oracle云基礎設施數據科學平臺(Oracle Cloud Infrastructure Data Science),旨在幫助企業以協作方式構建、訓練、管理和部署機器學習模型,提高數據科學項目的成功率。與其他側重于數據科學家個人使用的數據科學產品不同,Oracle云基礎設施數據科學平臺提供共享項目、模型目錄、團隊安全策略、復用和可審計等功能,幫助數據科學團隊提高效率。此外,Oracle云基礎設施數據科學平臺可以通過AutoML算法選擇和調優、模型評估、模型說明等功能,自動選擇最佳訓練數據集。

  如今,很多企業僅將數據蘊含的巨大潛能挖掘出了一小部分,這是因為他們的數據科學團隊還不能輕松訪問適當的數據和工具來構建和部署有效的機器學習模型,導致模型開發時間太長,無法持續滿足企業對準確性和可靠性的更高需求,因而無法投入生產。

  "有效的機器學習模型是數據科學項目取得成功的基礎,但不同類型的海量數據會阻礙企業實施這些項目。"甲骨文公司數據和AI服務產品開發高級副總裁Greg Pavlik表示,"使用Oracle云基礎設施數據科學平臺,我們可以實現整個工作流程的自動化并建立強大的團隊協作支持,以此提高各數據科學家的效率,確保數據科學項目為企業創造真正的價值。"

  專為數據科學團隊和科學家量身打造

  Oracle云基礎設施數據科學平臺提供自動化的數據科學工作流程,通過下列功能節約時間并減少錯誤:

  "    AutoML自動算法選擇和調優 - 可針對多種算法和超參數配置,自動運行測試過程。這項功能可以檢查結果的準確性,并幫助確認目前選擇的模型和配置是最佳方案。這不僅可以為數據科學家節省大量時間,更重要的是,這能夠賦予不同水平的數據科學家專家級的能力。

  "    自動選擇預測性特性 - 自動識別大型數據集中的關鍵預測性特性,從而簡化特性設計。

  "    模型評估 - 生成一整套評估指標和適當的可視化工具,以便針對新數據來衡量模型性能,并且可以持續對模型進行排序,在生產環境中采取最佳行為。除了原始性能之外,模型評估還將考慮預期基線行為,并運用成本模型將誤報和漏報的不同影響計算其中。

  "    模型說明 -針對預測中的影響因素,Oracle云基礎設施數據科學平臺可對它們的相對權重和重要性提供自動說明。Oracle云基礎設施數據科學平臺首次將與模型無關的說明實現了商業化。舉例來說,借助欺詐檢測模型,數據科學家可以解釋哪些因素是欺詐的最大動因,以便企業修改流程或實施保護措施。

  眾所周知,要將有效的機器學習模型成功投入生產,僅憑一人之力是無法實現的,這需要多個數據科學家團隊協作完成。Oracle云基礎設施數據科學平臺提供強大的團隊合作功能,包括:

  "    共享項目 - 幫助用戶組織、啟用版本控制并可靠地共享團隊工作內容,包括數據和notebook會話。

  "    模型目錄 - 幫助團隊成員可靠地共享已經構建的模型,以及那些修改和部署它們所需的工件。

  "    針對團隊的安全功能- 允許用戶控制對模型、代碼和數據的訪問權限,這已經與Oracle Cloud Infrastructure Identity and Access Management全面集成。

  "    復用和可審計功能 - 支持企業跟蹤所有相關資產,即便團隊成員離開團隊,企業也可以重現和審計所有模型。

  借助Oracle云基礎設施數據科學平臺,企業可以提高部署模型的速度和成功率,生成企業級結果和性能指標來進行預測分析,從而取得積極的業務成果。

  全面的數據服務和機器學習服務

  Oracle云數據科學平臺包含七項新服務,它們專為加速實現數據科學成果而提供全面的端到端體驗。這七項新服務為:

  "    Oracle云基礎設施數據科學平臺:支持用戶使用Python以及其他開源工具和庫(包括TensorFlow、Keras和Jupyter)在Oracle云上構建、訓練和管理新的機器學習模型。

  "    Oracle自治數據庫新增的機器學習功能:機器學習算法緊密集成在Oracle自治數據庫中,并新增了對Python和AutoML的支持。接下來,這些算法將與Oracle云基礎設施數據科學平臺相集成,支持數據科學家使用開源和可擴展的數據庫中(in-database)算法來開發模型。這種將算法應用于Oracle數據庫中數據的獨特方法可減少數據的準備和移動的工作,從而加速實現成果。

  "    Oracle云基礎設施數據目錄:允許用戶在Oracle云上發現、查找、組織、豐富和跟蹤數據資產。Oracle云基礎設施數據目錄采用內置業務術語表,用戶可輕松管理和發現合適的可靠數據。

  "    Oracle大數據服務:提供完整的Cloudera Hadoop實施,與其他Hadoop產品相比,該服務大幅簡化管理,只需輕輕一點,即可為集群啟用高可用性并實現安全性。Oracle大數據服務還包含適用于Spark的機器學習,企業可以使用一個產品在內存中運行Spark機器學習,盡可能減少數據移動。

  "    Oracle Cloud SQL:支持對HDFS、Hive、Kafka、NoSQL和對象存儲中的數據進行SQL查詢。CloudSQL的獨特之處在于,與Oracle數據庫進行對話的任何用戶、應用或分析工具,都可以透明地使用其他數據存儲中的數據,獲得下推、橫向擴展處理的優勢,從而盡可能地減少數據移動。

  "    Oracle云基礎設施數據流:完全托管的大數據服務,用戶無需部署或管理基礎設施即可運行Apache Spark應用,從而幫助企業更快地交付大數據和AI應用。與其他Hadoop和Spark服務不同,Oracle云基礎設施數據流提供了一個窗口來跟蹤所有Spark作業,您可以輕松識別高成本任務,排除問題。

  "    適用于數據科學的Oracle云基礎設施虛擬機:基于GPU的預配置環境,具有通用IDE、notebook和框架,可以在15分鐘內啟動并運行,每天收費30美元。

  客戶評價

  AgroScout是一家致力于檢測早期農作物病害的軟件公司,幫助農民提高農作物產量、減少農藥使用并增加利潤。"我們的愿景是讓全球5億個農場的10億農民,也就是全球30%的勞動力,能夠以經濟合理的方式使用現代農業技術。我們計劃通過AI驅動的云端可持續農業技術來實現這一目標,這只用依靠低成本無人機、手機和農民的手動輸入。"AgroScout創始人兼首席執行官Simcha Shore表示,"要成功達成這一愿景,就必須能夠做到兩點:管理好持續不斷增長的數據流,使用基于AI的解決方案將數據轉變為精準決策,產生規模化效應。Oracle云在速度、擴展能力和敏捷性上的優勢幫助我們實現了夢想。如今,新推出的Oracle云基礎設施數據科學平臺為我們開辟了新的可能性,讓我們的數據科學家能夠以協作方式構建、訓練和部署機器學習模型。這進一步幫助我們降低了成本,提高了效率,從而更快地拓展全球業務。"

  IDenTV是一家提供基于AI功能的高級視頻分析技術公司,包括計算機視覺、自動語音識別和文本語義分類器。"借助Oracle云基礎設施數據科學平臺,我們成功擴展了數據科學工作,以前所未有的速度創造業務價值。如今,我們的數據科學團隊可以無縫訪問數據,無需擔心數據位置或訪問機制的復雜度。利用環境中嵌入的TensorFlow、Keras和Jupyter Notebooks等開源功能,我們可以簡化模型訓練和部署任務,從而節省大量成本,以更快的速度獲得結果。"IDenTV創始人兼首席運營官Amro Shihadah表示," Oracle云基礎設施數據科學平臺和Oracle自治數據庫幫助我們在市場上增強競爭力,建立獨特的優勢。"
 

責任編輯:劉沙