孫丹：如何“馴服”并激活非結構化數據

作者:孫丹 | 來源:希捷科技

2021-11-30

隨著元數據增加，越來越多非結構化數據被“馴服”并進入結構化數據范疇。

根據IDC的最新報告《2021-2025年全球數據及存儲領域結構化和非結構化數據預測（2021年7月）》，超過90%的現有數據是非結構化數據，并且在過去十年中大體保持不變。然而，隨著元數據的增加，越來越多的非結構化數據被“馴服”并進入結構化數據范疇。

其中有一個關鍵的驅動因素，那便是新型軟件的出現，它使得非結構化數據的內容能夠得到分析并提供背景信息。舉例來說，視頻分析軟件可以對文件中的圖像進行標記，并賦以特定的索引以便存儲和搜索。這聽起來也許稀松平常，實現起來卻有諸多挑戰，但這意味著非結構化數據會變得極具價值。

我們先來了解幾個定義。非結構化數據是指原始格式的信息，它通常駐留于采集的源頭或附近。非結構化數據代表著采集的所有原始數據類型，包括尚未編目或分析的數據。而結構化數據則是有組織的定量數據，其中最為常見的是數字數據和文本數據，它們以某種標準格式存在于文件或記錄的固定字段中。電子表格或關系型數據庫中駐留的信息是結構化數據的典型例子。這種類型的結構使得我們在查找特定數據或信息組時能夠簡便地查詢數據。

非結構化信息也稱為定性數據，也就是說它只是觀察或記錄的信息。舉例來說，工廠的物聯網（IoT）傳感器采集設備性能方面的數據，然后，這些信息被發送至服務器，并以非結構化的格式進行存儲，例如：PDF和視頻文件。

非結構化數據的其他例子還包括衛星照片、天氣報告、患者生物信號數據，以及尚未以有組織的方式標記或編目的視頻圖像。它們的共同點是數據均為被動采集和傳輸，沒有預定義的組織格式。當非結構化數據作為海量數據集的一部分進行審查和理解時，它非常有助于發現大規模的發展趨勢和構建預測模型，但為了業務目的而進行搜索和分析卻比較困難。

結構化數據與非結構化數據的差異

結構化數據和非結構化數據之間的主要區別在于格式。非結構化數據以其原生格式存儲，例如：PDF、視頻和傳感器輸出。結構化數據嚴格以預定義的形式呈現，或者帶有描述它的預定義能指，以便輕松置入表單、電子表格或關系型數據庫。

非結構化數據通常存放于數據湖，所謂數據湖本質上是一個以各種格式存儲原始數據的存儲庫。結構化數據則駐留于數據倉庫，這種存儲庫只接受按照預定義規范格式化的數據。數據湖是一個存儲非結構化數據的存儲庫，但它也可以存儲結構化數據，而數據倉庫只能存儲有組織和格式化的結構化數據。

無論是在數據湖中還是在數據倉庫中，信息都是存儲于某種類型的數據庫。其主要區別在于：結構化數據存儲在關系型數據庫中，以結構化查詢語言（SQL）、PostgreSQL、MongoDB 等組織格式按行列進行存儲。這些格式使得用戶或機器搜索、整理和處理結構化數據變得非常簡便。相比之下，非結構化數據則存儲在非關系型數據庫中，例如：NoSQL。

結構化、非結構化數據的處理工具和技術

在分析方式以及處理和操作所需的工具和人員方面，這兩種類型的數據也有所不同。非結構化數據通常借助數據堆疊、數據挖掘等技術進行分析，這些技術可以處理元數據并得出較為一般性的結論。結構化數據則多采用數學方法進行分析，例如：數據分類、聚類和回歸分析。在工具和技術方面，結構化數據比較便于管理和使用分析工具。用于處理結構化數據的工具示例如下：

·關系型數據庫管理系統（RDBMS）

·客戶關系管理（CRM）

·聯機分析處理（OLAP）

·聯機事務處理（OLTP）

能夠處理多種格式的大型數據集的軟件，通常用于管理和分析非結構化數據。用于管理非結構化數據的工具示例如下：

·NoSQL數據庫管理系統（DBMS）

·AI驅動型數據分析工具

·數據可視化工具

非結構化數據通常需要由訓練有素的專家進行管理，并且相較于結構化數據，其軟件處理工具也須具備更高級的人工智能（AI）和預測建模功能。機器學習便是用于分析非結構化數據的技術策略之一。

非結構化數據的存儲和移動

無論是原始的還是經過初步處理的視頻圖像，都需要占用大量的存儲空間。這推動了以硬盤為中心的大容量存儲系統的需求不斷攀升，而硬盤技術的持續發展也使得進一步擴大容量成為了可能，從而繼續提供顯著的總體擁有成本優勢。

在源頭附近訪問非結構化數據，并根據需要將其移動至各種私有及公共云數據中心以用于不同的目的，這種需求也推動著封閉、專有、孤立的IT架構向開放、可組合、混合式的IT架構轉變，以便數據在分布式企業范圍內自由而高效地移動。

大容量存儲系統，例如希捷的新型Exos CORVAULT，可以將大量的非結構化數據存儲于區域邊緣和數據中心環境。這種高密度的存儲系統可以基于希捷突破性的存儲架構提供SAN級的性能，該架構融合了第六代VelosCT ASIC、ADAPT糾刪碼數據保護和硬盤自主重建功能。

此外，希捷的新型Lyve Mobile等模塊化存儲解決方案還提供了一種更好的方式，通過道路運輸將大量數據從一個存儲位置物理移動至另一個存儲位置。

結論

目前，兩種類型的數據各有用途。非結構化數據是設備或軟件的原始輸出，這些采集來的信息以原始格式移動至數據湖。結構化數據以數字或文本格式進行組織，可以按預定義的參數進行編目、組織、重組和分析。

中國互聯網行業正在處于高速發展期，根據國際數據公司（IDC）預測，到2023年，中國的數據量將達到40ZB，其中80%超過是非結構化數據。釋放非結構化數據背后的價值成為國內互聯網企業角逐的目標。隨著越來越多的非結構化數據進入結構化IT環境，尤其是來自于大量物聯網設備的流媒體數據和大量的標記視頻數據，機構有機會將這些數據轉化成為信息和知識。當非結構化數據作為海量數據集的一部分進行審查和理解時，非常有助于發現大規模的發展趨勢和構建預測模型。具有遠見卓識的人們可以從中獲取全新的、創新的洞察力，以推出新產品和新服務，從而充分挖掘這口蘊藏豐富的智慧之井。

責任編輯：焦旭

孫丹：如何“馴服”并激活非結構化數據

專題

最新發布