評論(0

非結構化數據

標籤: 暫無標籤

非結構化數據,是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化數據。

1 非結構化數據 -​概述

  相對於結構化數據(即行數據,存儲在資料庫里,可以用二維表結構來邏輯表達實現的數據)而言,不方便用資料庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
  非結構化資料庫是指其欄位長度可變,並且每個欄位的記錄又可以由可重複或不可重複的子欄位構成的資料庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖象、聲音、影視、超媒體等信息)。
  非結構化WEB資料庫主要是針對非結構化數據而產生的,與以往流行的關係資料庫相比,其最大區別在於它突破了關係資料庫結構定義不易改變和數據定長的限制,支持重複欄位、子欄位以及變長欄位並實現了對變長數據和重複欄位進行處理和數據項的變長存儲管理,在處理連續信息(包括全文信息)和非結構化信息(包括各種多媒體信息)中有著傳統關係型資料庫所無法比擬的優勢。
  結構化數據(即行數據,存儲在資料庫里,可以用二維表結構來邏輯表達實現的數據)
  非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等
  所謂半結構化數據,就是介於完全結構化數據(如關係型資料庫、面向對象資料庫中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據,HTML文檔就屬於半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。
  數據模型:
  結構化數據:二維表(關係型)
  半結構化數據:樹、圖
  非結構化數據:無
  RMDBS的數據模型有:如網狀數據模型、層次數據模型、關係型
  其他:
  結構化數據:先有結構、再有數據
  半結構化數據:先有數據,再有結構
  隨著網路技術的發展,特別是Internet和Intranet技術的飛快發展,使得非結構化數據的數量日趨增大。這時,主要用於管理結構化數據的關係資料庫的局限性暴露地越來越明顯。因而,資料庫技術相應地進入了「后關係資料庫時代」,發展進入基於網路應用的非結構化資料庫時代。
  中國非結構化資料庫以北京國信貝斯(iBase)軟體有限公司的iBase資料庫為代表。IBase資料庫是一種面向最終用戶的非結構化資料庫,在處理非結構化信息、全文信息、多媒體信息和海量信息等領域以及Internet/Intranet應用上處於國際先進水平,在非結構化數據的管理和全文檢索方面獲得突破。它主要有以下幾個優點:
  (1)Internet應用中,存在大量的複雜數據類型,iBase通過其外部文件數據類型,可以管理各種文檔信息、多媒體信息,並且對於各種具有檢索意義的文檔信息資源,如HTML、DOC、RTF、TXT等還提供了強大的全文檢索能力。
  (2)它採用子欄位、多值欄位以及變長欄位的機制,允許創建許多不同類型的非結構化的或任意格式的欄位,從而突破了關係資料庫非常嚴格的表結構,使得非結構化數據得以存儲和管理。
  (3)iBase將非結構化和結構化數據都定義為資源,使得非結構資料庫的基本元素就是資源本身,而資料庫中的資源可以同時包含結構化和非結構化的信息。所以,非結構化資料庫能夠存儲和管理各種各樣的非結構化數據,實現了資料庫系統數據管理到內容管理的轉化。
  (4)iBase採用了面向對象的基石,將企業業務數據和商業邏輯緊密結合在一起,特別適合於表達複雜的數據對象和多媒體對象。
  (5)iBase是適應Internet發展的需要而產生的資料庫,它基於Web是一個廣域網的海量資料庫的思想,提供一個網上資源管理系統iBase Web,將網路伺服器(WebServer)和資料庫伺服器(Database Server)直接集成為一個整體,使資料庫系統和資料庫技術成為Web的一個重要有機組成部分,突破了資料庫僅充當Web體系後台角色的局限,實現資料庫和Web的有機無縫組合,從而為在Internet/Intranet上進行信息管理乃至開展電子商務應用開闢了更為廣闊的領域。
  (6)iBase全面兼容各種大中小型的資料庫,對傳統關係資料庫,如Oracle、Sybase、SQLServer、DB2、Informix等提供導入和鏈接的支持能力。
  通過從上面的分析后我們可以預言,隨著網路技術和網路應用技術的飛快發展,完全基於Internet應用的非結構化資料庫將成為繼層次資料庫、網狀資料庫和關係資料庫之後的又一重點、熱點技術。

2 非結構化數據 -雲計算與非結構化數據

  據IDC的一項調查報告中指出:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。非結構化數據,顧名思義,是存儲在文件系統的信息,而不是資料庫。據報道指出:平均只有1%-5%的數據是結構化的數據。如今,這種迅猛增長的從不使用的數據在企業里消耗著複雜而昂貴的一級存儲的存儲容量。如何更好的保留那些在全球範圍內具有潛在價值的不同類型的文件,而不是因為處理它們卻干擾日常的工作?當然你可以採購更多的就地存儲設備,但這總會有局限性的。雲存儲是越來越多的IT公司正在使用的存儲技術。下面的分段解釋了一些關於存儲在雲中的商業信息的關鍵要點。員工面臨新挑戰 數據如何被管理?
  當企業參與到全球經濟競爭中,IT員工面臨著讓分佈在全球的員工能夠有效訪問重要數據的新挑戰。全球分佈的團隊需要共享對大型的文件和數據集的讀寫訪問,但這顯然增加了數據管理的複雜性。另外不斷地採用數據同步功能和精確度的問題都影響企業的工作效率。
  雲存儲業務外包 降低成本是否可行?
  隨著基於雲存儲服務項目的增長,各種類型的企業都有能力將數據存儲業務外包。利用這些外包服務,企業能大幅減少存儲基礎架構成本,在減少人工管理非結構化數據所需時間的同時增加了存儲的靈活性,這在以前的企業中從未被使用過。另外,雲服務也帶來了巨大的經濟效益。
  雲存儲有多大 價格是否更合理?
  大多數服務提供商對於雲存儲的定價都是根據實際使用了多少存儲容量而決定的。支付多少錢就享用多少容量。因此不再需要存儲架構師,也不再需要安裝和管理存儲設備。
  如果你使用200TB的存儲容量,你就只需支付200TB存儲的這部分錢即可。如果你的公司突然需要在明天增加34TB的存儲容量,你不需要增加任何存儲設備,只需要在開賬單的周期支付存儲多增加出來的錢即可。如果其中一部分存儲容量只是暫時性的話,你可以輕鬆地從雲中刪除不需要的數據,以減少使用的容量,並送交最終的賬單。但本地的存儲基礎設施並沒有這些功能。
  數據中心安全第一 有害訪問強制隔離
  如果你曾配置過數據中心,必須要保證物理安全。未經授權的人通過各種層級的物理安全獲得數據的機會是幾乎不可能的。檢查存儲供應商提供的服務,你會發現這些數據中心不僅是保障不能出現有害的物理訪問,還在於保護通過任何自然和人為操作所產生的災難
  雲存儲網關發威 惡意訪問皆退散
  物理安全對於企業去阻止惡意訪問來說是非常重要的。越來越多的廠商提供雲存儲網關(cloud storage gateway)應用,無論是在傳輸中還是在靜止中都能夠保證高級別的數據安全。網關能夠處理前端數據的存儲進程。數據實際被存儲在服務商提供的基礎設施中,像是Rackspace、AT&T、i365、Amazon S3等等。
  備份記錄複雜昂貴 雲存儲簡單方便
  隨著備份和災難恢復的處理和要求變得越來越複雜、昂貴以及耗費時間。雲存儲服務能夠大大地減少這種複雜性和成本。當在雲中存儲一個大數據集的時候,答案可以像複製數據到多重地理分佈位置一樣的簡單。
  單一技術非萬能 分析思考更有效
  像任何技術一樣,根本不存一個萬能的解決方案,雲存儲也是如此。仔細地檢查當前的存儲基礎設施,創建數據的應用以及數據的用戶。只有更仔細的分析,才能更加的清楚:基於雲的存儲通常完美適用於第二層級(Tier 2)的數據,以及那些需要在多個位置共享的數據。

相關評論

同義詞:暫無同義詞