今年四月,西雅圖的氣溫已經(jīng)達(dá)到華氏90度。這不是抱怨,但人們絕對(duì)相信全球變暖正在發(fā)生,需要做出一些改變來解決它。但本文并不討論關(guān)于氣候變化問題,而是關(guān)于數(shù)據(jù)的問題。具體而言,這是關(guān)于非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)問題,如果我們繼續(xù)否認(rèn)這個(gè)問題,并忽略警告的話,將會(huì)面臨悲觀的命運(yùn)。這聽起來是不是很熟悉?
人們很難對(duì)非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)的證據(jù)進(jìn)行爭(zhēng)論,估計(jì)會(huì)與研究機(jī)構(gòu)所公布的有所不同,但普遍的共識(shí)是,直到2020年將會(huì)產(chǎn)生40-50澤字節(jié),其中非結(jié)構(gòu)化數(shù)據(jù)將占80%-90%。
是什么推動(dòng)了非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)?
數(shù)據(jù)增長(zhǎng)來自于很多地方。當(dāng)然也有像4K高清電影、電視節(jié)目、電影、圖片,以及我們每天都在使用的智能手機(jī)的圖像,但是非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)源要這些廣泛得多。還有在各種不同行業(yè)的大量機(jī)器和傳感器,例如,工程和設(shè)計(jì),金融服務(wù),地理空間探索,醫(yī)療保健,以及更多的數(shù)據(jù)驅(qū)動(dòng)的行業(yè)日常產(chǎn)生的大量數(shù)據(jù)。隨著攝像頭分辨率和保存時(shí)間的增長(zhǎng),單是視頻監(jiān)控每天產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)幾乎達(dá)到艾字節(jié)。
這些不同的數(shù)據(jù)集具有一些共同的特點(diǎn)。通常情況下,它們分別是:
•大文件的組成;
•即不可壓縮的數(shù)據(jù),如重復(fù)數(shù)據(jù)刪除技術(shù)無法有效降低數(shù)據(jù);
•對(duì)創(chuàng)造數(shù)據(jù)的公司、部門或用戶有一定的價(jià)值;
•保存多年。
與全球變暖的相似之處
那么,非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)如何像全球變暖一樣?
人們所表現(xiàn)的就像是不存在這樣的問題:公司每天產(chǎn)生的數(shù)據(jù)都在噴涌而出,越來越多的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)入到他們的IT環(huán)境,但是當(dāng)它涉及到管理這種增長(zhǎng)時(shí),一切照常。盡管所有證據(jù)與之相反,許多企業(yè)仍在嘗試使用數(shù)據(jù)存儲(chǔ),他們一直使用相同的方法來管理和存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)集,他們把數(shù)據(jù)都存儲(chǔ)在磁盤上。這種方法開始分解在數(shù)據(jù)的規(guī)模和比例。超出生長(zhǎng)成本以外,隨著時(shí)間的推移,將內(nèi)容攝取到存儲(chǔ)系統(tǒng)的速度不夠快,隨著時(shí)間的失衡,其能力下降,而傳統(tǒng)的備份方法不再足以保護(hù)數(shù)據(jù)。
對(duì)于這些龐大機(jī)器和傳感器生成的數(shù)據(jù)集,明確了不同的方式來存儲(chǔ)和管理這個(gè)數(shù)據(jù)是必需的。
這樣的例子不勝枚舉,但問題是,對(duì)于這些類型的數(shù)據(jù)集,冷數(shù)據(jù)變得更有價(jià)值或變得更“熱”,需要改變數(shù)據(jù)的存儲(chǔ)方式。即使需要保持用戶訪問的歸檔數(shù)據(jù)。
•有關(guān)電影或電視演播室生成的視頻內(nèi)容,可以重新利用并重新分配,想想“幕后”你最喜歡的電視真人秀節(jié)目。
•零售企業(yè)分析視頻監(jiān)控錄像,跟蹤購(gòu)物模式,并使用洞察力,以增加銷售。
•科學(xué)家們能夠在幾年前的數(shù)據(jù)集上進(jìn)行分析,以獲得新的見解,并在他們的領(lǐng)域推進(jìn)新的創(chuàng)新。
•自主轎車開發(fā)者使用在早期試駕生成的視頻和傳感器數(shù)據(jù),使自動(dòng)駕駛汽車更加安全高效。
對(duì)于這些類型的數(shù)據(jù)集,因?yàn)槔鋽?shù)據(jù)變得更有價(jià)值或“升溫”,該數(shù)據(jù)的存儲(chǔ)方法需要改變。即使存檔的數(shù)據(jù)需要保持用戶的訪問。
現(xiàn)在有必要行動(dòng)。在你下一個(gè)大訂單的磁盤存儲(chǔ)之前,現(xiàn)在是停止和考慮其他的替代品。堅(jiān)持現(xiàn)狀是最簡(jiǎn)單的方法,也是一個(gè)導(dǎo)致多余的存儲(chǔ)成本和效率低下的問題。
這個(gè)解決方案是什么?
為了解決這個(gè)問題,我們首先介紹一下可能是一個(gè)新的術(shù)語:數(shù)據(jù)工作流。在某些行業(yè)中,這是一個(gè)共同的術(shù)語,但對(duì)于許多行業(yè)來說,它可能是一個(gè)新概念,盡管是一個(gè)直觀的概念。所有這些非結(jié)構(gòu)化的數(shù)據(jù)集,這是迄今為止與之相關(guān)的一個(gè)工作流。它看起來像這樣的東西:數(shù)據(jù)被產(chǎn)生或捕獲,攝入到存儲(chǔ)系統(tǒng),并進(jìn)行存儲(chǔ)和處理,以達(dá)到一定的結(jié)果(通常需要許多用戶之間的協(xié)作),然后數(shù)據(jù)歸檔長(zhǎng)期保存和重新使用。這個(gè)過程對(duì)使用存儲(chǔ)系統(tǒng)更加有效,該存儲(chǔ)系統(tǒng)從一開始就為特定的數(shù)據(jù)集的工作流程所定制。
當(dāng)需要時(shí),工作流存儲(chǔ)必須處理高性能攝取。在網(wǎng)絡(luò)上共享也同樣關(guān)鍵,以獲得協(xié)作的能力,以及降低存儲(chǔ)的成本,例如采用磁帶,同時(shí)保持在網(wǎng)絡(luò)上的用戶和應(yīng)用程序需要訪問的數(shù)據(jù)。這是最后一塊真正能走出來的存檔數(shù)據(jù)的方式,不會(huì)破壞其價(jià)值和能力。
這個(gè)以工作流程為基礎(chǔ)的存儲(chǔ)方法,與將所有數(shù)據(jù)保存在閃存或機(jī)械磁盤相比,其結(jié)果顯著降低了成本,并使其他組織可以存儲(chǔ)更多的自己的數(shù)據(jù)。
而且兼顧環(huán)保節(jié)能
通過使用分層存儲(chǔ),可以將這些數(shù)據(jù)保存在低成本、低功耗的存儲(chǔ)介質(zhì)中,例如磁帶,你實(shí)際上是在做一部分有益于環(huán)境的事,以應(yīng)對(duì)全球變暖。
文章來源:機(jī)房專用空調(diào) http://www.rongguina.cn