學習大數據似乎已經成為時代的潮流,成為大數據技術人才更是很多人的夢想。不僅僅因為大數據的前景好薪資高,還有就是當下大數據技術人才實在是稀缺,如果自己能在千鋒學到真正的大數據技術,那對于未來的發展將是一筆不可估量的財富。以下是總結的對于大數據常見的誤區,感興趣的可以了解一下了。
一、數據不等于信息
經常有人把數據和信息當作同義詞來用。其實不然,數據指的是一個原始的數據點(無論是數字,文字,圖片還是視頻等等),信息則直接與內容掛鉤,需要有資訊性(informative)。數據越多,不一定就能代表信息越多,更不能代表信息就會成比例增多。有兩個簡單的例子:
備份。很多人如今已經會定期的對自己的硬盤進行備份。這個沒什么好多解釋的,每次備份都會創造出一組新的數據,但信息并沒有增多。
多個社交網站上的信息。我們當中的很多人在多個社交網站上活躍,隨著我們上的社交網站越多,我們獲得的數據就會成比例的增多,我們獲得的信息雖然也會增多,但卻不會成比例的增多。不單單因為我們會互相轉發好友的微博(或者其他社交網站上的內容),更因為很多內容會十分類似,有些微博雖然具體文字不同,但表達的內容十分相似。
二、信息不等于智慧
現在我們去除了數據中所有重復的部分,也整合了內容類似的數據,現在我們剩下的全是信息了,這對我們就一定有用嗎?不一定,信息要能轉化成智慧,至少要滿足一下三個標準:
可破譯性。這可能是個大數據時代特有的問題,越來越多的企業每天都會生產出大量的數據,卻還沒想好怎么用,因此,他們就將這些數據暫時非結構化(unstructured)的存儲起來。這些非結構化的數據卻不一定可破譯。比如說,你記錄了某客戶在你網站上三次翻頁的時間間隔:3秒,2秒,17秒,卻忘記標注這三個時間到底代表了什么,這些數據是信息(非重復性),卻不可破譯,因此不可能成為智慧。
關聯性。無關的信息,至多只是噪音。