讀《大數據Big Data》

2014/03/22

讀《大數據Big Data》

這些年經常聽到《大數據Big Data》，剛好在圖書館看到這本書，借來看看。有些不錯的運用資料的案例，值得參考。

谷歌利用搜尋字眼的變化，得到預測哪些地區流行性感冒即將盛行的能力。Prodstat利用網路自動採集價格，比政府統計更快的方式，得到通膨或通縮的趨勢。farecast利用網路自動採集歷史票價，預測將來某航班票價的趨勢，讓人判斷該馬上買票或再等一下。谷歌利用大量多語言的對照資料，來改善語言翻譯。谷歌利用輸入關鍵字與最後點選的連結，來改善拼字改錯的程式，並能預測使用者想打的字詞。城市利用人孔蓋的維修紀錄，來預測次年可能發生問題的人孔蓋。城市利用建築與用電等各種公共資訊，預測可能發生火災，需要優先做建築安全檢查的建築。

大數據Big Data的厲害之處，第一，在於使用母體，而不再只是抽樣，由於不是抽樣，就不必依賴隨機抽樣。第二，在於使用更複雜、混亂的資料，不再只有結構化的數據，即使有更多混雜的原始資料，現代的軟體系統也能快速處理。它的關鍵突破在於，找到我們快思直覺沒能發現的關連，因為一般人都會受限於資料的可取得性，而大數據Big Data則擁有母體所有的資訊。不過相關，並不是因果，使用上必須要避免武斷，還是該注意貝氏理論中強調的先驗機率。

沒有留言:

張貼留言