這些年經常聽到《大數據Big Data》,剛好在圖書館看到這本書,借來看看。有些不錯的運用資料的案例,值得參考。
谷歌利用搜尋字眼的變化,得到預測哪些地區流行性感冒即將盛行的能力。Prodstat利用網路自動採集價格,比政府統計更快的方式,得到通膨或通縮的趨勢。farecast利用網路自動採集歷史票價,預測將來某航班票價的趨勢,讓人判斷該馬上買票或再等一下。谷歌利用大量多語言的對照資料,來改善語言翻譯。谷歌利用輸入關鍵字與最後點選的連結,來改善拼字改錯的程式,並能預測使用者想打的字詞。城市利用人孔蓋的維修紀錄,來預測次年可能發生問題的人孔蓋。城市利用建築與用電等各種公共資訊,預測可能發生火災,需要優先做建築安全檢查的建築。
大數據Big Data的厲害之處,第一,在於使用母體,而不再只是抽樣,由於不是抽樣,就不必依賴隨機抽樣。第二,在於使用更複雜、混亂的資料,不再只有結構化的數據,即使有更多混雜的原始資料,現代的軟體系統也能快速處理。它的關鍵突破在於,找到我們快思直覺沒能發現的關連,因為一般人都會受限於資料的可取得性,而大數據Big Data則擁有母體所有的資訊。不過相關,並不是因果,使用上必須要避免武斷,還是該注意貝氏理論中強調的先驗機率。
沒有留言:
張貼留言