2013年8月27日 星期二

[讀書] 大數據 Big Data



Big data以及data mining在最近幾年非常熱門。由於科技進步,大家能取得、儲存、和分析的資料量非常大幅度地增加,也出現了一些有趣的分析結果(例如Google預測美國那些州會爆發流感),因此大家都感受到這股趨勢席捲而來。之前雖然偶而讀到一些文章介紹最新發展,但直到讀了這本書,我才清楚了解big data對這個世界的影響有多深遠。


從表面來看,這本書有大量實際應用案例,讓我們可以知道哪些領域已經開始享受到big data的好處。例如消防機關判斷哪棟建築有失火風險以降低火災次數,網路商店如何推薦商品讓消費者願意多付錢,或是快遞公司重新規畫路徑以增進送貨效率。big data憑藉強大的運算能力,挑戰人類的智慧。以往很多事情都是依賴人們的經驗來做決定,就像電影《魔球》裡面的老球探們,總覺得自己的感覺最可靠,可是其實感覺是很不可靠的,社會心理學不斷提出實驗證明人的判斷力會受到當下周圍各種因素影響,甚至氣溫比較溫暖都可能讓人覺得社會比較溫暖。人的判斷力這麼不可靠,能處理的資訊量又遠不及電腦,因此未來勢必有愈來愈多領域會依賴big data協助做決策,甚至完全讓電腦做決策(像是Google廣告讓電腦自己決定要放什麼廣告給這個使用者)。

我最喜歡的案例是用big data改進電腦翻譯能力。製作翻譯機器有兩種途徑,一個是找語言專家來設計兩個語言的對應關係,另一個則是看大家是怎麼翻的。找專家看起來很精確,但語言是活的,充滿無數個例外,再多專家也難以窮盡所有的語言規則。因此如果能夠參考大量的原文書和翻譯書,分析別人都是怎麼翻譯的,應該更能創造出流暢的翻譯結果。我喜歡這個概念,有一種群眾智慧勝過專家的感覺。

然而,作者認為big data更重要的影響是深層思考觀念的改變,這股趨勢將會改變人們看待世界的方式。

首先是他改變了分析資料的哲學,世界上絕大多數的研究,不論是收受試者做問卷或做實驗,幾乎都是採用抽樣方法,即用少數人的態度行為推估全部人的態度行為。為了能說服別人實驗結果可以類推到全世界,於是發明統計學以及各種實驗設計法。但這是權宜之計。如果可以,誰不想真的去研究全世界的每一個人呢?現在,我們真的可以研究每一個人了。big data的意義不完全在於資料量多,更重要的意義是,他的樣本等於母體!例如賣場要知道消費者買啤酒同時還會買什麼,他不再需要隨機抽取100個消費者去問,他只要利用結帳資料,就可以看到所有到這個賣場的人買啤酒的時候還會順便買什麼(這就是有名的啤酒與尿布的傳說)。這是事實,不是推估的結果!

此外,由於big data處理的資料量通常很大,資料的精確性就可以被犧牲。例如上述電腦翻譯的例子,我們重點是要收集大量的翻譯資料,管它翻譯品質好還不好,管他每一句的主詞受詞怎麼對應。作者相信,量大就會產生質變,我們的重點是取得最大量的資料,如果斤斤計較每筆資料的正確性,或是還要花時間去整理每筆資料的格式,大概要一百年後才能開始分析了。這對於我們習慣抽樣研究的人來說絕對是個衝擊,我們念茲在茲思考問卷的問題是否精確,每一個行為要怎樣量化,一切都要求標準化。這其實也是個權宜之計,因為我們也知道人們在日常生活中的行為絕不可能標準化。結果這堆工程師竟然可以運用演算法分析雜亂無章的資料,說不定反而更真實反映人類行為。

最後一點,作者認為將改變世界,就是「放下長久以來對於因果關係的堅持...相反的,是要從資料中找出事物的模式,以及彼此的相關性...我們可能無法瞭解某件事情為何如此,但卻能夠知道事情正是如此」。這點非常重要,我們往往想去探究因果關係,讓一切事件的發生都顯得合理,然後最好還能根據這個因果關係去預測未來將會如何發展,然後才敢下決定。但正如《黑天鵝效應》一書所說:預測預測個頭!天底下沒有任何事情可以有百分之百確切的證據證明因果關係的存在,所有因果關係都只是人類的一種感覺而已。但很多人需要擁有這種感覺,才敢做出決定。例如要證明買啤酒的人是因為老婆交代他去買尿布,他不得不去逛賣場,為了給自己獎勵,所以也買了啤酒。得到這個故事,就好像一切都明朗了,就願意接受啤酒和尿布存在某種關聯,然後才敢把尿布和啤酒放在鄰近的貨架。說實在,我才不相信每個買尿布與啤酒的人都是這個原因。與其花時間在那邊解釋這個資料是怎麼回事,身為賣場經理,是不是應該更快速採取行動呢?作者傾向回答是。因為事實就是如此,管他為什麼。等思考出一個原因,很可能時不再來了。

我還不知道該怎麼取捨,相關和因果都很重要。因為big data的資料量多,很容易得出某兩個變項之間有高相關的結論,例如橘色跑車故障率低。如果不試著找出背後可能的原因,這個結論真的可以用嗎?你買中古車的時候敢直接就挑橘色的嗎?因此,相關和因果誰比較重要,應該是見仁見智。big data重視相關的取向是不是一定比重視因果的取向有效,現在也無法預測。

我想big data的趨勢應該在近幾年只會愈來愈熱門,雖然我不是寫程式出身,不懂演算法是什麼,但作者分析big data的人才有三種:能取得資料的人、能分析資料的人、以及能開創big data價值的人。至少我們可以當第三種人,思考目前的產業可以怎樣運用big data而創造更大的價值。

最後註解一下:雖然我引用了《黑天鵝效應》的話,但其實該書作者Taleb在《反脆弱》一書中明文表達不相信big data的研究價值。

沒有留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...