書評-《數據、謊言與真相：GOOGLE資料分析師用大數據揭露人們的真面目》

會想要買這本書來研究，最主要是因為工作需求，必須要了解Google trend這個趨勢調查工具...一下子不知道從何下手，乾脆利用週末買書來理解Google關鍵字的搜尋邏輯...

大數據時代
實際閱讀本書才發現，它在技術層面沒有多加著墨，反而是以「關鍵字搜尋」為主題，介紹讓人難以想像的搜尋內容，並且從中導出趨勢並分析現實與網路世界的異同，不過，就算沒有花太多時間解釋資料分析的細節，作者也很誠懇的不斷地提到「大數據時代」面臨的挑戰以及常見的搜尋歸類可能會出現的錯誤，這點我認為事關重大，在無論是現下或者是未來的世界，「數據統計」會變得越來越重要，幾乎是：掌握數據，即掌握優勢。但這必須有個大前提是「如何讓數據有用」、「如何正確分析數據」，也是不可遺漏的重點！

書中幾個我認為有趣的內容也在這跟大家分享：

謊言-我們對網路誠實卻也未必完全誠實
閱讀本書時，我正好也因為工作需求需要上網搜尋「產業趨勢」，不知不覺就想到一個看似矛盾卻又合理的問題，而閱讀本書時，我也不時看見我心目中的疑惑：

我們都認為自己知道大家在想什麼，但實際上看了整個群體的網路搜尋趨勢後，好像又不那麼確定了...

舉例來說，假若我對我的產業非常明白，那我「應該」要知道這個族群的人在想什麼，但我其實還是不清楚大家在談論的是什麼話題，或者，從搜尋的結果統計來看，我以為的話題其實並沒有被網民熱烈搜尋...這點作者也導出了結論：

當我們遇到問題時，我們會傾向詢問Google(因為具有隱蔽性)，反而不會實話實說的告訴身邊的朋友或親人。

書中的數據雖然是從美國為基準，不過許多搜尋的內容也實在是獨特且耐人尋味，例如：搜尋自己的小孩醜不醜、老公是不是同性戀等...。有很多我沒想到的問題，在這本書都現形，而且因為Google搜尋的統計方式，如果只有少量的人搜尋，其實無法有足夠的數據來分析討論，換句話說，這些奇耙的問題不僅「有人問過」還「很多人會問」。不過，閱讀到這裡時，我也捫心自問過...是否，我自己也在網路上搜尋過亂七八糟的內容，呢？

從本書可看出，我們永遠都猜不透身邊的人會在電腦上搜尋什麼樣的問題，就算他／她對搜尋很誠實、有什麼奇怪的癖好，也許一輩子也無法知道...但就算我們對Google誠實，我們未必會對「網路」誠實，例如社群網站上的我們傾向把更好的一面展現給線上的好友們、而就算我們對一些議題表示反對或者是對不入流的新聞標題感到厭惡，這也不代表我們不會點選連結，觀看裡面的內容...也就是說，在網站上，我們同時極端誠實，卻同時也保留社交虛假的一面。

當搜尋趨勢反映真實情況時...
本書另一個讓人既感興趣又感不安的一部分，正是美國的「歧視有色人種」議題上，大數據就像一把照妖鏡，前提是要找到妖怪，照對地方，也許就會看見赤裸裸、血淋淋的證據...

歧視這件事也在作者的筆下被揭露，即便美國看似自由開放的國家，歧視問題卻一直存在，不僅時常就會有白人警察執法過當的新聞、錯把中東人當成恐怖份子，或舉一個最近的例子，因新冠肺炎引起的仇華、排華風氣...不過隨著美國的第一位黑人總統當選以後，對於有色人種的包容難道沒有變大嗎？

數據會說話，書中列舉許多重要事件時(例如歐巴馬對國人的演說)，當我們一般人直覺認為該有正向結果時，如：國內更加團結一心時...搜尋趨勢卻出現了相反的方向，查詢仇恨性、或辱罵性的關鍵字數據竟然上升！書中許多的例子，在現實生活中屬於「反直覺」的結論，振奮人心的演講引起仇恨是一例，另一個讓我驚訝的則是：

暴力電影上映時，暴力事件竟然同時減少！

作者比對了電影上映的時間，同時找尋犯罪相關的資料庫，確實得到犯罪率減少的結論，其中一個有趣的假設：認為也許看電影的時間讓喝酒滋事的人待在酒吧的時間減少了，但我們常看到電視新聞說的「模仿效應」呢？有些人看完電影太過亢奮導致效仿片中的行為的現象呢？本書一次次地揭露，讓讀者得以不斷審視生活周遭發生的事情，並且用不同的角度去理解、去發掘事實的真相，這就有如阿莫斯與丹尼爾兩位科學家發現的「小數法則」，我們總會傾向以為我們看到的特質就是反映出樣本的特質...就好比新聞中的模仿效應，我們過分放大了這件事，實際上他在數據面前卻只是隨機出現的異常現象...

延伸閱讀：書評-《橡皮擦計畫》：不同凡響、超乎想像-兩個以色列心理學家的故事

大數據、大垃圾？
雖然看著作者頗析許多主題很好玩，但本書在「大數據、大垃圾」這一章節裡卻花了時間說明數據分析可能造成的問題，其中一個名詞便是「維度的詛咒」(the curese of dimensilonality)，當分析的變數太多時，一不注意就會遇到這個問題，主要原因在於當我們收集到越新的數據時，我們能有的變數(或維度)肯定比傳統數據多，而這些數據就算在監測後發現具有統計意義，但因為變數太多，其實這個所謂的「統計意義」反而是因為當測試的變數夠多時，總會「碰巧」遇到一個，而實際用這個數據時會發現該變數可能跟要預測的事情並無關聯，我解釋的可能不夠清楚，但書中的舉例卻很明白：

股票市場可以預測嗎？

印第安納大學、曼徹斯特大學的電腦科學家們曾經想靠「網民的推文」來預測市場的走向，並且透過推文內的「情緒」來做編碼，進而發現當許多推文的情緒表現歸類是「感到平靜」時，之後的股市就會上漲，而這當然最後是無疾而終...這就好像我們每天投擲1000枚編號的硬幣，然後每日記下標指數的漲跌，這1000枚硬幣裡有很高的機會，「較高準確的預測」指數的漲跌(例如躑到正面、剛好股票漲)，但不代表這兩者之間有關聯，投擲10,000枚，也許會找到更準確的「幸運硬幣」也說不定，但當我們每日只投擲10枚、5枚硬幣時...就會知道用硬幣預測股市根本不可能。

換句話說，坐擁數據或者是分析數據，不代表數據就會轉變成有用的東西，重點在於如何準確地解讀、不會掉進主觀印象、小數法則、或者是維度的陷阱裡，如果數據分析的方向是錯誤或導出背道而馳的結論，那與其分析，不如根本別碰！

結論
數據的使用，在未來會越來越廣泛，儘管本書多數的內容在介紹有趣的趨勢，在結尾時仍做了精闢的反思，若準確分析數據，是否會造成更多的問題？曾經的我們，並不知道被搜集的數據的用處(其實最早Google Trends的用意，也只是讓大家知道趨勢是什麼，給大家一個茶餘飯後的話題)，現在知道了，我們是否會有行為模式的改變？就好比現在的年輕人不會在FB上發布私人訊息、卻在ig上抒發，而多數人又會在ig上分享美好的東西、卻在google裡找尋內心深處的黑暗秘密。書中提到：

數據科學從嘗試預測一個城市的行為，發展到嘗試預測個人的型位，本身就是一個跳躍式的巨大發展。

問題是，這些數據的預測是合理的嗎？恐怖的搜尋內容不代表恐怖的結果。搜尋「怎麼自殺」的人未必會自殺、女性搜尋「強暴相關的情色影片」不代表想被強暴，數據分析還有很多的問題、很多的學問還未被揭曉或深度討論，作者拋出的問題，值得深思。

不過，往光明面看，作者認為：

大數據讓社會科學變成一門真正的學問。

過往，社會科學較難被認為是「硬科學」，乃是因為其內容有時虛無飄渺，不像物理學、數學等，有跡可循、有公式可推導。社會科學的許多假設較難得到驗證，但有了數據分析、關鍵字搜尋分析，也許一些從未有機會測試的「結論」就能用更明確的方式呈現。其中，就有如佛洛伊德認為「夢到陰莖形狀的物體」代表「想著男性的生殖器」，而這類型有趣卻未解的想法，就有機會靠著大數據來解答...

因此，又回到那句老話，強大的工具一定也伴隨著強大的殺傷力，本書只是「淺嚐」，後面博大精深的道理可能要幾年的時間研究才能真正理解，也可能因為這樣，我在看這本書時，雖然書本有明確的章節，卻總覺得有些發散的跳接不同類型的搜尋主題之間，然而，小小的問題並不影響閱讀的娛樂性，《數據、謊言與真相：GOOGLE資料分析師用大數據揭露人們的真面目》確實讓我大開眼界，尤其是關於「性」的部分...

答案也許跟我們想的很不一樣。

ERiC

姓艾的瑞克

ERiC 發表在痞客邦留言(0) 人氣(306)

姓艾的瑞克

書評/影評/文章/圖畫