癌戰!Google可幫多少忙?
(華健淵攝)
大數據不是搞電腦的人玩的電動玩具。它必須對人類,尤其對上不了網的低社經地位的人群有所貢獻,數據科技才能帶來人類的福址。……
文 / 鄭春鴻主任 (文教部)
你可以想像有一天沒有google嗎?實在不可思議對吧?因為你可能每天要google好幾次,有時查資料;有時查地圖,當然對年輕人說,每天逗留在「全世界最大的電視台」----YouTube的時間可能更多。
Google搜尋趨勢(Google Trends),以前稱作Google搜尋解析(Google Insights for Search),它是Google開發的一款服務,用於分析用戶在Google中搜尋過的條目。分析的結果會在世界地圖上顯示出對於條目的地區關注度差異。Google搜尋解析可以對數個不同的條目的搜尋行為進行比較,也可以針對一個條目在不同的地區和時間上的搜尋行為進行比較。Google搜尋解析還提供一些條目未來的搜尋搜尋趨勢預測。Google搜尋解析現在還提供一項新功能,向用戶提供條目搜尋分析的HTML代碼,這樣用戶就可以在自己的web頁面中嵌入條目的搜尋分析結果。
醫學期刊普遍使用Google Trends
當你進入到「谷歌搜尋趨勢」(Google Trends),你可能會被吸引,而花無數的時間探索任何谷歌的熱門關鍵字。從美國總統川普到囊性纖維化,在全世界查到不同城市生活水平;你可以設定你的搜尋的時間範圍,從過去十年到過去一小時,也就是說,你可以在設定時間和地理位置,去查找你搜索次數,來與谷歌搜索的總數相比。「谷歌搜尋趨勢」已在數以百計的經同行評審的醫學刊物被使用。最顯著的例子是追蹤和預測傳染病的爆發,比如流感。在腫瘤學方面,谷歌趨勢的數據已被用來評估癌症篩檢互聯網在癌症的發病率和死亡率的最新數據,以及癌症的危險因素的搜索,和它在時間趨勢和利益之間的關係。
使用者共創 (user-created)的公開數據有其侷限性
「谷歌搜尋趨勢」和相關軟件是相當新穎的,他們的最佳功能仍然正在不斷地被開發。最近一期的柳葉刀腫瘤學(Lancet Oncology)的一篇「Google可以幫我們跟癌症打仗嗎?」文章中,作者Kevin T Nead指出,不過,當我們嚴肅地討論谷歌趨勢這些由用戶共創的(user-created),公開的數據時,關鍵是要首先考慮其局限性。最重要的問題是,我們必須預想到一般人網路搜索習慣,你被連結到是一個實際的「健康狀況」描述,抑或只是一個反射的網路「行為」。搜索「腳踝扭傷」的網路使用者,他是想得到一個醫學的答案呢?或者他們只是對「腳踝扭傷」感興趣而去搜尋的呢?不同動機行為者去搜尋某一個特定的關鍵字,將影響未來的搜尋者在google上所搜尋的相同關鍵字看到的條目。換句話說,大眾對某個關鍵字詞關心的向度,影響後來要搜尋同樣字詞的人所搜尋的答案。所以,你在google上搜尋到的,經常不是自己要找的條目,或搜尋到的資訊所敘述的和你需要的旨趣不同。
頻繁上網者往往年輕及社經地位高的人
另一個使用「谷歌搜尋趨勢」的侷限性是它的使用者往往是年輕人、具有較高的社會經濟地位,以及那些擁有上網工具及環境,並且經常上網的入。此外,由於「谷歌趨勢」的數據是相對於谷歌搜索的「總量」,它的分母仍然是上網人口,而不是整個人口。另外,不同族群的人口其的搜索習慣也不同,搜尋到的條目,也會因新聞報導、宣傳月,或社交媒體文章正好尖峰出現而受到影響。
關鍵字的拼寫和措詞也會影響搜尋結果
最後,我們必須正視你打進去的關鍵字的拼寫和措詞也會影響你搜尋的結果。例如,在「谷歌搜尋趨勢」搜尋NK / T細胞淋巴瘤(NK/T cell lymphoma)可能是一個挑戰。有多少病人正在搜索「NK / T細胞淋巴瘤」;有多少人只鍵入搜索「T細胞淋巴瘤」,又有多少只搜索「淋巴瘤」呢?儘管谷歌有拼字上的建議功能,但甚至有專家甚至不能正確拼寫「神經母細胞」(esthesioneuroblastoma)。
「谷歌趨勢」提供的數據有甚麼「價值」呢?
從「谷歌搜尋趨勢」的數據上發現,美國五種常見的診斷癌症(結腸癌,肺癌,淋巴瘤,黑色素瘤和甲狀腺癌)在谷歌搜索頻率最高;在癌症死亡率的搜尋頻率上,在前列這五個癌症中,又以結腸癌,肺癌,淋巴瘤和黑素瘤四個最高。美國有優秀的癌症登記。但是「谷歌趨勢」提供的數據有甚麼「價值」呢?尤其,對於美國以外的國家或地區,這些在谷歌搜索頻率最高的癌症,其發病率和死亡率的研究,究竟對他們有甚麼意義和價值呢?在一個很好的癌症登記的國家或地區,爬梳這種軟體提供的數據,其上下文或許很大的價值。在當前的全球癌症普遍流行,一些國家已沒有癌症登記或一個沒有充分涵蓋他們的人口的癌燈數據。如果我們可以找到「谷歌搜尋趨勢」和「良好的腫瘤數據區」相關的網路使用者所共創的數據,我們當然也能夠在數據貧乏的地區使用這些數據來直接研究,合理地分配醫療資源,進行公共衛生目標的評估。換句話說,大數據不是搞電腦的人玩的電動玩具。它必須對人類,尤其對上不了網的低社經地位的人群有所貢獻,數據科技才能為人類帶來福址。
有價值的全球腫瘤學共享數據庫
「谷歌搜尋趨勢」令人激賞的是它可以很容易地讓使用者自由進出他的專有數據。其他網路平台公司也有公開數據,如Twitter,也被廣泛用於醫學研究,但谷歌特別具有下載即時數據及友好的界面。那也就是語網連的任何人使用者共享數據,而這在科學研究的平台上通常不是容易取得的資源。那些收集用戶數據的平台,應被特別鼓勵效仿谷歌的領先的優勢,而不是拿這些用戶數據去賣,專做商業用途,甚至做為政治工具就更等而下之了。
Kevin T Nead表示,「谷歌搜尋趨勢」是一個完美的研究工具?絕對不。那麼,它是有價值的全球腫瘤學共享數據庫嗎?絕對是。這些類型的數據可能不會更有效地做為對人類有譯的健康數據,未來我們期待他再使用者共創數據庫做更細緻的研究及工具的開發。當「谷歌趨勢」的好處大於他們的侷限。我們就可以用這些數據幫助做出有意義的全球腫瘤診斷、治療和預防工作。