癌战!Google可帮多少忙?

[最後编写日期:2018/07/31]

 (华健渊摄)

大数据不是搞电脑的人玩的电动玩具。它必须对人类,尤其对上不了网的低社经地位的人群有所贡献,数据科技才能带来人类的福址。……

文 / 郑春鸿主任 (文教部)

    你可以想像有一天没有google吗?实在不可思议对吧?因为你可能每天要google好几次,有时查资料;有时查地图,当然对年轻人说,每天逗留在「全世界最大的电视台」----YouTube的时间可能更多。

    Google搜寻趋势(Google Trends),以前称作Google搜寻解析(Google Insights for Search),它是Google开发的一款服务,用於分析用户在Google中搜寻过的条目。分析的结果会在世界地图上显示出对於条目的地区关注度差异。Google搜寻解析可以对数个不同的条目的搜寻行为进行比较,也可以针对一个条目在不同的地区和时间上的搜寻行为进行比较。Google搜寻解析还提供一些条目未来的搜寻搜寻趋势预测。Google搜寻解析现在还提供一项新功能,向用户提供条目搜寻分析的HTML代码,这样用户就可以在自己的web页面中嵌入条目的搜寻分析结果。

医学期刊普遍使用Google Trends

    当你进入到「谷歌搜寻趋势」(Google Trends),你可能会被吸引,而花无数的时间探索任何谷歌的热门关键字。从美国总统川普到囊性纤维化,在全世界查到不同城市生活水平;你可以设定你的搜寻的时间范围,从过去十年到过去一小时,也就是说,你可以在设定时间和地理位置,去查找你搜索次数,来与谷歌搜索的总数相比。「谷歌搜寻趋势」已在数以百计的经同行评审的医学刊物被使用。最显着的例子是追踪和预测传染病的爆发,比如流感。在肿瘤学方面,谷歌趋势的数据已被用来评估癌症筛检互联网在癌症的发病率和死亡率的最新数据,以及癌症的危险因素的搜索,和它在时间趋势和利益之间的关系。

使用者共创 (user-created)的公开数据有其局限性

   「谷歌搜寻趋势」和相关软件是相当新颖的,他们的最佳功能仍然正在不断地被开发。最近一期的柳叶刀肿瘤学(Lancet Oncology)的一篇「Google可以帮我们跟癌症打仗吗?」文章中,作者Kevin T Nead指出,不过,当我们严肃地讨论谷歌趋势这些由用户共创的(user-created),公开的数据时,关键是要首先考虑其局限性。最重要的问题是,我们必须预想到一般人网路搜索习惯,你被连结到是一个实际的「健康状况」描述,抑或只是一个反射的网路「行为」。搜索「脚踝扭伤」的网路使用者,他是想得到一个医学的答案呢?或者他们只是对「脚踝扭伤」感兴趣而去搜寻的呢?不同动机行为者去搜寻某一个特定的关键字,将影响未来的搜寻者在google上所搜寻的相同关键字看到的条目。换句话说,大众对某个关键字词关心的向度,影响後来要搜寻同样字词的人所搜寻的答案。所以,你在google上搜寻到的,经常不是自己要找的条目,或搜寻到的资讯所叙述的和你需要的旨趣不同。

频繁上网者往往年轻及社经地位高的人

    另一个使用「谷歌搜寻趋势」的局限性是它的使用者往往是年轻人、具有较高的社会经济地位,以及那些拥有上网工具及环境,并且经常上网的入。此外,由於「谷歌趋势」的数据是相对於谷歌搜索的「总量」,它的分母仍然是上网人口,而不是整个人口。另外,不同族群的人口其的搜索习惯也不同,搜寻到的条目,也会因新闻报导、宣传月,或社交媒体文章正好尖峰出现而受到影响。

关键字的拼写和措词也会影响搜寻结果

    最後,我们必须正视你打进去的关键字的拼写和措词也会影响你搜寻的结果。例如,在「谷歌搜寻趋势」搜寻NK / T细胞淋巴瘤(NK/T cell lymphoma)可能是一个挑战。有多少病人正在搜索「NK / T细胞淋巴瘤」;有多少人只键入搜索「T细胞淋巴瘤」,又有多少只搜索「淋巴瘤」呢?尽管谷歌有拼字上的建议功能,但甚至有专家甚至不能正确拼写「神经母细胞」(esthesioneuroblastoma)。

「谷歌趋势」提供的数据有甚麽「价值」呢?

    从「谷歌搜寻趋势」的数据上发现,美国五种常见的诊断癌症(结肠癌,肺癌,淋巴瘤,黑色素瘤和甲状腺癌)在谷歌搜索频率最高;在癌症死亡率的搜寻频率上,在前列这五个癌症中,又以结肠癌,肺癌,淋巴瘤和黑素瘤四个最高。美国有优秀的癌症登记。但是「谷歌趋势」提供的数据有甚麽「价值」呢?尤其,对於美国以外的国家或地区,这些在谷歌搜索频率最高的癌症,其发病率和死亡率的研究,究竟对他们有甚麽意义和价值呢?在一个很好的癌症登记的国家或地区,爬梳这种软体提供的数据,其上下文或许很大的价值。在当前的全球癌症普遍流行,一些国家已没有癌症登记或一个没有充分涵盖他们的人口的癌灯数据。如果我们可以找到「谷歌搜寻趋势」和「良好的肿瘤数据区」相关的网路使用者所共创的数据,我们当然也能够在数据贫乏的地区使用这些数据来直接研究,合理地分配医疗资源,进行公共卫生目标的评估。换句话说,大数据不是搞电脑的人玩的电动玩具。它必须对人类,尤其对上不了网的低社经地位的人群有所贡献,数据科技才能为人类带来福址。

有价值的全球肿瘤学共享数据库

  「谷歌搜寻趋势」令人激赏的是它可以很容易地让使用者自由进出他的专有数据。其他网路平台公司也有公开数据,如Twitter,也被广泛用於医学研究,但谷歌特别具有下载即时数据及友好的界面。那也就是语网连的任何人使用者共享数据,而这在科学研究的平台上通常不是容易取得的资源。那些收集用户数据的平台,应被特别鼓励效仿谷歌的领先的优势,而不是拿这些用户数据去卖,专做商业用途,甚至做为政治工具就更等而下之了。

    Kevin T Nead表示,「谷歌搜寻趋势」是一个完美的研究工具?绝对不。那麽,它是有价值的全球肿瘤学共享数据库吗?绝对是。这些类型的数据可能不会更有效地做为对人类有译的健康数据,未来我们期待他再使用者共创数据库做更细致的研究及工具的开发。当「谷歌趋势」的好处大於他们的局限。我们就可以用这些数据帮助做出有意义的全球肿瘤诊断、治疗和预防工作。
 

TOP
Copyright © 医疗财团法人辜公亮基金会和信治癌中心医院 台湾 台北市北投区立德路125号 电话:(02) 2897-0011 / (02) 6603-0011