未來的醫療科技若只仰仗分子生物學家、腦神經科學家的努力,能說的故事有限,內容也不夠精彩,但若將資料科學家的意見納入,或許就能解開許多看似無解的醫學謎題,甚至還能促進醫療品質的提升。
Google 在 2008 年推出流感趨勢預測,藉由統計關鍵字的搜尋次數,就能預測全球各地的流感疫情發展,不僅資訊更即時,準確率甚至超過政府的預警系統,Google 以此首開大數據(Big data,又稱巨量資料)應用到醫療領域的創舉,不僅讓其他幾家搜尋引擎紛紛跟進,如中國互聯網巨頭百度(Baidu),近日宣布與中國疾病預防控制中心合作,利用大數據預測流感疫情,也打開資料分析者對於數據的想像力。
大數據競賽中,社群媒體的角色
除了搜尋引擎對於疫情的預測,社群媒體如 Twitter、FB 也逐漸在這場大數據競賽中找到自己的定位。加州大學洛杉磯分校(UCLA)以 Twitter 的訊息量、發信地點,來追蹤性病擴散率與毒品濫用的行為,他們蒐集 5 億 5000 萬條「推特文」,使用演算法篩檢出含有「性」、「快感」的字眼,並記錄發布內容的地區,最後用統計模型觀測這些區域是否有 HIV 新病例通報。結果發現兩者之間有很顯著的關係,當某地區的推文呈現很高的「性指數」,HIV 的新感染病例也高。
若將 Google 搜尋引擎與 Twitter 結合,還能精準看出一些社會風氣的變化。兩位美國經濟學家結合兩者資訊,發現當《16歲懷孕》和《小媽咪》兩部美國影集播放時,青少年懷孕生子數比例大幅降低。
原本看似無用的手機訊號,在大數據的浪潮下也找到著力點。2014 年中國春運高峰期,百度就利用手機用戶的位置訊號,進行人口流動的實況調查,讓全球最大規模的人口遷移得以最直觀的方式呈現,這種大數據和交通運輸產業結合的概念,激發許多數據分析師將此延伸應用到醫療領域中,而受益最多的當屬傳染病預防。
大數據與傳染病預防
談到 21 世紀最令人恐慌的傳染病,SARS 絕對榜上有名。SARS 在短時間從本土性傳染病搖身變為全球性傳染病,所憑藉的就是大量的人口移動與快捷的交通運輸。雖然在疫情蔓延時,網路上曾傳出不少疾病資訊,但中國政府為掩蓋真相,一律封殺相關討論,使得原本能因資訊的流通而達到預警效果,演變為各國防疫單位措手不及,最後引發全球性的恐慌。
(圖片來源:cfr)
從 SARS 的例子可以看到,若在當時的時空下,政府或民間機構能從搜尋引擎或人口流動來監測,疫情就不會來的又快又猛,讓人類毫無招架之力,而這樣的預警方式就算用在落後國家,也能起上一定的作用。
由英國、美國和納米比亞所共同合作的計畫,就是藉助手機用戶的訊號,來判斷霍亂疫情可能的熱點,並根據當地的疫情早一步設計出預防方式。研究人員蒐集 119 萬手機用戶資料(約占 52%的人口數),重建人口流動的狀況,接著結合各地霍亂疫情報告與地形氣候數據,預測可能的爆發地點,並儘早做準備。
一般醫療應用
在一般醫療領域,大數據的應用也能幫助醫師分析病歷資料、臨床實驗數據與醫療文獻,協助醫生決定每一位患者最佳的治療方法,不僅能減少醫療糾紛,更能減少用藥浪費的發生,並提升醫療效率,根據麥肯錫全球研究院(McKinsey Global Institute)調查,如果美國醫療產業能善用大數據分析,每年可以增加 3,000 億美元的產值。
但想要進行大數據分析,就必須有龐大、結構性、能數位化的數據資料庫。雖然醫療資料夠龐大,但資料屬性卻特別複雜,除了有一般結構性資料,還包括非結構性資料,如病歷、影像等,導致分析和處理時相對困難,再加上這些資料並非集中一處,握有資源的人往往將此視為機密資料,不願分享出去,使得醫療產業對於大數據的應用遠遠落後於其他產業。
雖然醫療資訊的統整仍然困難重重,但大數據的應用趨勢勢必將繼續發展下去,在未來的十年內,有越來越多的醫療工作將被數據分析取代,醫療產業不會像今天一樣,壁壘分明,保護主義濃厚,因為大數據的應用沒有侷限。
延伸閱讀
I value the practical examples you’ve included, which illustrate the real-world application of theoretical concepts.