資訊科技

推特敞開推文巨量資料寶庫

數十億筆推文將是珍貴的研究資料,但也引發研究倫理的爭議。

撰文/穆易爾(Melinda Wenner Moyer)
翻譯/周坤毅

資訊科技

推特敞開推文巨量資料寶庫

數十億筆推文將是珍貴的研究資料,但也引發研究倫理的爭議。

撰文/穆易爾(Melinda Wenner Moyer)
翻譯/周坤毅

全世界每天約有五億筆「推文」發佈在社群網站推特(Twitter)上,透露了人類生活的點點滴滴。對科學家來說,這個社群網站有如巨量資料的寶庫,不僅能用於研究人類行為模式、找出影響健康的風險因子,還能追蹤傳染病散播。例如藉由分析懷孕婦女推文中的情感線索,微軟(Microsoft)的研究人員發展出一套程式,能預測產後憂鬱症的高危險群;美國地質調查所也利用地震後人們的推文來快速找出地震發生的地點。

截至目前為止,多數科學家能研究的推文數量有限。儘管大部份推文都是公開的,但科學家若想免費搜尋推文,仍只能透過推特公司的應用程式介面,而目前程式只能搜尋資料庫的1%。但情況即將改變:今年2月該公司宣佈,將把2006年以來所有的推文免費提供給研究人員。既然寶庫的大門敞開,利用推特的相關研究將如雨後春筍般湧現。藉由分析更多的巨量資料,科學家將能研究更複雜且更專門的問題。

這項宣佈固然讓人興奮,但也引發許多棘手的議題。推特公司是否將對研究成果保留法律權益?此外,許多人在推文時並未同意參與研究,使用推特做為研究工具是否符合研究倫理?

為了解答這些疑慮,今年2月美國維吉尼亞理工學院的計算流行病學家瑞佛斯(Caitlin Rivers)與路易斯(Bryan Lewis)發表了研究推特資料的倫理準則。他們建議科學家絕不能透露使用者帳號或公佈研究對象的資訊。儘管在公共場所蒐集資料符合倫理規範(推特也屬於公共場所),但未經同意便公佈單一使用者的個人資料,便是違反研究倫理。隨著針對推特的研究計畫激增,瑞佛斯與路易斯認為,科學家必須嚴肅看待並保護使用者的個人隱私。畢竟能力越大,責任也越大。

【欲閱讀更豐富內容,請參閱科學人2014年第149期7月號】