绘制全球疫情实时地图的中国留学生
美国约翰斯·霍普金斯大学的新冠肺炎疫情追踪地图,平均每日全球点击量高达10亿次。其核心团队是两位风华正茂的中国年轻人和他们的年轻女导师。董恩盛,30岁;杜鸿儒,25岁,都是去年秋天进入约翰斯·霍普金斯大学的在读一年级博士生
身为中国学子,董恩盛和杜鸿儒对新冠疫情的担忧和关注,早于大部分美国科学家。正是这样的专业敏感度和对疫情信息的敏感度叠加,使得他们较早意识到制作世界疫情地图的意义和价值
美东时间5月7日,美国约翰斯·霍普金斯大学的疫情追踪地图显示,全球新冠病毒感染确诊病例已超过375万,死亡病例超过26万;美国确诊病例超过122万,死亡病例超过7.3万。
地图底色黑沉,而疫情血红。一个个数字简单又抽象,每一刻钟更新一次,不断变大,大得让人茫然。它们又沉甸甸,刺痛眼睛。
新冠病毒带来的死亡已发生逾26万次,其中绝大多数是悄无声息的,孤独的。患者在临终病房里,见不到亲人,死后没有葬礼,生平事迹不会见诸报端。过于庞大的死亡数字,犹如黑洞,使死者失去名字和面孔。
然而,数字仍然是重要的。不仅对各国政府和公共卫生机构的决策者很重要,对制作风险评估和疫情走势预测模型、进行社会人口学分析及其他领域的研究者很重要,也对疫情阴影笼罩之下的所有人都是如此。
这张仍在不断丰富细化的疫情地图,平均每日全球点击量高达10亿次,最高日点击量达到45亿次。它是各国政府、研究人员和主流媒体引用最多的疫情数据来源。这张疫情地图,还带动了美国各州及世界多国政府或民间机构制作类似疫情图和提高数据精确度,从而提升了民众的知情权。
地图背后
不过,很多人最近才知道,这张火遍全球的疫情追踪地图的核心团队,是两位风华正茂的中国年轻人和他们的年轻导师。
董恩盛,30岁;杜鸿儒,25岁。他们都是去年秋天进入约翰斯·霍普金斯大学的在读一年级博士生。两人名字都很有儒家文化色彩。
他们的导师名叫劳伦·加德纳(Lauren Gardner),副教授,年仅35岁,学建筑出身。去年到约翰斯·霍普金斯大学任教前,她是澳大利亚新南威尔士大学(UNSW)悉尼分校土木工程专业的高级讲师,目前只带了这两名来自中国的学生。
他们所在院系,名叫土木和系统工程系,听上去似乎和传染病学、病毒学八竿子打不着。但没有什么真的只是突然发生。
董恩盛说,这是全球第一张实时更新的疫情世界地图,创意的正式产生,来自1月21日上午他和导师在图书馆喝咖啡——这是师生例行见面交流方式。两人都有同样的想法,“一拍即合”。
而在与导师见面前,他已着手搜集数据和进行准备工作,“一开始就是出于学术研究的目的,很单纯。”
当晚,董恩盛花了七八个小时输入数据、制作追踪图,一直干到凌晨三四点钟。经过审核修改等程序,导师于美东时间22日首次在社交媒体推特上发布了第一版疫情世界地图——恰赶上北京时间1月23日武汉宣布“封城”。
董恩盛说,最开始几乎没有现成模板可以套用,他不停地输入数据、坐标。当数据一一呈现在世界地图上,他渐渐意识到,就在全球范围内进行实时更新的流行病地图而言,这属于首创。
和导师喝杯咖啡,开上七八个小时夜车,就能启动一项世界首创,有这么轻松和简单吗?
美国总统选举时,政要们在为某名竞选人背书时,有句惯用套话,就是称赞此人“一生都在为此做准备”。董恩盛和杜鸿儒都很年轻,但就他们的学习和工作经历而言,还真可以套用这句话。
董恩盛说,他本科毕业于重庆西南大学地理系,2012年赴美国留学。获得硕士学位后,他曾先后在美国地方政府的IT及卫生部门、软件公司、电力公司、电信公司等实习和工作。
他接受过正规的地理和统计方面学术训练,目前研究领域包括网络科学、移动性建模、机器学习、空间分析和可视化及传染病的跨学科研究。新冠疫情暴发前,他就曾参与预测美国和太平洋岛屿国家和地区的麻疹风险及斯里兰卡的登革热疫情。
杜鸿儒也具有跨学科背景。他是天津大学化工学院2017届毕业生,曾就读于英国爱丁堡大学化工材料科学专业和美国威斯康星大学麦迪逊分校工业工程及运筹学专业。
他长于数学模型和路径优化,主要研究方向包括流行病大数据处理、通过网络优化和数学建模来研究和预测全球流行病的发展。他在2月1日加入疫情地图团队,数据自动更新代码就是他动手编写的。
他说,不妨把病毒传播设想成一种网络,州县都是网络节点,每个节点之间的人口流动构成连线。不管通过数学建模预测疫情趋势,还是进行人口社会学分析,系统科学角度都很重要。
身为中国学子,董恩盛和杜鸿儒对新冠疫情的担忧和关注,早于大部分美国科学家。正是这样的专业敏感度和对疫情信息的敏感度叠加,使得他们较早意识到制作世界疫情地图的意义和价值。而之前的学术训练与经验积累,也使他们在导师带领下,不仅可以有脑洞“想到”,也水到渠成地有能力“做到”。
但“做到”并不比“想到”更容易。从1月下旬到现在,为疫情地图的升级、完善和维护,并在疫情数据上展开相关研究,董恩盛和杜鸿儒付出了大量心血和劳动。
在手动输入阶段,他们每天都要工作大约10个小时。3月中旬向全自动数据更新转换时,每天工作量达到十五六个小时,导师也和他们一起工作到凌晨三四点钟。即便在团队扩大到大约50人、数据实现实时自动更新后,光是每天审核和修正数据工作,少则五六个小时,多则要十个小时。
魔鬼往往藏在细节里。4月13日,约翰斯·霍普金斯大学新冠疫情数据统计网站造了一起乌龙事件,错将全球确诊人数报至200万人以上,原因是将佛罗里达州实际病例数21019误填为123019,从而造成10万多例的误差。但不久后,他们又将数字回调至约190万。
在疫情地图维护中,核查数据以确保准确是重要一环。杜鸿儒介绍说,由于美国疾控中心数据滞后,他们主要依靠抓取美国地方媒体和各州卫生官员推特报告的数据,其他国家和地区的疫情则依据Worldometers等网站和当地媒体。由于更新时间早于官方数据,在电脑自动更新次日,团队就针对美国疫情数据与各州疾控中心数据核查,其他国家和地区数据则与世界卫生组织数据进行核查。
董恩盛说,为保证数据准确,他们还采取了四个措施,一是保留数据原始记录,每次更新都有回溯记录可查,二是总结时间序列表格,三是列出所有修正记录,四是组织人工核查。
值得一提的是,约翰斯·霍普金斯大学疫情世界地图背后,还活跃着更多中国年轻人的身影。
据董恩盛和杜鸿儒介绍,目前,运营团队约有50人,其中数据核实团队的志愿者,主要是各个院系的中国留学生。而中国方面提供的疫情数据,对国际研究的贡献更是不可磨灭。新冠疫情应对,对中国开展跨学科的国际传染病研究,加强全球公共卫生参与,提高政府部门和研究机构疫情数据可视化、国际化程度等,都提供了新的契机。
脱颖而出
在董恩盛和杜鸿儒看来,约翰斯·霍普金斯大学疫情地图脱颖而出,要归功于多方面因素,综合起来有以下八个主要原因:
一是动手早,在世界范围里先人一步,而与之后出现的其他疫情地图相比,数据更准确、更快;二是在流行病学方面比较专业,美国疫情精确到县级,对研究者和公众用处很大;三是在地图绘制方面表现出的专业性;四是数据公开透明,所有数据上传至GitHub,为全球所有政府决策部门和科研人员提供了开源数据;五是确保更新及时,用户参与度高,德、法、意等非英语语种国家的许多用户会主动向他们报告当地媒体报道的最新疫情,比等待官方审核渠道的确诊数字快得多;六是疫情地图的设计,黑色与红色对比度较高,构成视觉上的强烈冲击;七是约翰斯·霍普金斯大学在全球医学和公共卫生领域都享有很高声誉,使得疫情图从一开始,就具有普通大学难以单凭学校名声获得的权威性;八是从最初的导师推特到各国媒体的报道,产生了社交网络和媒体传播的滚雪球效应。
从日内瓦世界卫生组织总部,到纽约联合国总部和华盛顿白宫的疫情会,乃至《纽约时报》等美国主流媒体,也大都采用他们的统计。
不过,董恩盛特别指出,疫情地图和疫情数据并不能完整反映一个国家对抗疫情的能力。目前,国际社会缺乏全球性的疫情报告指导性文件,也没有统一的报告标准。各国、各地统计口径不一样,病毒检测水平不一样,各国民众对疫情的看法也不一样。
在欧洲和美国,同样存在不少数据统计上的混乱、缺失与重叠现象。比如,美国监狱系统分为联邦监狱和地方监狱,联邦监狱疫情是否计入了各州县统计不得而知,因涉犯人隐私和相关法律,多地也不愿公布监狱疫情。在州、县交界地区,出院或转院患者往往跨州,如何统计也是难题。此外,考虑到可能重复计算,美军疫情尚未统计在疫情图中。
在世界范围内,有时会出现“数据参考循环”,即相关网站的数据可能就来源于约翰斯·霍普金斯大学疫情地图,因而需要仔细甄别,不断提升直接获取数据的能力。
董恩盛认为,美国疫情虽然严重,但从科研和大数据创新角度看,不少做法值得借鉴。
比如,各种疫情预测模型分析层出不穷,相关研究可谓“八仙过海,各显神通”。不论面向学术界还是公众,这种数学模型分析是非政治化的,不管预测对错,都可以创造公共卫生对策的讨论空间,催生很多新观点、新对策。
追求多学科智力融合,“跨界”特色突出。在美国,本科就可以跨专业选课,像董恩盛这样拿到理学硕士而又攻读工学博士的例子,在美国并不鲜见。而要避免疫情图的单一呈现,恰恰需要地理、计算机和疾病传播等多方面的学术背景。
实际上,约翰斯·霍普金斯大学系统科学和工程中心是去年更名的,这一举措本身就突出了“跨界”色彩。董恩盛说,系统工程本身在美国就属于一个新领域,除疾病传播,还与公共卫生学院和美国医院系统开展了包括CT扫描、人工智能等多个项目的合作。
此外,在科研领域,不搞论资排辈,让有能力者能够相对顺利地脱颖而出。这对培育科研创新氛围也十分重要。董恩盛、杜鸿儒和他们的导师加德纳,都是去年进入约翰斯·霍普金斯大学的“新人”,年纪轻轻。他们推出的疫情地图,迅速得到从拨款、服务器维护、图书馆资源、运营团队建设等校方提供的多方面支持。
约翰斯·霍普金斯大学在全球公共卫生领域的声誉,固然给了他们优越的平台,但他们作为“新血”带来的锐气、活力与干劲,也反过来为学校品牌增添了含金量。
董恩盛和杜鸿儒都对导师加德纳副教授十分钦佩,称赞有加。据他们介绍,这位年轻女导师,经常凌晨两三点都在工作,审核和指导学生工作,处理错误反馈邮件,与有关各方进行协调,向政府和国会进行报告……虽然自己有很高的学术热情和专业敏锐度,加德纳并不抹煞学生的工作与贡献,为学生提供很多机会,并且注意帮助和保护学生。
更难能可贵的是,他们“很有原则”,坚持数据公开,拒绝将疫情地图商业化。一些美国一流大公司提供高额资金和优厚的合作条件,看似“共赢”,但团队依然婉拒,坚持公开共享,反对过度与商业挂钩。正是这样的原则性,使得约翰斯·霍普金斯大学疫情追踪地图获得了更广泛的公众影响力。
五月转眼已至。如今,约翰斯·霍普金斯大学疫情追踪地图已升级多个版本,数据分类更加丰富、详尽。在世界疫情地图中,不仅有超过180个国家和地区的确诊病例数排行,还有各国州、省确诊病例数量排行,除累计确诊病例数,还有尚未康复患者数、发病率、确诊病例中的死亡比率、检测率和住院率等重要数据。在美国疫情地图中,不仅有各州确诊病例数及人口占比和致死率等数据,还有美国确诊病例数最高的50个县排行和死亡病例数最高的20个县排行。
此外,还有专门版块分析一系列判断疫情传播态势的重要数据,包括美国各州疫情的族裔分布;按每10万人口计算的确诊病例数和死亡病例数的全球比较;全球10个疫情最重国家中,决定疫情曲线如何摊平的每日新增病例数据等……
杜鸿儒说,可靠的数据是研究和决策的基础。从约翰斯·霍普金斯大学疫情追踪地图获得的海量访问量,可以看到人们对可靠、客观信息的巨大需求。随着疫情地图影响力的扩大,他感到压力更大,在数据更新和核查时更谨慎。这是一次全球共同面对的重大公共卫生事件,疫情地图的意义超越了学术研究本身。
董恩盛说,疫情暴发以来,他一直埋头忙于更新数据和升级疫情地图,“都忘记生活是什么样子”。“对我来说,工作从来没有停过,越来越多,越来越重,有时突然抬起头一看,疫情就在身边,世界真是变化好快。”
疫情中的青春年华,相信对董恩盛和杜鸿儒都会刻骨铭心。疫情终将过去,世界变化的步伐不会放慢。祝福两位中国年轻人能够越走越远。