首页 资讯频道 互联频道 智能频道 网络 数据频道 安全频道 服务器频道 存储频道

未来大数据研究:如何共享汇聚?

2020-03-24 13:23:59 来源 : 中国青年报

电影票房、交通流量、机票价格、啤酒销量……这些似乎通过大数据分析都可以预测,甚至蛋挞与飓风、啤酒与尿不湿的关系,数据工程师都能找出关联。

但是,新冠肺炎疫情的暴发让所有人都猝不及防,也没有预测、预警,大数据这次真的失灵了吗?

大数据如何发现问题

2009年H1N1暴发前的几周,谷歌的工程师在《自然》上发表了一篇论文,预测了冬季流感的传播,而且具体到了美国特定的地区和州。他们是通过人们上网搜索的记录来完成这个预测的,总共处理了4.5亿个不同的数字模型,他们的预测与美国疾控中心官方数据相关性高达97%。这是大数据变革公共卫生领域的一个经典案例。

“通过大数据发现问题,是基于用户在网上有足够多的信息交流。”中国计算机学会(CCF)大数据专家委会主任、中国人民大学教授杜小勇解释,网上某个信息突然在短时间内爆发,被技术人员捕捉到要满足两个条件:足够多的内容,短时间内快速增长。

他强调,能够捕捉到的应该是从公开信息中获得的数据,有些在社交媒体上点对点的信息是个人隐私,无法获得。这次疫情无法获得前期数据,就有这方面的原因。而受到人为干扰时,研究人员也无法获得真实数据。

研究者的实践

疫情暴发后,湖北各地医院的防护物资一度告急,同时各地筹集来的物资也急需运到武汉。

供需双方信息不畅带来了问题。武汉大学大数据与云计算实验室主任崔晓晖教授发现了问题。一方面想直接捐赠的人不知道对方的联系方式;另一方面是有物资,但不知道该捐给谁。由此,“全国抗击新冠肺炎防护物资信息交流平台-珞樱善联”应运而生。

“这个平台是基于我主持的‘食品安全大数据关键技术’国家重点研发计划的一些设想和成果。在食品安全监管解决方案里希望采用众包或者叫‘多方共治’的思路。”当时,崔晓晖注意到战“疫”初期,物资由一家机构统筹出现了很多问题,社会舆论意见很大,而搭建的平台起到了信息提供者的角色。平台的志愿者团队帮着供需双方对接,并帮助将物资运送到医院。“我们已为40多家捐赠单位对接运送捐赠物资到133家医院。”崔晓晖说,在开发和运行过程中,平台运行获得了阿里云、众享比特等企业的支持,也得到了武大校友会的支持。

崔晓晖也注意到同行们的努力。在近期由CCF YOCSEF(中国计算机学会青年计算机科技论坛)山西和武汉分论坛共同举办的线上会议上,他介绍了同行的工作。1月29日,阿里云正式宣布,疫情期间向全球公共科研机构免费开放一切AI算力,助力新型肺炎新药和疫苗研发;微医、阿里健康、好大夫在线、企鹅杏仁、医联、丁香医生等一批互联网企业在线上构建了另一条疫情“虚拟前线”,免费提供在线义诊服务;很多志愿者团队开发了一批疫情防控信息、医疗防疫管理、人员登记跟踪、病情扩散预测、疫情防护物资交流、疫情大数据可视化分析平台、病毒基因分析等类型的大数据相关公益项目,例如“wuhan2020”新型冠状病毒防疫信息收集平台、feiyan新型肺炎疫情最新动态……

数据如何共享汇聚

“总体来说,在疫情前期大数据没有发挥应有的作用。在抗击疫情过程中,特别是开始时,很多大数据研究者开发者都行动起来了,但还是有些混乱。”杜小勇认为,这是因为没有应急物资调配对接数据平台。“简单来说,大数据对严重灾难的发现、防控救治是可以发挥巨大作用的。但这次,与我们想象中有差距。让大数据发挥作用,需要大量基础性工作,还需要法律法规保障,在个人隐私和公众利益之间作出平衡。”杜小勇认为,偶发事件出来后,如何把相关数据汇总,形成数据供应链,这是未来大数据研究和应用应该考虑的。

针对广州的疫情防控工作,广州市人大代表、数文明科技CEO涂子沛建议探索地方疫情大数据联动防控新模式,推动数据共享这个历史性难题的解决。

涂子沛认为,早期大数据没有起到作用,一个重要原因是在突发公共卫生事件应急预案和相关法律法规中,没有对卫生、交通、公安、通讯运营商等部门和机构的数据如何共享作出具体的规定,这导致了责任不明确,使得交通、通讯、医疗等疫情相关多源数据无法共享、汇聚。

另外,他认为,防疫、医疗一线也需要数据思维,数据收集不全面,会影响生物学家、医学专家对病毒机理、传播特征的判断。“我们的文化当中还是缺乏一种数据文化,需要强化科学精神。”

记者 李新玲

相关文章

最近更新