跳过主要内容

弗林特的惨败需要强有力的数据分析

密歇根州弗林特市的水危机凸显了一系列严重问题:公共卫生爆发;城市基础设施不足;环境不公;和政治上的失败。但在恢复方面,我们面临的主要挑战是缺乏有用的信息和理解,这也是一个受到相对较少关注的挑战。

谁的风险最大?铅的有害来源在哪里?资源应该分配到哪里?利用现代的大数据工具,我们可以回答这些问题,并帮助为应对这场危机提供信息。

在我们的支持下密歇根大学的学生团队,我们收集了弗林特市供水问题的大量可用数据,包括供水测试结果、向家庭供水的服务线路记录、地块和用水情况的信息。

利用新的算法和统计工具,我们能够对弗林特的风险和挑战产生更全面的了解。

这些方法与Facebook、亚马逊(Amazon)等从用户那里收集大量数据的大型科技公司使用的方法非常相似。但是Facebook的面孔识别算法危机通过上传照片和亚马逊的模型预测哪些产品你会喜欢,我们使用这些分析工具来检测房屋高铅污染的风险和预测的位置导致管道埋在地下或隐藏在居民的住所。

我们学到了什么?以下是我们的研究得出的一些结论。

铅污染在不同家庭之间差别很大,而且在弗林特附近高度分散,但它的可预测性令人惊讶

关于弗林特的头条新闻很容易让人相信这座城市的所有家庭都有高水平的铅。但事实上,利用州的数据哨兵程序在美国,我们发现在2月份的一段时间里,只有8%到15%的家庭的铅含量高于联邦行动标准十亿分之十五(ppb)。

事实上,根据哨兵计划的测试数据,从1月到8月,情况一直在改善。根据对大约750个家庭的反复监测,随着时间的推移,很少有家庭测试高于行动水平。几乎一半的样本几乎没有可检测的水平(低于十亿分之一)。

当我们不知道哪些家庭面临风险时,这些低数字并不能给我们带来多少安慰。根据政府的数据,弗林特只有大约30%的家庭接受了水测试,这些水测试并不能保证安全;它们只识别危险。此外,从数据中可以清楚地看出,对水取样较慢的家庭往往面临更大的风险。

我们能找到这些房子吗?在一定程度上,答案是肯定的。我们建立了统计模型,根据几个属性(建造年、位置、价值、大小)描述房屋,并提供了风险级别的估计。

这些模型的质量是由居民提交的大量水样数据和政府官员为应对危机而进行的测试决定的。这为我们提供了一个测量数据库,其中包括从去年11月到现在弗林特大约10,000个家庭的20,000多个水样。

我们已经向政府官员提供了我们的风险评估,并被整合到一个移动应用程序中,由谷歌它是由弗林特大学的学生建造的,可以让弗林特居民了解他们家的风险级别。

较年轻的房产的铅含量较低,平均水平和基于第90百分位数(蓝线)。有8%的测试高于联邦行动标准15 ppb(红色点),还有一些远远高于150 ppb甚至1000 ppb。最高0.5%的样本没有显示出来。

这些统计模型不仅提供预测;他们也能更好地理解问题。这有更广泛的含义,因为这些预测铅的因素可能会在弗林特之外推广。

数据表明,铅污染与许多因素有关;例如,较老的房屋往往面临更大的风险,那些较低的房屋价值也是如此。价值较低的房屋也往往是那些水样取样率最低的房屋。此外,尽管最高的读数分布在不同的地理位置,但预计高风险的住宅往往集中在特定的社区。

弗林特的铅管记录参差不齐且充满噪声,但统计方法可以显著地填补这一空白

媒体报道和政治努力继续集中在所谓的“供水管道”上,这些管道将每家每户与街道上的分配系统连接起来。假设有铅服务线路的家庭最容易接触铅和中毒。因此,人们的注意力主要集中在定位和更换这些线路上。

密歇根州立法机构已经拨款超过2500万美元来取代有害的界限,首先是一个试点阶段大约有250个家庭.这项工作由一个团队领导国民警卫队准将迈克尔·麦克丹尼尔

然而,问题不仅仅是由铅材料制成的管道:铅颗粒会积聚在腐蚀的镀锌钢管的墙壁上。另一方面,铜管或塑料管通常被认为是安全的。

但生产线更换计划面临着直接的挑战。最明显的问题是:这些危险的管道在哪里?

不幸的是,该市没有对服务线路的安装和材料保持一致的记录。但是,经过一番搜寻,市政府官员最终找到了一套带有手写注释的地图(最近一次更新是在1984年),这些记录是由一个弗林特大学的研究小组由马蒂·考夫曼教授领导.这些似乎确定了弗林特大多数家庭包裹的服务线的材料。

这些记录有多完整和准确?不幸的是,不是很。超过30%的家庭,要么是缺少标签,要么是记录与部分服务线路的家庭检查不一致。

我们可以在算法和数据的帮助下再次填补空白。在现有记录中寻找模式,统计工具可以提供一个合理的“有根据的猜测”,以确定一个家庭的服务线路的材料类型。我们一直与麦克丹尼尔的生产线更换团队直接合作,提供最可能发现铅管的统计估计,这指导了他们的更换资源目标。

我们的建议是适应传入的数据,使用应用于在线广告实验或临床试验的技术,快速有效地识别有风险的房屋。

我们的机器学习技术使用了所有可用的城市数据、包裹记录和3000多份检查报告的数据库,能够以超过80%的准确率估计线路材料。例如,我们发现,20世纪20年代到40年代建造的房屋,其使用铅的可能性是1960年以后建造的房屋的许多倍。无论如何,我们的猜测并不完美,但估计这个水平可以节省数百万美元的恢复工作。

家庭服务线路可能不是铅的最大贡献者

尽管媒体的注意力都集中在服务线路上,但我们的分析得出的一个主要结论是,这些服务线路可能不是弗林特饮用水中铅的主要驱动因素。是的,确实是这样,那些使用铜服务线路的家庭的平均铅含量比那些使用铅服务线路的家庭的低。但当你仔细观察水质测试数据时,差异可能比你想象的要小得多。

虽然由于记录参差不齐,很难确定,但我们发现,有或没有铅服务线路的家庭中,铅含量都出现了大幅峰值。这表明很大一部分危险的高铅读数可能不是由服务线材料驱动的,而是由其他因素驱动的。研究这些问题的环境工程师报告铅可以从几个来源中浸出,包括家庭内部的管道,水龙头装置和老化的管道焊料。

根据记录和家庭检查,我们可以查看那些只使用铜的服务线路的家庭和那些含有铅的家庭。我们绘制了来自这两个家庭类别的水样的铅读数分布。

我们可以得出的结论是,公民和决策者可能都需要将他们的关注范围扩大到服务线材料之外,并考虑采取其他措施来解决铅的其他来源。更换服务线路当然是解决方案中必要的一部分,但这还不够。

为了解决更广泛的问题,数据和统计工具可以帮助以更低的成本大大降低风险,而对Flint中问题的面向数据的理解可以指导解决工作领导其他地区的关注

这个故事最初出现在:

谈话

关于这个主题的更多信息