弗林特的惨败需要强有力的数据分析
密歇根州弗林特市的水危机突出了一系列严重的问题:公共卫生的爆发;城市基础设施不足;环境不公;和政治上的失败。但在恢复方面,我们面临的主要挑战是缺乏有用的信息和理解,而这一挑战受到的关注相对较少。
谁的风险最大?铅的有害来源在哪里?资源应该分配到哪里?利用现代的大数据工具,我们可以回答这些问题,并帮助为应对这场危机提供信息。
在我们的支持下密歇根大学的学生团队我们收集了大量关于弗林特用水问题的可用数据,包括水测试结果、向家庭供水的服务线路记录、地块和用水信息。
借助新的算法和统计工具,我们能够对Flint的风险和挑战产生一个更完整的画面。
这些方法与Facebook、亚马逊(Amazon)和其他大型科技公司收集大量用户数据的方法非常相似。但是Facebook的面孔识别算法危机通过上传照片和亚马逊的模型预测哪些产品你会喜欢,我们使用这些分析工具来检测房屋高铅污染的风险和预测的位置导致管道埋在地下或隐藏在居民的住所。
我们学到了什么?以下是我们从研究中得出的一些结论。
不同家庭的铅污染差异很大,在弗林特附近高度分散,但它是惊人的可预测的
关于弗林特的新闻标题很容易让人相信这个城市的所有家庭都有危险的高铅含量。但事实上,用州的数据哨兵程序我们发现,在2月份的一段时间里,只有8%到15%的家庭的铅含量高于联邦标准的15 ppm。
事实上,根据sentinel项目的测试数据,从1月到8月,情况一直在改善。根据对大约750个家庭的反复监测,越来越少的家庭的测试超过了行动水平。几乎一半的样本几乎没有可检测的水平(低于十亿分之一)。
当我们不知道哪些房屋面临风险时,这些低数字并不能给我们带来多少安慰。根据政府数据,弗林特只有大约30%的家庭进行过水测试,而这些测试并不能保证安全;它们只识别危险。此外,从数据中可以清楚地看出,那些对水采样速度较慢的家庭往往面临更大的风险。
我们能找到这些房子吗?在一定程度上,答案是肯定的。我们已经建立了基于几个属性(建筑年份、位置、价值、大小)来描述房屋的统计模型,并提供了风险级别的估计。
这些模型的质量取决于居民提交的大量水样数据,以及政府官员为应对危机而进行的检测。这为我们提供了一个测量数据数据库,其中包括从去年11月到现在覆盖弗林特大约1万个家庭的超过20,000个水样。
我们已经向政府官员提供了我们的风险评估,并且正在被整合到一个移动应用程序中,由谷歌它是由UM Flint的学生建造的,让Flint的居民了解他们家的风险水平。
这些统计模型不仅提供预测;它们还能更好地理解问题。这有更广泛的影响,因为这些预测铅的因素可能超出弗林特的范围。
数据表明,铅污染与许多因素有关;例如,老房子往往风险更大,那些房屋价值较低的房子也是如此。价值较低的房屋往往是那些水样采样率最低的房屋。此外,虽然最高的读数在地理上是分散的,但预计处于高风险的家庭往往集中在特定的社区。
Flint的铅管记录是不稳定的和嘈杂的,但统计方法可以显著地填补空白
媒体报道和政治努力继续集中在所谓的“供水服务线路”上,这些线路将每家每户连接到街道上的配水系统。假设有铅服务线的家庭最容易接触铅和中毒。因此,大部分注意力都集中在寻找和替换这些线条上。
密歇根州立法机构已经拨款2500万美元用于替换有害的线路,首先是a试点阶段约250户。这项工作是由一个小组领导的国民警卫队准将迈克尔·麦克丹尼尔。
然而,问题不仅存在于铅材料制成的管线上:铅颗粒可能会积聚在腐蚀的镀锌钢管的内壁上。另一方面,铜或塑料制成的管道通常被认为是安全的。
但线路替换计划面临着迫在眉睫的挑战。最明显的是:这些危险的管道在哪里?
不幸的是,该市在服务线路安装和材料方面没有保持一致的记录。但经过一番搜寻,市政府官员最终找到了一套有手写注释的地图(最后一次更新是在1984年)由Marty Kaufman教授领导的UM Flint研究小组。这些似乎可以确定弗林特大多数家庭包裹的服务线的材料。
这些记录有多完整和准确?不幸的是,不是很。对于超过30%的家庭来说,要么是标签缺失,要么是记录与部分服务线路的家庭检查不符。
在算法和数据的帮助下,我们可以再次填补空白。在现有记录中寻找模式,统计工具可以提供一个合理的“有根据的猜测”的材料类型在一个家庭的服务线。我们一直在与麦克丹尼尔的生产线更换团队直接合作,提供铅管最有可能被发现的统计估计,这指导了他们的更换资源的目标。
我们的建议是适应输入的数据,使用在线广告试验或临床试验中应用的技术,快速有效地识别出有风险的房屋。
我们的机器学习技术使用了所有可用的城市数据、包裹记录和一个超过3000份检查报告的数据库,能够以超过80%的准确率来估计生产线材料。例如,我们发现,20世纪20年代到40年代建造的房屋比60年代以后建造的房屋更有可能成为龙头。无论如何,我们的猜测并不完美,但估计这个水平可以节省数百万美元的恢复工作。
家庭服务热线可能不是铅的最大贡献者
尽管媒体的大量关注集中在服务线路上,但我们的分析得出的一个主要结论是,这些服务线路可能不是弗林特饮用水中铅的主要驱动因素。是的,这是事实,那些使用铜服务线路的家庭,平均来说,比那些在他们的服务线路中使用铅的家庭有更低的铅含量。但当你仔细观察水测试数据时,你会发现差异比你想象的要小得多。
虽然由于记录上的斑点,很难确定,但我们发现,在有和没有铅维修线路的家庭中,都会出现较大的铅峰值。这表明,很大一部分危险的高铅含量读数可能不是由管线材料驱动的,而是由其他因素驱动的。研究这些问题的环境工程师报告说,铅可以从几个来源渗出,包括家庭内部的管道,水龙头装置和老化的管道焊料。
我们可以得出的结论是,公民和决策者可能需要将他们的关注范围扩大到服务线材料之外,并考虑采取替代措施来解决其他铅来源的问题。更换维修线当然是解决方案的一个必要部分,但还不够。
为了解决更广泛的问题,数据和统计工具可以帮助大大降低风险,以更低的成本,并以数据为导向的理解问题在弗林特可以指导努力解决其他地区的担忧最为严重也
这个故事首次出现在: