规避大数据的大问题
今年春天,《卫报》发布了前国家安全局承包商爱德华·斯诺登泄露的材料。令人震惊的是,美国政府一直在系统、秘密地收集、储存和寻找美国国内可能的恐怖主义计划模式电话和电子邮件在一个大规模的。
这种入侵是可能的,因为计算机可以物理地收集和分析过去难以想象的大数据集。我们将在下面讨论的大数据领域,可能会被证明对整个世界,尤其是对商业是一个福音。但是,与每一个测量概念一样,也有一些陷阱需要避免。
陷阱:为了什么而放弃为什么
大数据意味着收集大量的信息,然后用它来了解你的研究对象,而这些东西是你用少量的信息和不太复杂的分析方法无法发现的。
“这本书”大数据:一场将改变我们生活、工作和思维方式的革命“Kenneth Cukier和Viktor Mayer Schoenberger解释说,大数据从三个方面改变了我们对信息的看法:
1.使用所有可用数据,而不仅仅是样本集(“全部而非部分”)
2.数据通常不太规则(“凌乱而不干净”)
3.从因果关系转向相关性。简言之,大数据之所以重要,是因为它更容易做出更好的预测。
据GreenBiz报道,商界已经开始使用大数据获取更大的能源效率收益比以前更有可能。乔•马科威尔Joel Makower预计写道在这里这些收益是累积的,远远超出了工厂墙:“收集和分析所有这些数据将使公用事业公司和电网管理者——以及他们的客户——能够确保稳定可靠的能源供应,预测电价,并据此做出决策。这反过来将更好地管理现有发电厂,减少对新发电厂的需求,并减少总体排放。”
Cukier和Mayer Schoenberger提供了几个有趣的例子,说明了大数据的预测能力,例如UPS让其卡车车队在违反直觉的维护日历中运行,以及在社交领域,先发制人地发现早产儿中威胁生命的疾病。
但在寻找什么(将要发生什么?)的过程中,作者指出了忘记寻找原因(为什么会发生这种结果?)的危险。
有时你不需要问为什么,只需要问什么。关键在于知道什么时候找到根本原因是必要的,如果你不知道,那么风险是什么。作为一个为什么的例子,“为什么?”很重要,但我们注意到,今天美国各地的气候变化对话(如果有的话)都集中在“什么”上选择停留在有限的结果和明显的保护措施的“什么”中,意味着我们可以继续在这条路上讨论更棘手的缓解气候变化的“为什么”。
陷阱:不恰当地与因果关系挂钩
作者还警告说,大数据在预测结果方面的巨大潜力为模糊相关性和因果关系这一常见的行为陷阱创造了成熟的条件。作者们说,这种思维方式的转变“意味着从总是试图理解世界如何运转背后的深层原因,转变为简单地了解现象之间的关联,并利用这种关联来完成事情。”。
谷歌就是一个例子研究流感爆发通过分析关键字搜索。虽然在某个特定时刻看到更多的人在考虑流感是非常有价值的,但认为在谷歌搜索“最近的药店”的每个人目前都生病是错误的。正如许多教授经常告诉我们的那样,相关性不是因果关系。
现在,相关性并不是一件坏事。可持续商业度量的实践者,也许不知道,对它非常熟悉,也许对其固有的局限性感到满意。而且,令人惊讶的是,相关性的声誉最近升级了尽管相关性可能无法推断因果关系,但这是一个开始寻找因果关系的好地方。
这就是说,重要的是要记住,在你的交流中,即使我们在寻找相关性方面做得更好,那些专家也要说些什么。如果你真的需要知道因果因素,最好咨询社会科学家。
陷阱:当苍蝇拍足够时使用大锤
大数据面临的一个相关问题是将其应用于任何情况。《纽约时报》的一篇文章叫做“大城市中大数据的局限性”描述了简单、低技术、吸引人的解决方案(如电子邮件链)优于大数据的实例。简单地问一个社区它想要什么可能胜过计算机预测结果的能力。
同样,有一种奇怪的讽刺,人力资源部门使用大数据进行招聘和雇用决策。本文介绍大数据是如何被用来寻找专业的高科技工作者的,这是众所周知的大海捞针。在搜寻过程中丢失的是无法测量的东西(或者至少还没有),比如直觉:“当你把人从复杂的决策中排除出来时,你可以优化算法,但代价是什么?”
有时候,没有什么可以替代老式的、全面的简历翻阅来寻找黄金。一些效率低下的问题可能值得坚持下去。
陷阱:当政府(或其他任何人)走得太远时
回到斯诺登的披露,甚至更早的担忧,Cukier和Mayer Schoenberger说,“另一个担忧是,当政府过于信任数据的力量时,会发生什么。”从“老大哥”的角度,人们对民主国家隐私和保护之间的适当平衡感到非常困惑。这种平衡现在正在改变吗?监测友好国家的通讯是否可以接受?我们中的许多人现在都在就所有这些问题以及我们社会面临的非常困难的决定进行公开辩论。这些问题对于未来民主的意义至关重要。正如Cukier和Mayer Schoenberger所写:
在他1999年的书中,像一个国家,人类学家詹姆斯·斯科特(James Scott)记录了政府在热衷于量化和数据收集的过程中,有时最终导致人民生活悲惨的方式。他们使用地图来决定如何重新组织社区,而不首先了解居住在那里的人的任何情况。他们采用所有不完美的、有机的方式,让人们随着时间的推移进行互动,并让他们满足自己的需求,有时只是为了满足对可量化秩序的渴望。
我们需要学习如何更好地处理机会、紧张局势和复杂性在我们的个人、职业和公民生活中,由大数据构成。并制定基本规则。
商业世界有着明显的相似之处,大数据不可避免地会(在某种程度上,已经)在华盛顿出现许多同样的隐私和公平问题。这甚至比即将到来的私人无人机时代还要早,这可能会带来新的隐私问题。
什么样的客户信息才是公平的游戏?数据挖掘的披露应达到何种程度?隐私和许多社会规范现在几乎完全消失了吗?这是一个可以接受的价格吗?可持续性给这个问题带来了什么?即使必须容忍某些低效,是否有可能找到公平和合乎道德的创造性战略解决方案?竞彩足球app怎么下载
结论:不要被大数据阻挡
许多人对大数据非常感兴趣。也许他们是对的。像许多早期的陷阱一样,但在这里更是如此,这种对数字的超级使用是否会阻止我们看到一些东西?随着大数据让森林变得更容易理解(无论是隐喻还是字面上),我们会错过更多的树木教训吗?
对数据、技术和效率的日益重视不会使人们更容易忽视仍然普遍被低估的可持续性的社会和公平方面。但也许,如果隐私和其他上述对大数据的担忧具有远见、创造力和增强的公平感,我们可能会发现它们实际上帮助我们走向可持续发展,让我们当中的怀疑者感到惊讶。竞彩足球app怎么下载
然后我们可能会避免早期突破性技术的共同命运:向前一步,然后后退半步——至少是这样。
编者按:这是一个由多个部分组成的系列文章的第七篇,该系列文章在借鉴商业世界以外的经验教训的同时,探讨了可持续性度量的陷阱。有关其他上下文,请参见竞彩足球app怎么下载第一部分,第二部分,第三部分,第四部分,第五部分和第六部分.
按图像绘制图表压滤通过Shutterstock