编者按:本文来自微信公众号“伯凡时间”(ID:bofanstime),作者吴伯凡;36氪经授权发布。 欧盟司法和消费者委员会曾经推出过一个视频,视频里有三位主人公,一位是办公室女职员,她正在网上预订机票;一位是在机场候机大厅玩社交网站打发时间的年轻小伙子,他正要发布一张自己前天在某处party的照片,还有一位是在家中也许是给自己的孩子购买玩具的父亲,他正在购买页面中加入姓名银行卡家庭住址等信息……  下一幕画面是:这三位人士同时按下回车键,而他们的衣服也自动从身上脱落,女士赤条条坐在办公室的格子间里,小伙子在空旷的候机大厅里全身赤裸,那位父亲则光不溜秋地坐在自家沙发上,他们三人对此浑然不觉,继续做着接下来要做的事情,工作、见亲人朋友等等。 视频结尾打出两行字:Online you reveal more than you think. Take control of your personal data——这条有点黑色幽默的视频希望提醒人们,很多时候,我们都是这样在网上“裸奔”,你的数据早已经泄露了你的一切。  这条广告用充满视觉冲击力的真实裸体,让我们感觉到了暴露身份信息的可怕,不过看完之后,除了会心一笑,大多数人也还是该干嘛就干嘛,为了获得网络提供的便利性,在网上“裸奔”似乎早已成了人们愿意为之付出的代价了。 我们已经生活在大数据时代。在2017年重读发行于2013年的《大数据时代----生活、工作与思维的大变革》,可能我们依然会折服于它的诸多“先见之明”。这本书的作者有两位,一位是《经济学人》杂志的数据编辑,大数据领域最受尊敬的发言人之一肯尼思·库克耶,另一位是维克托·迈尔-舍恩伯格,他是牛津大学网络学院互联网研究所治理与监管专业教授,被誉为“大数据时代的预言家”,他不仅为全球顶级企业提供咨询,也是政府智囊,参与制定欧盟的互联网官方政策。 这本书首先开宗明义,提出大数据思维是指一种意识,认为公开数据一旦处理得当,就能为千百万人急需解决的问题提供答案。比如说,通过对Google关键词搜索的及时分析,我们可以通过某地增多的“头痛、发热”搜索关键语,预测下一轮禽流感的出现。比如,我们如果能及时地监控手机数据,几年前发生新年踩踏事故的上海警察们也许可以早一点获得警示,在可能出事的地方提前布置警力。 大数据让网络数据服务更精准于迎和用户的喜好,不论是爱读的新闻,爱读的书,爱看的电视连续剧,还是你可能会喜欢的旅游目的地,大数据都能帮你一连串儿地接龙下去。 大数据发展的核心动力来源于人类测量、记录和分析世界的渴望,人们一直以为,信息技术的变革重点在“T”(技术,technology)上,而不是在“I”(信息,information)上,而大数据思维者认为,是时候把聚光灯打向“I”,开始关注信息本身。 他们坚信,一切皆可“量化”:当文字变成数据,当方位变成数据,当沟通变成数据,当世间万物数据化,我们便可以通过数据的再利用、重组数据、可扩展数据、数据的折旧值、数据废气、开放数据等作为进行“取之不尽,用之不竭”的数据创新。 2 在我们现在这个时代,大量信息被廉价地捕捉和记录,数据经常会得到被动地收集,人们无须投入太多精力甚至不需要认识这些数据。大部分数据的直接价值对收集者是显而易见的,亚马逊记录下客户购买的书藉和他们浏览过的页面,便可以利用这些数据来为客户提供个性化的建议。Facebook跟踪用户的“状态更新”和“喜好”,以确定最佳的广告位从而赚取收入----这就是数据的再利用。 重组数据指将两个或多个数据源以一种新颖的方法结合起来,比如将某个房地产网站信息和价格添加在社区地图上,同时聚合大量信息,如社区近期交易和物业规格,以此来预测区域内具体每套信宅的价值。促成数据再利用的方法之一,就是从一开始就设计好它的可扩展性。  比如,有些零售商在店内安装了监控摄像头,这样不仅能认出商店扒手,还能跟踪在商店里购物的客户和他们停留的位置。之前,监控报像机仅仅出于安全保卫,现在零售商则可以利用得到的信息设计店面的最佳布局并判断营销活动的有效性----监控摄像机从一项纯粹的成本支出成为了一项可以增加收入的投资。  数据折旧值和数据废气是值得重点讲讲的两项数据创新。随着数据存储成本的大幅下降,企业拥有了更强的经济动机来保存数据。随着时间的推移,大多数数据会失去一部分基本用途。比如说亚马逊通常不会基于你十年前买的书来向你推荐,因为系统默认为你十年前的书你现在可能已经对它不感兴趣了。  亚马逊认为旧数据的存在毁坏了新数据的价值,所以亚马逊决定只使用仍然有生产价值的数据,这就需要不断更新数据库并淘汰无用信息。然而亚马逊发现仅仅依据时间来判断显然不够,因此亚马逊公司建立了复杂的模型来帮助自己分离有用和无用的数据。  比如,如果客户浏览或购买了一本基于以往购买记录而推荐的书,电子商务公司就认为这项旧的购买记录仍然代表着客户的喜好。这样,他们就能够评价旧数据的有用性,并使模型的“折旧率”更具体。  然而,并非所有数据都会贬值。有些公司提倡尽可能长时间地保存数据,即使监管部门或公众要求它们短时间内删除或隐匿这些信息。比如谷歌公司一直以来都拒绝将互联网协议地址从旧的搜索查询中完全去除,它只是在一年半后删除了最后四位数以隐匿搜索查询。  谷歌希望得到每年的同比数据,如假日购物搜索等。此外,通过了解搜索者的位置,可以帮助改善搜索结果的相关性。像很多纽约人会搜索“火鸡”,但经常会搜索到与“火鸡”无关的关于“土耳其”的网页,因为英文中这两个词拼法是一样的。  通过算法可以将他们想查看的网页放在排名靠前的位置,来方便其他纽约人查找。即使数据用于基本用途的价值会减少,但潜在价值却依然强大。潜在价值表明,组织机构应收集尽可能多的使用数据并保存尽可能长的时间,这样一来,由数据再利用而产生的任何商业价值,原始数据拥有者都能从中分一杯羹。  “数据废气” 是一个用来描述人们在网上留下数字轨迹的艺术词汇,它指用户在线交互留下的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等等。许多公司利用“数据废气”完善自己的服务和功能。 谷歌是这方面的领导者,它将不断地“从数据中学习”这个原则应用到许多服务当中,用户执行的每一个动作都被认为是一个“信号”,谷歌对这些“信号”进行分析并且反聩给系统。“数据废气”成为许多电脑化服务背后的机制,如拼写检查、语音识别、垃圾邮件过滤、翻译等,当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。 在Facebook早期,数据科学家们研究了“数据废气”的丰富信息,发现人们会采用某种行动如回贴、点击图标等,人们采取这些行动最重要的预测指标就是他们看到了周围的朋友们也在这么做。于是Facebook马上重新设计了它的系统,使每个用户的活动变得可见并广播出去,这为网站的良性循环做出了新的贡献。 渐渐的,这个想法从互联网行业传播至可以收集用户反聩的任何公司。我们可能会认为谷歌和亚马逊这些网站是大数据的先驱者,但实际上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。政府与私营企业数据持有之间的主要区别就是,政府可以强迫人们为他们提供信息,而不必加以说服或支付报酬。 因此,政府将继续收集和积累大量的数据。大数据对公共部门的适用性和对商业实体是一样的:大部分的数据价值都是潜在的,需要通过创新的分析来释放,但是,由于政府在获取数据中所处的特别地位,因此他们在数据使用上往往效率很低。 近年来,有一个想法在欧美国家得到了公认,即提取政府数据价值最好的办法是允许私营部门和社会大众访问。这种想法基于的原则是:国家收集数据时,代表的是它的公民,因此它也理应提供一个让公民查看的入口,少数可能会危害到国家安全或他人隐私权的情况除外。 主张开放数据入口的人认为,政府只是他们所收集信息的托管人,私营部门和社会对数据的利用会比政府更具有创新性。开放数据倡导者呼吁建立专门的官方机构来公布民用和商业数据,而且数据必须以标准的可机读形式展现,以方便人们处理。 2008年1月21日,奥巴马在就职总统的第一天发表了一份总统备忘录,命令美国联邦机构的负责人公布尽可能多的数据,奥巴马的指令促成了data.org网站的建立,这便是美国联邦政府的公开信息资料库。这个网站从2009年的47个数据集迅速发展起来,到2012年7月三周年时,数据集已达到45万个左右,涵盖了172个机构。 英国随后也做出实质性转变,以往政府信息都封锁在英国皇家版权手中,使用起来非常困难和昂贵,而现在英国政府已经颁布相关规定鼓励信息公开,并支持创建万维网的发明者蒂姆·伯纳斯参与指导开放式数据中心。  其它国家如澳大利亚、巴西、智利等也相继出台了并实施了开放数据策略。一些国际组织也加入了开放数据的热潮,如世界银行就公开了数百个之前被限制的关于经济和社会指标方面的数据集。 大数据价值链有三大构成,分别是:第一基于数据的公司比如Twitter,第二基于技能的公司它们提供咨询技术供应和数据分析,第三基于思维的公司,比如今日头条这样的公司。那么,谁在这个大数据价值链中获益最大呢?答案是那些拥有大数据思维或者说创新性思维的人。 随着大数据成为我们生活的一部分,大数据工具变得更容易和更方便使用,越来越多掌握这些技能,这些技能的价值就会相对减少,就像20世纪六十年代之后计算机编程变得越来越普遍一样。现在欧美之外的外包公司使得计算机编程技术越来越廉价,如今它成了世界贫困人口致富的驱动力,而不再代表着高端技术。  现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。在未来,我们可以利用数据据做更多的事情,而数据拥有者们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧,也会以更高的价格将其出售。  数据就是金矿,但是让数据主宰一切的忧虑也显而易见,那么,在大数据时代,我们更要思考应该做什么,不应该做什么?请关注伯凡时间,会就这个话题继续展开讨论。