大数据会打开怎样的一扇门?
大数据作为人类生活的重要基础,打开了一扇新的大门。更重要的是,透过大数据打开的大门,人们看到的不仅仅是数据本身,而是一种基于大数据的人类新文明。
在过去的20年里,大数据的浪潮已经向我们袭来。有人说,大数据就像一望无际的海洋。大海的浪高过浪,浪深不见底。与此同时,从国际零售巨头沃尔玛的“啤酒和尿布”的经典案例到精准医疗,大数据在人们生活和工作中的重要性日益凸显。面对大数据开启的一扇新门,我们不禁深思:这将是一扇怎样的门?它会把我们带入一个什么样的世界?
大数据正在把世界变成数据?
从通常的定义来看,大数据被认为是传统数据库软件工具无法获取、存储、管理和分析的数据集。这是大数据的技术定义,但显然,并没有涉及大数据浪潮深处最重要的内容。
大数据技术定义最重要的一点就是规模大。但是大数据的关键本质主要不是规模大,而是完全不同于作为样本数据的小数据。通常情况下,样本数据的获取总是事先设定好,目的明确甚至单一。一方面,这种事先设置的采样可以更好地实现采样前的预设目标;另一方面,正如亚里士多德所说,在选择某种可能性的同时,也抹去了无数其他可能性的萌芽。
大数据的另一个更重要的属性是全维度。通常我们拍照的时候,都会选择一个角度。一旦取了角度,数据就固定了。面对一张好的平面照片,换个角度去观察是不可能的。另一方面,大数据保留了几乎全部的纬度。面对大数据,我们可以从不同的角度去审视。当然,其实没有一个大数据是真正“完整”的,就像世界上没有什么东西是完美的,但就人类需求而言,它的维度可以算是“完整”的。作为样本数据,小数据是“不完整”的。就像尼采说抽象概念是“干标本”一样,样本数据与抽象概念的相似性已经“失活”。而大数据就是活数据(动态数据)和全数据。所以,“所有数据”是理解大数据的哲学视角。从这个角度,我们可以看到更丰富的内容:大数据不仅是规模上的,而且是维度上的,满足人类使用需求的所有数据。
大数据的本质,尤其是它的全数据,意味着什么?
在大数据的基础上,物化与物化构成一个循环。大数据的核心口号是量化世界。量化世界是创造世界的基础。这是因为物化其实就是物化,物化是一个更宽泛的概念,和同样可以出现在小数据基础上的物化完全不同。同样,数据物化本质上也是信息物化。信息的物化和事物的信息化形成的循环,把人类带入了一个创造的时代。基于大数据的创作不同于修路修桥等项目。随着数字技术的发展,创造性活动及其产品越来越与人类的生存方式紧密相连。
这涉及到一个新的重要概念,信息。信息有一百多种定义。其中,控制论创始人韦纳的定义最耐人寻味。在维纳看来,“信息就是信息,既不是物质也不是能量”。这个定义看起来像是同义反复,但它是有意义的。说明信息是一种不同于物质能量,但与物质能量具有并列地位的资源。信息不仅既不是物质也不是能量,还具有一些物质和能量所不具备的重要属性。比如,物质和能量复制的成本成正比增加,而信息复制的边际成本减少;能分享的东西越多越少,而享受的信息越多越多。信息的这些重要属性,当作为样本数据的小数据使用时,并不显示其重要性,但在具有全数据属性的大数据基础上,就显得非同一般了。在大数据的基础上,信息不可能对人类文明的发展产生极其重要的影响。
如今,大数据作为人类生活的重要基础,打开了一扇新的大门。更重要的是,透过大数据打开的大门,人们看到的不仅仅是数据本身,而是一种基于大数据的人类新文明。
关于大数据的特点,提到最多的是“42v”。
大数据的特点最早用“3v”来概括。几年前,人们认为“3v”不足以描述大数据的特性,提出了“4v”的描述。到现在为止,关于大数据的特性,提到最多的就是“42v”。但对于大数据的特性,目前来看,就是这个“4v”,即大量的“体量”、多样的“真度”、高速的“速度”和价值”。
“量”一般理解为一个很大的数字。大数据首先意味着数据量巨大。在小数据时代,数据主要是人工创建的,而在大数据时代,数据是由机器、网络和人的交互产生的。数量多是大数据的基本特征,但也经常被误认为是大数据。事实上,这个特征表达了大数据规模的完整性。如前所述,大数据的“大”不是一个纯粹的数量概念。这个“大”的关键是整体。样本数据规模也可以很大,但不具备大数据的性质。大数据的“大”其实是一个定性的概念。
“真实”一般理解为多样性。这包括大数据来源和类型的多样性,以及数据结构的多样性。但“真实”不能简单理解为数据来源和类型的多样性,也不能仅仅进一步涉及结构化、半结构化和非结构化数据。由于数据结构的多样性和复杂性,大数据的这一特点也意味着数据结构的开放性。结构化、半结构化和非结构化数据表达的不仅仅是数据的结构化状态,更是开放的大数据结构。比如大数据就不同于自然。自然可以满足我们的生存需求,但是面对自然我们能做的却很少。大数据不一样。在基于人类需求的大数据挖掘中,数据结构在数据、人类需求及其发展的无限空间中是开放的,人类在这个无限空间中创造着自己的需求。
“速度”一般理解为高速。它不仅指技术设备的数据处理速度,更重要的是指依赖于数据处理速度的实时数据流。样本数据在采样后被冻结,而大数据可以实时获取所需信息。对于大数据来说,信息是活的,随着时间流动。正因为如此,速率对于实时数据流尤为重要。高速数据流在时间上可以与真实过程更加同步,因此与人类的生存关系更加密切。不仅如此,只有高速的数据才能给我们提供无限的可能。在过去,由于速度的限制,我们获得的数据往往与我们想要反映的内容脱节,而高速的数据流使我们把握对象的手段越来越完善。事实上,大数据的完整性包括数据流量这一至关重要的维度。
“价值”用来描述大数据的价值。这个“V”指的是大数据最重要的特征。一般认为大数据价值密度低,数据挖掘是“沙里淘金”。其实大数据的价值特征的重要性不言而喻,但是大数据也是很复杂的。大数据是否有价值,关键在于能否把握住数据背后所揭示的相关关系组合与人的需求及其发展之间的关系。因为与人的需求和发展相联系,也因为数据结构的开放性,大数据的价值不再单纯是大数据与人的舒适需求关系的反映,而是与人的理解能力密切相关。对于同样是开放结构的大数据,在一些人看来是宝库,有价值;别人可能会把它当成一堆垃圾,毫无意义。大数据的价值和意义很大程度上取决于人们对大数据与人的需求和发展的关系的认识,取决于人们的视野。归根结底还是要看他们对人的需求和发展的理解和把握。而这显然是一个典型的哲学话题。随着大数据的发展,不仅哲学与其他学科会越来越融合,还将迎来一个哲学与科学、社会与生活融合发展的时代。
大数据应用:无意义的垃圾还是无价的宝库?
如上所述,大数据是垃圾还是宝库,涉及到大数据的应用。换句话说,既然大家都认为大数据是个好东西,是个有用的东西,那怎么应用呢?
目前,大数据的应用仍然是国际上一个重要的前沿课题。大数据中的相关性和因果性是大数据应用和分析中的重要问题。大数据凸显了相关性的巨大魅力,但同时也对传统的因果关系概念构成了严峻的挑战。
跨国零售商沃尔玛的“啤酒和尿布”故事,是人们津津乐道的大数据应用经典案例。在大数据的基础上,沃尔玛利用“购物篮法”分析消费者的购物行为,发现一些男性顾客在购买婴儿纸尿裤时,往往会同时购买几瓶啤酒。原来,美国家庭有了孩子,一般都是母亲在家带孩子,父亲去逛街。买纸尿裤的时候,忙碌的年轻爸爸们往往会给自己带几瓶啤酒,既提神又喜庆。于是,沃尔玛推出了将啤酒和纸尿裤放在一起的促销方式,吸引了更多有这种需求的顾客到沃尔玛购物,大大提高了纸尿裤和啤酒的销量。
大数据关联在类似行业的成功应用,让人们很自然地提出了要不要深究因果关系的问题。一些极端的观点甚至认为大数据是关于“什么”而不是“为什么”;大数据是可以自己说话的,所以只要相关,就不应该是因果关系。只要不是因果关系,显然是对大数据关联的惊人实用性感到兴奋。但实际上,大数据不仅掌握了相关关系,还掌握了因果关系作为其基础。
“蛋挞和手电筒”就是一个典型的例子。和“啤酒和尿布”的案例一样,沃尔玛的大数据显示,很多人在买手电筒的同时也买了蛋挞。所以根据顾客同时购买蛋挞和手电筒的相关性,把它们放在一起上架,增加销量。但如果知道背后的因果关系,相关的销售效果显然会更好。原因是发现人们同时购买手电筒和蛋挞的因果关系涉及到了北美飓风。这是因为人们需要在飓风到来之前准备好手电筒和食物。然而,北美的飓风是季节性风暴。如果只知道相关性,不知道因果关系,我们可能会一直把手电筒和蛋挞放在同一个架子上。知道了背后的因果关系,就可以在飓风到来之前把蛋挞和手电筒放在一起,也可以专门设置一个飓风用品的位置。
可见,只要有关联而没有因果关系的观点是很容易被驳倒的。其实更关键的问题不是相关性和因果性哪个更重要,而是如何理解相关性和因果性的关系。
对这一问题的研究涉及到对传统因果关系概念的重新定性。传统的因果观只反映了日常生活和经典物理中的明显的因果现象。一方面,可追溯性通常导致最终原因的问题,另一方面,作为原因的现象导致作为结果的现象的简单模型,具有明显的内在逻辑矛盾。这样的因果模型不仅可以了解大数据的相关性,还可以建立大数据相关性与因果性之间的关联。只有把原因看成是因素相互作用的过程,把结果看成是因素相互作用过程的结果,才能拓展对因果关系的理解,并应用于大数据关联和因果关系的理解。这样建立的新的因果模型具有丰富的结构,不仅在因素之间的相互作用已经完成和正在进行的环节,而且在因素尚未进入相互作用的环节。这就呈现了因果模型的过去式、进行式和将来时。这不仅有助于人们理解凝固的因果关系,也在人们面前开辟了创造未来的广阔空间。
由此不仅可以看出相关性其实是有其因果基础的,还可以对相关性和因果性做出统一的认识。在新的因果模型中,相关性可以理解为因果推导,包括因素与结果的关系,结果与结果的关系,特别重要的因素与因素的关系。因为这些因素和结果也是潜在的,所以我们也可以看到大数据关联的因果根源和很多耐人寻味的重要内容,包括对一些奇怪关联案例的理解。因为相对于潜在的结果,因素之间的关系构成了无限广阔的可能性空间,由此形成的相关关系内容非常丰富。在潜在因素的无限空间中,根据特定的需求,让特定的因素以特定的方式进入特定的交互过程,就可以创造出我们所需要的东西。显然,这种新的因果关系更接近现实社会。
大数据将带来新的信息文明,影响世界力量的重构。
如果把以前的文明形式看作是物质和能源文明,那么人类社会发展到大数据时代,将迎来不同于物质和能源文明的信息文明。信息文明的形成和发展必须以大数据为基础。信息文明作为与物质文明和能源文明并行的文明形态,是一种基于信息本质的享受文明。只有在大数据的基础上,才能充分发挥信息的本质。而且信息文明的发展是一个基于大数据的公共信息对称的过程。
这就要求,一方面,为了促进信息文明的发展,必须在公共领域尽可能消除信息不对称;另一方面,为了保持信息文明发展的势头,创新专利必须得到尽可能多的保护,而这只有基于大数据才有可能。信息文明作为人类文明,是以信息机制为基础的奴性文明。在信息文明时代,人类越来越多地通过信息控制物质能量,通过结构调整,使物质从一种对人类来说并不那么有价值的物质变得更有价值,从一种不能满足人类需求的形式变成更能满足人类需求的形式,使能量从一种难以利用的形式变成一种更容易获得和利用的形式。因此,人类的活动更多的是直接处理信息,而不是传统的主要处理物质能量的活动。而这些都必须在大数据的基础上完成。没有大数据,即使信息很重要,也只能处于依赖的地位。
信息文明是人类文明发展的高级阶段,也是以信息创造为基础的人类文明。是大数据,也只有大数据,才能为这个被创造的文明提供必要的信息空间。从某种程度上说,信息创造是最人性化的活动。只有在基于大数据的信息时代,人类历史才能真正进入人类文明的轨道,不仅对物质能量的控制可以达到全社会乃至全人类都可以实现“物为人服务”的程度,使人类活动从描述认知向创造认知转变;而且创造时代所要求的创造力的全面解放,也意味着社会已经发展到这样的程度,人性在社会维度上获得了越来越高的解放文明。可见,信息文明与物质文明的区分,本质上并不是基于社会生产方式的区分,而是基于人的存在对人类文明的划分。这意味着大数据将越来越成为人类生存的重要基础,也意味着人们将越来越以信息的形式存在。
人越来越以信息的形式存在,这预示着大数据开启的信息文明之门也将释放出一系列新的重要课题。这些重大问题既涉及个人生活,也涉及社会发展。
首先是信息生态。随着人们越来越多的以信息的形式存在,信息生态自然成为一个越来越重要的基础问题。对于人类来说,自然生态或者更根本的物质-能量生态是至关重要的,而信息生态不仅是至关重要的,更是“发自内心”的,信息生态更贴近人心。因此,在自然生态的基础上,信息生态将日益受到人们的关注,成为信息文明时代与人类发展相关的问题。就像在物质能源文明时代,自然生态是关系到人类生存的问题。
二是人存在的意义。没有物质能量就没有信息,物质能量的存在是基础。但是,在信息文明时代,如果一个人仍然主要以物质和能量的形式存在,仍然以基于物质和能量的感官享受为生命意义的主要来源,一句话,仍然主要停留在物质和能量的形式,那么很可能他迟早会进入无意义的人群。在信息文明时代,人类的活动主要是信息活动。只有那些主要以信息形式存在,以创造性活动为主要活动的人,才能进入有意义的生产领域。从这个意义上说,信息文明确实意味着这样的划分:相对无意义的人和有生产力的人。这很可能是信息文明时代发展的必然趋势。当然,人类社会也应该提前思考如何避免新的社会不公的出现。
第三是国家的发展。从人类社会的发展历史中,我们可以看到一个重要的事实:一个大国的真正崛起,通常要引领一个新的文明。信息文明时代的到来,必然伴随着新的大国崛起,无论是现实大国还是潜在大国。21世纪,中国要想和平发展,成为世界大国,需要引领信息文明。也许,信息文明已经不能像传统文明时代的世界一样由某个国家来主导,但没有哪个国家能真正崛起为大国,除非它进入领先的信息文明国家行列。一个国家的兴衰,不仅关系到个人的生存和发展,也构成了一个相互依存、协调发展的循环。
21世纪的竞争将是信息的竞争。大数据时代的竞争将是信息文明引领的竞争,这意味着在大数据时代,中国要么作为真正的大国引领信息文明,要么只是在物质和能源文明层面崛起为大国。这也是我们从大数据开启的信息文明大门中最关注的一个重要内容。