近年来,随着互联网、物联网的快速发展,数据量也与 日俱增;同时,随着云计算、人工智能的兴起,使得数据实 时准确的分析成为可能;这些都使得大数据成为了当下最热 门的科技词汇之一。那么,什么是大数据?大数据到底有多大? 严格来讲,大数据是一种涉及数据的收集、存储、分析、处理, 从而提取数据背后价值的综合性技术,它不仅包括海量的数 据本身,还包括对这些数据的处理和应用。
大数据通常被认为具有如下四个特点:大量(Volume), 多样(Variety),高速(Velocity),价值(Value)。由于这四 个特征的英文首字母都是“V”,所以通常被称为大数据的“4V” 特性。
大量(Volume):量大是大数据最显著的特点,也是很 多人对于大数据最直观的感受。根据 IDC 发布的《数据时代 2025》白皮书中的统计,2018 年全球的数据量大约是 33ZB, 对此的直观比喻:33ZB ≈ 354 亿 TB,每天产生的数据量大概 为 9700 万 TB,家用电脑的硬盘容量一般是 1TB,也就是说每 天需要用 9700 万台电脑来存储所产生的数据。而且随着物联 网的兴起,到 2025 年每年产生的数量预计可以达到 175ZB, 如图所示。
多样(Variety):即大数据的来源、数据类型的多样性。 比如可以来源于物联网的传感器,也可以来源于天网的视频 数据,以及阿里巴巴或上海股票交易所的交易数据,还可以 是文档、视频、音频等数据类型,也可以是图片数据。所有 这些数据通常可以被划分为结构化数据(即数据间有较强的 因果关系,比如刚才提到的各种信息系统产生的数据等)、 非结构化数据(即数据间通常没有因果关系,比如视频、音频、 图片数据等)和半结构化数据(即数据间有较弱的因果关系, 比如邮件、HTML 文档数据等)。严格说来,所有数据最终都 必须转化为结构化数据,目前结构的电子数字计算机才能使 用、运算。
高速(Velocity):即大数据的传播速度和对海量数据的 实时处理。大数据是通过互联网传播,所以比传统的报纸、 广播等传统数据载体传播速度更快;同时,由于每时每刻都 会产生海量的数据,而因为成本的关系,我们不可能将所有 (注:图片来源于《数据时代 2025》) 数据都永远保存下来,我们通常只会保留处理和分析后那些 比较重要的数据或者是最近一段时间的重要数据,因此我们 需要及时对海量的实时数据进行分析和处理,从而最大限度 地提高数据的利用价值,避免数据的浪费。
价值(Value):大数据的最终目标就是利用多种先进技术, 发掘出海量数据中隐藏的规律和价值,更重要的是挖掘出产 生这些海量数据的实物场景隐藏的关系,这些关系不是依靠 现有知识体系能推演出的逻辑关系、因果关系,更多的是一 种隐藏较深的关联关系、统计关系。比如啤酒与尿片的经典 案例,就是美国沃尔玛超市管理人员发现看似不相干的啤酒、 尿片两件商品,却大量存在于同一个购物车中,通过数据分 析发现是年轻的球迷父亲既要照看小孩、又要看球时所隐藏 的销售逻辑,从而帮助管理人员做出将这两件商品摆放在相 邻区域的促销策略。这也是大数据最核心的价值。
近年来,随着互联网、物联网的快速发展,数据量也与 日俱增;同时,随着云计算、人工智能的兴起,使得数据实 时准确的分析成为可能;这些都使得大数据成为了当下最热 门的科技词汇之一。那么,什么是大数据?大数据到底有多大? 严格来讲,大数据是一种涉及数据的收集、存储、分析、处理, 从而提取数据背后价值的综合性技术,它不仅包括海量的数 据本身,还包括对这些数据的处理和应用。
大数据通常被认为具有如下四个特点:大量(Volume), 多样(Variety),高速(Velocity),价值(Value)。由于这四 个特征的英文首字母都是“V”,所以通常被称为大数据的“4V” 特性。
大量(Volume):量大是大数据最显著的特点,也是很 多人对于大数据最直观的感受。根据 IDC 发布的《数据时代 2025》白皮书中的统计,2018 年全球的数据量大约是 33ZB, 对此的直观比喻:33ZB ≈ 354 亿 TB,每天产生的数据量大概 为 9700 万 TB,家用电脑的硬盘容量一般是 1TB,也就是说每 天需要用 9700 万台电脑来存储所产生的数据。而且随着物联 网的兴起,到 2025 年每年产生的数量预计可以达到 175ZB, 如图所示。
多样(Variety):即大数据的来源、数据类型的多样性。 比如可以来源于物联网的传感器,也可以来源于天网的视频 数据,以及阿里巴巴或上海股票交易所的交易数据,还可以 是文档、视频、音频等数据类型,也可以是图片数据。所有 这些数据通常可以被划分为结构化数据(即数据间有较强的 因果关系,比如刚才提到的各种信息系统产生的数据等)、 非结构化数据(即数据间通常没有因果关系,比如视频、音频、 图片数据等)和半结构化数据(即数据间有较弱的因果关系, 比如邮件、HTML 文档数据等)。严格说来,所有数据最终都 必须转化为结构化数据,目前结构的电子数字计算机才能使 用、运算。
高速(Velocity):即大数据的传播速度和对海量数据的 实时处理。大数据是通过互联网传播,所以比传统的报纸、 广播等传统数据载体传播速度更快;同时,由于每时每刻都 会产生海量的数据,而因为成本的关系,我们不可能将所有 (注:图片来源于《数据时代 2025》) 数据都永远保存下来,我们通常只会保留处理和分析后那些 比较重要的数据或者是最近一段时间的重要数据,因此我们 需要及时对海量的实时数据进行分析和处理,从而最大限度 地提高数据的利用价值,避免数据的浪费。
价值(Value):大数据的最终目标就是利用多种先进技术, 发掘出海量数据中隐藏的规律和价值,更重要的是挖掘出产 生这些海量数据的实物场景隐藏的关系,这些关系不是依靠 现有知识体系能推演出的逻辑关系、因果关系,更多的是一 种隐藏较深的关联关系、统计关系。比如啤酒与尿片的经典 案例,就是美国沃尔玛超市管理人员发现看似不相干的啤酒、 尿片两件商品,却大量存在于同一个购物车中,通过数据分 析发现是年轻的球迷父亲既要照看小孩、又要看球时所隐藏 的销售逻辑,从而帮助管理人员做出将这两件商品摆放在相 邻区域的促销策略。这也是大数据最核心的价值。