什么是大数据?【书摘】
我们应该从何处着手编写有关大数据的图书?从一个定义开始如何,因为“大数据”这个术语的使用不太恰当,它暗示着预先存在的数据比较小(其实不然)或者唯一的挑战只是它们的大小(大小是挑战之一,但还有其他许多挑战)。简言之,术语“大数据”指无法使用传统流程或工具处理或分析的信息。如今,组织日渐面临着越来越多的大数据挑战。它们能够访问丰富的信息,但不知道如何从中获得价值,因为这些信息以最原始的形式或半结构化或非结构化格式存在。这导致它们甚至不知道这些信息是否值得保留(甚至是它们能否保留它)。
大数据的特征
可用3个特征来定义大数据:数量、种类和速度。
【图】
够多吗?数据量
停下来想想,毫无疑问我们正深陷在数据之中。如果我们可跟踪和记录某个事物,我们通常会这么做。(注意,我们没有提及分析已存储的这些数据,这将是一个大数据主题——对我们跟踪但未用于决策制定的数据,这是新发现的用途。)我们存储所有事物:环境数据、财务数据、医疗数据、监控数据等。例如,从手机套中拿出您的智能电话会生成一个事件;当您的市郊火车到站开门时,这是一个事件;检票登机,打卡上班、在iTunes上购买歌曲、更换电视频道、使用电子收费公路——每一项操作都会生成数据。
随着可供企业使用的数据量不断增长,它可处理、理解和分析的数据比例不断下降,因此形成了如图1-2中所示的盲区。盲区内是什么?您不知道:它可能是某种有用的东西,或者可能毫无用处,但“不知道”就是个问题(或者机会,具体取决于您如何看到它)。
【图】
多样性是生命的调味料
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、Web日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。
传统的分析平台无法处理多种数据。但是,组织的成功将离不开它从可用的各种类型的数据(同时包括传统和非传统的数据)获取洞察的能力。
多快才算快?数据的速度
要理解速度,一种思考问题的新方式必须从数据产生的时刻开始。不要将速度的概念限定为与您的数据存储库相关的增长速率,我们建议动态地将此定义应用到数据:数据流动的速度。毕竟我们都同意,如今的企业正在处理PB级数据而不是TB级数据,而且RFID传感器和其他信息流的增加导致了传统系统无法处理的持续的数据流。
本文摘自IBM《理解大数据》,更多内容请阅读原书。
原文链接:http://www.civn.cn/p/9072.html
大数据的特征
可用3个特征来定义大数据:数量、种类和速度。
【图】
够多吗?数据量
停下来想想,毫无疑问我们正深陷在数据之中。如果我们可跟踪和记录某个事物,我们通常会这么做。(注意,我们没有提及分析已存储的这些数据,这将是一个大数据主题——对我们跟踪但未用于决策制定的数据,这是新发现的用途。)我们存储所有事物:环境数据、财务数据、医疗数据、监控数据等。例如,从手机套中拿出您的智能电话会生成一个事件;当您的市郊火车到站开门时,这是一个事件;检票登机,打卡上班、在iTunes上购买歌曲、更换电视频道、使用电子收费公路——每一项操作都会生成数据。
随着可供企业使用的数据量不断增长,它可处理、理解和分析的数据比例不断下降,因此形成了如图1-2中所示的盲区。盲区内是什么?您不知道:它可能是某种有用的东西,或者可能毫无用处,但“不知道”就是个问题(或者机会,具体取决于您如何看到它)。
【图】
多样性是生命的调味料
随着传感器、智能设备以及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、Web日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。
传统的分析平台无法处理多种数据。但是,组织的成功将离不开它从可用的各种类型的数据(同时包括传统和非传统的数据)获取洞察的能力。
多快才算快?数据的速度
要理解速度,一种思考问题的新方式必须从数据产生的时刻开始。不要将速度的概念限定为与您的数据存储库相关的增长速率,我们建议动态地将此定义应用到数据:数据流动的速度。毕竟我们都同意,如今的企业正在处理PB级数据而不是TB级数据,而且RFID传感器和其他信息流的增加导致了传统系统无法处理的持续的数据流。
本文摘自IBM《理解大数据》,更多内容请阅读原书。
原文链接:http://www.civn.cn/p/9072.html