大数据分析及其工具

来源：发布时间：2015年05月19日

摘要:

　　大数据分析是指对规模巨大的数据进行分析，主要包括以下五个方面：

　　1. Analytic Visualizations（可视化分析）

　　不管是对数据分析专家还是普通用户，数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据，让数据自己说话，让观众听到结果。

　　2. Data Mining Algorithms（数据挖掘算法）

　　可视化是给人看的，数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部，挖掘价值。这些算法不仅要处理大数据的量，也要处理大数据的速度。

　　3. Predictive Analytic Capabilities（预测性分析能力）

　　数据挖掘可以让分析员更好的理解数据，而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。

　　4. Semantic Engines（语义引擎）

　　我们知道由于非结构化数据的多样性带来了数据分析的新的挑战，我们需要一系列的工具去解析，提取，分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。?

　　5. Data Quality and Master Data Management（数据质量和数据管理）

　　数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。

　　大数据分析的工具主要包括数据仓库、数据集市、前端展现等。目前开源工具中广泛使用的是Hadoop，Hadoop是一个项目的总称，主要是由HDFS和 MapReduce组成。其中HDFS是Google File System（GFS）的开源实现，MapReduce是Google MapReduce的开源实现。

　　Google最早建立了大数据分析工具体系，Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个：

　　⒈GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。

　　⒉MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value 对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。

　　⒊BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。

　　当前用于分析大数据的工具主要有开源与商用两个生态圈。

　　开源大数据生态圈：

　　1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。

　　2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。

　　3、NoSQL，membase、MongoDb

　　商用大数据生态圈：

　　1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。

　　2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。

　　3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

责任编辑:系统管理员

分享文章到：

浏览次数:

【大中小】【打印本页】【关闭窗口】