Hadoop Hive教程

Hadoop Hive是什么？

Hadoop是个很流行的分布式计算解决方案，Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言‘查询、汇总和分析数据。

Hadoop Hive的特性

支持创建索引，优化数据查询。
不同的存储类型，例如，纯文本文件、HBase 中的文件。
将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
可以直接使用存储在Hadoop 文件系统中的数据。
内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。
类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

下载Hadoop： http://www.apache.org/dyn/closer.cgi/hadoop/core/

下载Hive：http://www.apache.org/dyn/closer.cgi/hive/

Hadoop 简介

评论区（0）

Hadoop Hive教程

Hadoop Hive是什么？

Hadoop Hive的特性

评论 取消

评论取消