Apache Druid 启动

1 启动服务

在apache-druid-0.17.0安装包的根目录下执行命令：

./bin/start-micro-quickstart

上述动作是在micro-quickstart单机配置环境下执行的，如果您使用的是其他配置，则需要在bin目录下有每一种配置对应的脚本，如bin/start-single-server-small。

然后将在本地计算机上启动Zookeeper和Druid服务实例，示例：

$ ./bin/start-micro-quickstart
[Fri May  3 11:40:50 2019] Running command[zk], logging to[/apache-druid-0.17.0/var/sv/zk.log]: bin/run-zk conf
[Fri May  3 11:40:50 2019] Running command[coordinator-overlord], logging to[/apache-druid-0.17.0/var/sv/coordinator-overlord.log]: bin/run-druid coordinator-overlord conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[broker], logging to[/apache-druid-0.17.0/var/sv/broker.log]: bin/run-druid broker conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[router], logging to[/apache-druid-0.17.0/var/sv/router.log]: bin/run-druid router conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[historical], logging to[/apache-druid-0.17.0/var/sv/historical.log]: bin/run-druid historical conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[middleManager], logging to[/apache-druid-0.17.0/var/sv/middleManager.log]: bin/run-druid middleManager conf/druid/single-server/micro-quickstart

所有的状态（例如集群元数据存储和服务的segment文件）将保留在apache-druid-0.17.0软件包根目录下的var目录下, 服务的日志位于var/sv。

如果您想停止服务，请按CTRL-C退出bin/start-micro-quickstart脚本，该脚本将终止Druid进程。

集群启动后，可以访问http://localhost:8888来Druid控制台，控制台由Druid Router进程启动。

Druid集群,Apache Druid集群,启动Druid

2 加载数据

教程使用的数据集

对于以下数据加载教程，官网提供了一个示例数据文件，文件包含了2015年9月12日发生的Wikipedia页面编辑事件。

该样本数据位于Druid安装包根目录的quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz中，页面编辑事件作为JSON对象存储在文本文件中。

实例文件包含以下类型数据：

added
channel
cityName
comment
countryIsoCode
countryName
deleted
delta
isAnonymous
isMinor
isNew
isRobot
isUnpatrolled
metroCode
namespace
page
regionIsoCode
regionName
user

{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}

数据加载

以下教程演示了将数据加载到Druid的各种方法，包括批处理和流处理用例。所有教程均假定您使用的是上面提到的micro-quickstart单机配置。

入门指南加载本地文件 – 本教程演示了如何使用Druid的本地批处理摄取来执行批文件加载
入门指南加载Kafka数据 – 本教程演示了如何从Kafka主题加载流数据
入门指南加载Hadoop数据 – 本教程演示了如何使用远程Hadoop集群执行批处理文件加载
入门指南摄入配置规范 – 本教程演示了如何编写新的数据摄取规范并使用它来加载数据

重置集群状态

删除var 目录，然后再次输入命令行bin/start-micro-quickstart 运行，即可重新启动服务。待服务启动完毕就可以开始加载数据了。

重置Kafla

如果您完成了入门指南加载Kafka数据并希望重置集群状态，则需要先删除所有的Kafka状态。

操作步骤：

停止Zookeeper和Druid之前，关闭Kafka Broker （使用CTRL-C 命令）
删除/tmp/kafka-logs 中的Kafla日志目录（使用 rm -rf /tmp/kafka-logs 命令）

Apache Druid 下载安装 Apache Druid 集群部署