Apache Druid 启动


1 启动服务

apache-druid-0.17.0安装包的根目录下执行命令:

./bin/start-micro-quickstart

上述动作是在micro-quickstart单机配置环境下执行的,如果您使用的是其他配置,则需要在bin目录下有每一种配置对应的脚本,如bin/start-single-server-small

然后将在本地计算机上启动Zookeeper和Druid服务实例,示例:

$ ./bin/start-micro-quickstart
[Fri May  3 11:40:50 2019] Running command[zk], logging to[/apache-druid-0.17.0/var/sv/zk.log]: bin/run-zk conf
[Fri May  3 11:40:50 2019] Running command[coordinator-overlord], logging to[/apache-druid-0.17.0/var/sv/coordinator-overlord.log]: bin/run-druid coordinator-overlord conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[broker], logging to[/apache-druid-0.17.0/var/sv/broker.log]: bin/run-druid broker conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[router], logging to[/apache-druid-0.17.0/var/sv/router.log]: bin/run-druid router conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[historical], logging to[/apache-druid-0.17.0/var/sv/historical.log]: bin/run-druid historical conf/druid/single-server/micro-quickstart
[Fri May  3 11:40:50 2019] Running command[middleManager], logging to[/apache-druid-0.17.0/var/sv/middleManager.log]: bin/run-druid middleManager conf/druid/single-server/micro-quickstart

所有的状态(例如集群元数据存储和服务的segment文件)将保留在apache-druid-0.17.0软件包根目录下的var目录下, 服务的日志位于var/sv。

如果您想停止服务,请按CTRL-C退出bin/start-micro-quickstart脚本,该脚本将终止Druid进程。

集群启动后,可以访问http://localhost:8888来Druid控制台,控制台由Druid Router进程启动。

Druid集群,Apache Druid集群,启动Druid

2 加载数据

教程使用的数据集

对于以下数据加载教程,官网提供了一个示例数据文件,文件包含了2015年9月12日发生的Wikipedia页面编辑事件。

该样本数据位于Druid安装包根目录的quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz中,页面编辑事件作为JSON对象存储在文本文件中。

实例文件包含以下类型数据 :

  • added
  • channel
  • cityName
  • comment
  • countryIsoCode
  • countryName
  • deleted
  • delta
  • isAnonymous
  • isMinor
  • isNew
  • isRobot
  • isUnpatrolled
  • metroCode
  • namespace
  • page
  • regionIsoCode
  • regionName
  • user
{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}

数据加载

以下教程演示了将数据加载到Druid的各种方法,包括批处理和流处理用例。 所有教程均假定您使用的是上面提到的micro-quickstart单机配置。

重置集群状态

删除var 目录,然后再次输入命令行bin/start-micro-quickstart 运行,即可重新启动服务。待服务启动完毕就可以开始加载数据了。

重置Kafla

如果您完成了入门指南 加载Kafka数据并希望重置集群状态,则需要先删除所有的Kafka状态。

操作步骤:

  • 停止Zookeeper和Druid之前,关闭Kafka Broker (使用CTRL-C 命令)
  • 删除/tmp/kafka-logs 中的Kafla日志目录(使用 rm -rf /tmp/kafka-logs 命令)