当前位置 : 首页 » 文章分类 :  大数据  »  大数据环境搭建-storm

大数据环境搭建-storm

what

本文仅描述如何在多台机器上部署storm集群。

Prerequisites

  1. 三台在同一个内网的测试机,系统是64位centos6.5+,最好可以访问外网。
  2. 请参照centos6.5基本开发环境搭建安装并配置jdk环境。
  3. 请参照大数据环境搭建-zookeeper安装并配置zookeeper环境。

Steps

  1. 在bigdata用户组下创建storm用户

    group add bigdata
    useradd -g bigdata storm
    passwd storm

  2. 然后去kafka官网下载对应版本的安装包放到/home/storm/opt/目录下,解压

    tar -zxvf kafka_2.10-0.8.1.1.tgz

  3. 在conf目录下,配置config/server.properties

    host.name | 本机ip或域名
    zookeeper.connect | zookeeper连接信息列表 A:2181,B:2181
    broker.id | broker的唯一标识符,集群内不能重复,正整数
    log.dir | kafka数据存放目录
    log.retention.hours | 日志数据再多少小时以后自动删除

  4. start your server bin/kafka-server-start.sh config/server.properties &
  5. 在不同的机器上重复1-4步骤,注意broker.id是不同的。
  6. Verify install
    a. jps
    b. ps aux|grep storm

Best Practice

  1. 2f+1台机器,最好5台,3台也可以 容错 参考下面的Designing a ZooKeeper Deployment
  2. log目录 两个目录最好在不同的目录下,并且log和data目录分别在一个专用的磁盘设备下
    To get low latencies on updates it is important to have a dedicated transaction log directory.
  3. java heap size if machine is 4G, we can set 3G This is very important to avoid swapping, which will seriously degrade ZooKeeper performance.
  4. 版本用比较新一点的好,feature多

上一篇 大数据环境搭建-hadoop

下一篇 大数据环境搭建-kafka