トップページ -> 実践知識 -> クラウドコンピューティング -> Cloudera のインストール
[サイトマップへ]  

Cloudera のインストール

サイト構成 連絡先,業績 実践知識 コンピュータ 教材 サポートページ

Cloudera は,Linux で hadoop を動かすためのパッケージ群.

参考 Web ページ: https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation#CDH3Installation-InstallingCDH3onUbuntuSystems


Cloudera の Web ページでドキュメントを確認する

  1. Cloudera の Web ページを開く

    http://www.cloudera.com/

  2. Cloudera Downloads」をクリック

  3. Get Started with CDH」を選ぶ


Cloudera のインストール手順 (Ubuntu 11.10 での実行手順例) (Install Cloudera on Ubuntu 11.10 System)

事前準備

更新可能な全パッケージを更新する操作を行っておく.

■ Ubuntu の場合の操作手順(例)

sudo apt-get update
sudo apt-get upgrade

Ubuntu で Hadoop コア・パッケージのインストール (Automated Script ot install Hadoop core package on Ubuntu system)

  1. インストール (Install)

    2012/01/10 時点で maverick までしか出ていない。 詳しくは http://archive.cloudera.com/debian/dist

      sudo apt-get install sun-java6-bin sun-java6-fonts sun-java6-javadb sun-java6-jdk sun-java6-jre sun-java6-plugin sun-java6-source
      sudo update-alternatives --config java 
      sudo apt-get -y install curl
    
      echo "deb http://archive.cloudera.com/debian maverick-cdh3u2 contrib" > /tmp/cloudera.list.$$
      echo "deb-src http://archive.cloudera.com/debian maverick-cdh3u2 contrib" >> /tmp/cloudera.list.$$
      sudo cp /tmp/cloudera.list.$$ /etc/apt/sources.list.d/cloudera.list
      curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -
      sudo apt-get -yV update
      sudo apt-get -yV upgrade
      # dpkg-dev is needed to "apt-get souece ..."
      sudo apt-get -yV --force-yes install dpkg-dev
      cd /tmp; sudo apt-get source hadoop-0.20
      cd /tmp; sudo apt-get -yV --force-yes build-dep hadoop-0.20
      sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20
      sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-hive-metastore
      sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-hive
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-shell
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-beeswax
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-filebrowser
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-jobbrowser
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-jobsub
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-plugings
      sudo apt-get -yV --force-yes --allow-unauthenticated install hue-useradmin
        # サーバのインストールまでは行わないことにする
    

    Hadoop サーバのインストール (Install Hadoop Servers on Ubuntu System)

    必要なサーバのみをインストールすること

    1. Hadoop サーバのインストール(Automated Script ot install Hadoop servers on Ubuntu system)
        sudo apt-get install openssh-server
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-server 
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20-namenode
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20-datanode
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20-secondarynamenode
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20-jobtracker
        sudo apt-get -yV --force-yes --allow-unauthenticated install hadoop-0.20-tasktracker
      

    2. hadoop 実行用ユーザ(ユーザ名「hadoop」)の作成

      パスワードも設定する

    3. hadoop でログインしなおしhadoop ユーザのときは,確認パスワードなしでssh接続できるように設定
      su - hadoop
      cd 
      ssh-keygen -t rsa -P ""
      cat .ssh/id_rsa.pub >> .ssh/authorized_keys
      chmod 600 .ssh/authorized_keys
      

    4. /etc/hadoop-0.20/conf/core-site.xml の設定例
        <property>
          <name>hadoop.tmp.dir</name>
          <value>/user/hadoop/hadoop</value>
        </property>
        <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:54310</value>
        </property>
      

    5. /etc/hadoop-0.20/conf/hdfs-site.xml の設定例
        <property>
          <name>dfs.replication</name>
          <value>1</value>
        </property>
      

    6. /usr/local/hadoop/conf/mapred-site.xml の設定例
        <property>
          <name>mapred.job.tracker</name>
          <value>localhost:54311</value>
        </property>
      

    7. データストアの作成と権限の設定

      sudo mkdir -p /user/hadoop
      sudo chown -R hadoop:hadoop /user/hadoop
      

    8. フォーマット
      su - hadoop
      cd /user/hadoop
      hadoop namenode -format
      

    9. デーモンの開始

      デーモンはスーパーユーザで起動したいので,最初に「sudo -i」

      sudo -i 
      for x in /etc/init.d/hadoop-0.20-*; do $x stop; done
      for x in /etc/init.d/hadoop-0.20-*; do $x start; done
      exit
      

      ※ エラーメッセージが出ていないことを確認する.

    10. サーバログの確認

      sudo -i
      tail /usr/lib/hadoop-0.20/logs/hadoop-hadoop-namenode-ubuntu1110-*.out
      

    11. 試しに使ってみる
      • DFS の操作を試してみる (書きかけ)

        sudo -i 
        tail -f /usr/lib/hadoop-0.20/logs/hadoop-hadoop-namenode-ubuntu1110-*.out
        

        別の端末で次の操作を行う.

        su - hadoop
        hadoop fs -mkdir /hoge
        hadoop fs -ls /
        hadoop fs -rmr /hoge
        hadoop fs -ls /
        

      • job の例を実行してみる

        hadoop jar /usr/lib/hadoop-0.20/hadoop-examples.jar pi 2 100000
        


    Cloudera のインストール手順 (Cent OS 5.5 での実行手順例)

    Cent OS 5.5 での実行手順例を示す.

    1. JDK のインストール

      JDK のインストールの Web ページ を参考に Java の rpm ファイルをインストール.

    2. Yum レポジトリの追加

      /etc/yum.repos.d/ にファイルを追加する.

      ファイル名は上記の Web ページで確認すること (2010/6 時点のファイル名をここに書いておきます).

      curl http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo > /etc/yum.repos.d/cloudera-cdh3.repo
      

    3. yum の更新

      yum update yum
      

    4. 疑似分散モードの hadoop のインストール

      yum search hadoop
      yum install hadoop-0.20-conf-pseudo
      

      ■ エラーの例 ■

      ※ もし,次のようなエラーメッセージが出る場合には,JDK のインストールの Web ページ を参考に Java の rpm ファイルをインストールすると解決する場合がある.

      ■ Cent OS 5.5 の場合
      --> Missing Dependency: jdk >= 1.6 is needed by package hadoop-0.20-0.20.2+228-1.noarch (cloudera-cdh3)
      

    5. デーモンの開始

      for x in /etc/init.d/hadoop-0.20-*; do $x start; done
      

    6. 試しに使ってみる
      • DFS の操作を試してみる

        hadoop fs -mkdir /hoge
        hadoop fs -ls /
        hadoop fs -rmr /hoge
        hadoop fs -ls /
        

      • job の例を実行してみる

        hadoop jar /usr/lib/hadoop/hadoop-*-examples.jar pi 2 100000
        


    Cloudera のインストール手順 (Fedora 13 での実行手順例)

    Fedora 13 での手順を示す.

    1. JDK のインストール

      JDK のインストールの Web ページ を参考に Java の rpm ファイルをインストール.

    2. Yum レポジトリの追加

      /etc/yum.repos.d/ にファイルを追加する.

      ファイル名は上記の Web ページで確認すること (2010/6 時点のファイル名をここに書いておきます).

      curl http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo > /etc/yum.repos.d/cloudera-cdh3.repo
      

    3. yum の更新

      yum update yum
      

    4. 疑似分散モードの hadoop のインストール

      yum search hadoop
      yum install hadoop-0.20-conf-pseudo
      

      ■ エラーの例 ■

      ※ もし,次のようなエラーメッセージが出る場合には,JDK のインストールの Web ページ を参考に Java の rpm ファイルをインストールすると解決する場合がある.

      ■ Fedora 13 の場合
      依存性の処理をしている: jdk >= 1.6 のパッケージ
      

    5. デーモンの開始

      for x in /etc/init.d/hadoop-0.20-*; do $x start; done
      

    6. 試しに使ってみる
      • DFS の操作を試してみる

        hadoop fs -mkdir /hoge
        hadoop fs -ls /
        hadoop fs -rmr /hoge
        hadoop fs -ls /
        

      • job の例を実行してみる

        hadoop jar /usr/lib/hadoop/hadoop-*-examples.jar pi 2 100000