UbuntuにHadoopをインストールしてみる(1マシン上に)

2012年4月4日

そろそろHadoop入れてみようか。

ということで、例のごとくVMware PlayerにUbuntu11 64bitをインストールして、そこにHadoopを入れてみます。

Ubuntuのインストールなどは省略

Hadoopというのは、Apacheで開発されているオープンソースの大規模データの分散処理です。

詳しくはHadoop(http://hadoop.apache.org/)

ではさっそくインストール。

HadoopはJava上で動くので、まずはJavaを入れます。

本家(http://java.sun.com/)から、とりあえず最新版のJDKをダウンロードします。

/usr/localあたりに展開します。

パスを通します。

~$ java -version
java version “1.7.0_03”
Java(TM) SE Runtime Environment (build 1.7.0_03-b04)
Java HotSpot(TM) 64-Bit Server VM (build 22.1-b02, mixed mode)

となれば、Javaのインストールは完了です。

続いて、Hadoopですが

Ubuntu では、サードパーティ(Cloudera社)が、簡単インストール用のパッケージを作っているので、それを使います。

aptパッケージ管理で入れられるので便利です。

まずは

/etc/apt/sources.list.d/cloudera.list

というファイルを作成し、このファイルの中身は
[text]deb http://archive.cloudera.com/debian <RELEASE>-cdh3 contrib
deb-src http://archive.cloudera.com/debian <RELEASE>-cdh3 contrib[/text]
とします。

は今回は「maverick」を設定。

リポジトリキーを設定
[shell]curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -[/shell]
パッケージリストの更新
[shell]sudo apt-get update[/shell]
hadoopの検索
[text]apt-cache search hadoop[/text]
[text]hadoop-0.20 – A software platform for processing vast amounts of data
hadoop-0.20-conf-pseudo – Pseudo-distributed Hadoop configuration
hadoop-0.20-datanode – Data Node for Hadoop
hadoop-0.20-doc – Documentation for Hadoop
hadoop-0.20-fuse – HDFS exposed over a Filesystem in Userspace
hadoop-0.20-jobtracker – Job Tracker for Hadoop
hadoop-0.20-namenode – Name Node for Hadoop
hadoop-0.20-native – Native libraries for Hadoop (e.g., compression)
hadoop-0.20-pipes – Interface to author Hadoop MapReduce jobs in C++
hadoop-0.20-sbin – Server-side binaries necessary for secured Hadoop clusters
hadoop-0.20-secondarynamenode – Secondary Name Node for Hadoop
hadoop-0.20-source – Source code for Hadoop
hadoop-0.20-tasktracker – Task Tracker for Hadoop[/text]
という一覧が含まれていれば、設定完了です。

続いて、Hadoopを入れます。
[shell]sudo apt-get install hadoop-0.20[/shell]
hadoopのコアしか入らないので、1マシンで全部入れる場合には、デーモン名を後ろに付けたパッケージも入れる必要があります。

が、今回は1マシンで全部入りとするので、
[shell]sudo apt-get install hadoop-0.20-conf-pseudo[/shell]
というパッケージで全部入ります。

次に、namenodeのファイルシステムを初期化する必要があります。
[shell]sudo su – hdfs[/shell]
として、hdfsユーザにログインします。

namenodeを初期化します。
[text]hadoop namenode -format[/text]
Hadoopの各種デーモンを再起動する。

WebUIにアクセスしてみる。

http://localhost:50070/

これで、Hadoop NameNodeのWebUIが表示されれば、インストール成功です。

Hadoop, ubuntu

Posted by GENDOSU