UbuntuにHadoopをインストールしてみる(1マシン上に)
そろそろHadoop入れてみようか。
ということで、例のごとくVMware PlayerにUbuntu11 64bitをインストールして、そこにHadoopを入れてみます。
Ubuntuのインストールなどは省略
Hadoopというのは、Apacheで開発されているオープンソースの大規模データの分散処理です。
詳しくはHadoop(http://hadoop.apache.org/)
ではさっそくインストール。
HadoopはJava上で動くので、まずはJavaを入れます。
本家(http://java.sun.com/)から、とりあえず最新版のJDKをダウンロードします。
/usr/localあたりに展開します。
パスを通します。
~$ java -version
java version “1.7.0_03"
Java(TM) SE Runtime Environment (build 1.7.0_03-b04)
Java HotSpot(TM) 64-Bit Server VM (build 22.1-b02, mixed mode)
となれば、Javaのインストールは完了です。
続いて、Hadoopですが
Ubuntu では、サードパーティ(Cloudera社)が、簡単インストール用のパッケージを作っているので、それを使います。
aptパッケージ管理で入れられるので便利です。
まずは
/etc/apt/sources.list.d/cloudera.list
というファイルを作成し、このファイルの中身は
[text]deb http://archive.cloudera.com/debian <RELEASE>-cdh3 contrib
deb-src http://archive.cloudera.com/debian <RELEASE>-cdh3 contrib[/text]
とします。
※
リポジトリキーを設定
[shell]curl -s http://archive.cloudera.com/debian/archive.key | sudo apt-key add -[/shell]
パッケージリストの更新
[shell]sudo apt-get update[/shell]
hadoopの検索
[text]apt-cache search hadoop[/text]
[text]hadoop-0.20 – A software platform for processing vast amounts of data
hadoop-0.20-conf-pseudo – Pseudo-distributed Hadoop configuration
hadoop-0.20-datanode – Data Node for Hadoop
hadoop-0.20-doc – Documentation for Hadoop
hadoop-0.20-fuse – HDFS exposed over a Filesystem in Userspace
hadoop-0.20-jobtracker – Job Tracker for Hadoop
hadoop-0.20-namenode – Name Node for Hadoop
hadoop-0.20-native – Native libraries for Hadoop (e.g., compression)
hadoop-0.20-pipes – Interface to author Hadoop MapReduce jobs in C++
hadoop-0.20-sbin – Server-side binaries necessary for secured Hadoop clusters
hadoop-0.20-secondarynamenode – Secondary Name Node for Hadoop
hadoop-0.20-source – Source code for Hadoop
hadoop-0.20-tasktracker – Task Tracker for Hadoop[/text]
という一覧が含まれていれば、設定完了です。
続いて、Hadoopを入れます。
[shell]sudo apt-get install hadoop-0.20[/shell]
hadoopのコアしか入らないので、1マシンで全部入れる場合には、デーモン名を後ろに付けたパッケージも入れる必要があります。
が、今回は1マシンで全部入りとするので、
[shell]sudo apt-get install hadoop-0.20-conf-pseudo[/shell]
というパッケージで全部入ります。
次に、namenodeのファイルシステムを初期化する必要があります。
[shell]sudo su – hdfs[/shell]
として、hdfsユーザにログインします。
namenodeを初期化します。
[text]hadoop namenode -format[/text]
Hadoopの各種デーモンを再起動する。
WebUIにアクセスしてみる。
これで、Hadoop NameNodeのWebUIが表示されれば、インストール成功です。