Big Data

一直以来对Hadoop都非常有兴趣，所以这一段时间研究可以下Hadoop集群的搭建，今天写一篇小文章，主要是当做自己的笔记，因为写Hadoop怎么搭建的太多了，好了废话不多说，下面开始正文一、环境准备系统环境因为我个人比较喜欢Linux，另外很多资料都是基于Linux的，所以本文也不能例外，系统当然是Linux啦，开发是老夫最喜欢的Ubuntu，当然这个是看自己喜欢那个版本安装JDK 运行Hadoop需要jre环境，所以如果你的机器没有装JDK，那么就装吧，Ubuntu可以用apt-get install安装，也可以到这个地方：http://www.oracle.com/technetwork/java/javase/downloads/index.html下载然后安装，我个人比较喜欢后一种，因为这么我们可以自己选择装到哪个地方，有利于我们自己配JAVA_HOME、CLASSPATH以及PATH，配置如下： vim /etc/profile 然后在里面添加： export JAVA_HOME=/home/jdk1.7.0_40 export CLASSPATH=".:$JAVA_HOME/lib:$CLASSPATH" export PATH="$JAVA_HOME/:$JAVA_HOME/bin:$PATH" 然后执行生效 source /etc/profile 我们可以任何目录下面测试JDK安装是否成功实现SSH无密码登陆因为hadoop namenode要悄悄的SSH到各datanode中去启动相应的JVM进程，所以必须实现namenode能无密码登陆到datanode所在机器配置命令如下： sudo apt-get install ssh ssh-keygen -t rsa -P ” -f ~/.ssh/id_rsa cat /home/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 可以用命令： ssh localhost 检查是否配置成功，如果有提示授权成功等字样，则表示配置成功。二、安装Hadoop 环境准备好之后，就要开始安装Hadoop，Hadoop有很多版本，我们是以hadoop-1.2.1为基础，首先下载Hadoop，下载地址：http://www.apache.org/dyn/closer.cgi/hadoop/common/，下载之后我们把它copy到/home下，解压： tar -zxvf hadoop-1.2.1-bin.tar.gz 解压之后我们找到Hadoop的conf文件夹，下面我们的配置都将在这个文件夹下首先要配置的文件是：hadoop-env.sh，我们打开这个文件，找到配置JVAV_HOME的那一行，把注释打开，写上我们安装的JDK的路径配置core-site.xml，打开该文件，在文件中添加： <configuration> <property> <name>hadoop.tmp.dir</name> <value>/hadoop</value> </property> <property> <name>dfs.name.dir</name> <value>/hadoop/name</value> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration> 配置hdfs-site.xml，同样添加： <configuration> <property> <name>dfs.data.dir</name> <value>/hadoop/data</value> </property> </configuration> 配置mapred-site.xml，也是添加 <configuration> <property> <name>mapred.job.tracker</name> <value>localhost:9001</value> </property> </configuration> 下面我们同样需要配置hadoop_home，同样是打开 vim /etc/profile 在里面添加： ...