伪分布式 hadoop

101次阅读

共计 2243 个字符，预计需要花费 6 分钟才能阅读完成。

1. 配置 Java 环境

下载并解压 JDK

wget http://192.168.69.200:20006/%e4%ba%91%e8%ae%a1%e7%ae%97/SW_SETUP/jdk-8u201-linux-x64.tar.gz
tar -xzvf jdk-8u201-linux-x64.tar.gz

确认 JDK 路径

cd /home/ubuntu/jdk1.8.0_201
ls

配置环境变量

nano ~/.profile

在文件末尾添加以下内容：

# Set JAVA_HOME to your JDK installation directory
export JAVA_HOME=/home/ubuntu/jdk1.8.0_201

# Add the JDK's bin directory to the PATH
export PATH=$JAVA_HOME/bin:$PATH

使环境变量生效并验证

source ~/.profile

# 检查 JAVA_HOME
echo $JAVA_HOME

# 检查 Java 编译器版本
javac -version
# 应该输出类似 javac 1.8.0_201 的信息

2. 配置 Hadoop 环境

下载并解压 Hadoop

cd
wget http://192.168.69.200:20006/%e4%ba%91%e8%ae%a1%e7%ae%97/SW_SETUP/hadoop-2.7.1.tar.gz
tar -xzvf hadoop-2.7.1.tar.gz

配置 Hadoop 环境变量

sudo nano ~/.bashrc

在文件末尾添加以下内容：

export HADOOP_HOME=/home/ubuntu/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使配置生效：

source ~/.bashrc

配置 Hadoop 的 Java 环境

# 进入 Hadoop 配置目录
cd $HADOOP_HOME/etc/hadoop

# 配置 hadoop-env.sh 中的 JAVA_HOME
sudo nano hadoop-env.sh

找到 export JAVA_HOME= 这一行，修改为：

export JAVA_HOME=/home/ubuntu/jdk1.8.0_201

3. 配置核心文件

配置 core-site.xml

sudo nano core-site.xml

替换为

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

配置 hdfs-site.xml

sudo nano hdfs-site.xml

替换为

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

MapReduce 配置：

# 复制 MapReduce 配置模板
cp mapred-site.xml.template mapred-site.xml

配置 mapred-site.xml

替换为

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置 yarn-site.xml

sudo nano yarn-site.xml

替换为

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

4.SSH 无密码登录配置

检查 SSH 连接

ssh localhost

配置无密码登录

# 生成 SSH 密钥
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

# 添加公钥到授权文件
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

# 再次测试 SSH
ssh localhost

# 如果 SSH 连接成功，输入 exit 返回
exit

5. 格式化并启动 Hadoop 服务

检查并格式化 HDFS

# 检查是否已经格式化过
ls -la /tmp/hadoop-ubuntu/dfs/name/

# 如果没有 current 目录，需要格式化
hdfs namenode -format

启动 Hadoop 服务

# 启动 HDFS 服务
start-dfs.sh

# 启动 YARN 服务
start-yarn.sh

# 或者直接启动所有
start-all.sh

# 检查进程是否正常启动
jps

5. 验证和测试

检查 Web 管理界面

HDFS 管理界面：http://127.0.0.1:50070/

YARN 管理界面：http://127.0.0.1:8088/

创建并上传测试文件

echo "这是一个通过 Web 界面上传的测试文件" > web_upload_test.txt
echo "Hadoop 伪分布式模式测试" >> web_upload_test.txt
echo "上传时间: $(date)" >> web_upload_test.txt

# 上传文件到 HDFS
hdfs dfs -put web_upload_test.txt /

正文完

发表至： 🐔入机作业

2025-10-29

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

嵌套虚拟机配置网络桥接