Как установить Apache Hadoop на Debian 11
В этом руководстве мы покажем вам, как установить Apache Hadoop на Debian 11. Для тех из вас, кто не знал, Apache Hadoop — это программная платформа на основе Java с открытым исходным кодом, которая управляет обработкой и хранением данных для приложений с большими данными. . Он предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых предлагает локальные вычисления и хранение.
В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo
‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Apache Hadoop на Debian 11 (Bullseye).
Установите Apache Hadoop на Debian 11 Bullseye
Шаг 1. Перед установкой любого программного обеспечения важно убедиться, что ваша система обновлена, выполнив следующие apt
команды в терминале:
sudo apt update sudo apt upgrade
Шаг 2. Установка Java.
Apache Hadoop — это приложение на основе Java. Итак, вам нужно будет установить Java в вашу систему:
sudo apt install default-jdk default-jre
Проверьте установку Java:
java -version
Шаг 3. Создание пользователя Hadoop.
Выполните следующую команду, чтобы создать нового пользователя с именем Hadoop:
adduser hadoop
Затем переключитесь на пользователя Hadoop после создания пользователя:
su - hadoop
Теперь пришло время сгенерировать ключ ssh, потому что Hadoop требует доступа ssh для управления своим узлом, удаленным или локальным компьютером, поэтому для нашего единственного узла настройки Hadoop мы настраиваем так, чтобы у нас был доступ к localhost:
ssh-keygen -t rsa
После этого дайте разрешение файлу authorized_keys:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
Затем проверьте SSH-соединение без пароля с помощью следующей команды:
ssh your-server-IP-address
Шаг 4. Установка Apache Hadoop на Debian 11.
Сначала переключитесь на пользователя Hadoop и загрузите последнюю версию Hadoop с официальной страницы, используя следующую wget
команду:
su - hadoop wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz
Затем извлеките загруженный файл с помощью следующей команды:
tar -xvzf hadoop-3.3.1.tar.gz
После распаковки измените текущий каталог на папку Hadoop:
su root cd /home/hadoop mv hadoop-3.3.1 /usr/local/hadoop
Затем создайте каталог для хранения журнала с помощью следующей команды:
mkdir /usr/local/hadoop/logs
Измените владельца каталога Hadoop на Hadoop:
chown -R hadoop:hadoop /usr/local/hadoop su hadoop
После этого настраиваем переменные среды Hadoop:
nano ~/.bashrc
Добавьте следующую конфигурацию:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Сохраните и закройте файл. Затем активируйте переменные среды:
source ~/.bashrc
Шаг 5. Настройте Apache Hadoop.
- Настройте переменные среды Java:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Добавьте следующую конфигурацию:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Далее нам нужно скачать файл активации Javax:
cd /usr/local/hadoop/lib sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar
Проверьте версию Apache Hadoop:
hadoop version
Вывод:
Hadoop 3.3.1
- Настройте файл core-site.xml:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Добавьте следующий файл:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property> </configuration>
- Настройте файл hdfs-site.xml:
Перед настройкой создайте каталог для хранения метаданных узла:
mkdir -p /home/hadoop/hdfs/{namenode,datanode} chown -R hadoop:hadoop /home/hadoop/hdfs
Затем отредактируйте файл и определите расположение каталога:hdfs-site.xml
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавьте следующую строку:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
- Настройте файл mapred-site.xml:
Теперь редактируем файл:mapred-site.xml
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавьте следующую конфигурацию:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
- Настройте файл yarn-site.xml:
Вам нужно будет отредактировать файл и определить настройки, связанные с YARN:yarn-site.xml
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Добавьте следующую конфигурацию:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
- Отформатируйте HDFS NameNode.
Выполните следующую команду, чтобы отформатировать Hadoop Namenode:
hdfs namenode -format
- Запустите кластер Hadoop.
Теперь мы запускаем NameNode и DataNode следующей командой:
start-dfs.sh
Затем запустите менеджеры ресурсов и узлов YARN:
start-yarn.sh
Теперь вы можете проверить их с помощью следующей команды:
jps
Вывод:
root@infoit.com.ua:~$ jps 58000 NameNode 54697 DataNode 55365 ResourceManager 55083 SecondaryNameNode 58556 Jps 55365 NodeManager
Шаг 6. Доступ к веб-интерфейсу Hadoop.
После успешной установки откройте свой веб-браузер и получите доступ к Apache Hadoop с помощью URL-адреса . Вы будете перенаправлены в веб-интерфейс Hadoop:http://your-server-ip-address:9870
Перейдите по URL-адресу или IP-адресу вашего локального хоста, чтобы получить доступ к отдельным узлам данных: http://your-server-ip-address:9864
Чтобы получить доступ к диспетчеру ресурсов YARN, используйте URL-адрес . Вы должны увидеть следующий экран:http://your-server-ip-adddress:8088
Поздравляю! Вы успешно установили Hadoop . Благодарим за использование этого руководства для установки последней версии Apache Hadoop на Debian 11 Bullseye. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный сайт Apache .