Как установить Apache Hadoop на Debian 11

Как установить Apache Hadoop на Debian 11

 

В этом руководстве мы покажем вам, как установить Apache Hadoop на Debian 11. Для тех из вас, кто не знал, Apache Hadoop — это программная платформа на основе Java с открытым исходным кодом, которая управляет обработкой и хранением данных для приложений с большими данными. . Он предназначен для масштабирования от отдельных серверов до тысяч машин, каждая из которых предлагает локальные вычисления и хранение.

В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Apache Hadoop на Debian 11 (Bullseye).

Установите Apache Hadoop на Debian 11 Bullseye

Шаг 1. Перед установкой любого программного обеспечения важно убедиться, что ваша система обновлена, выполнив следующие aptкоманды в терминале:

sudo apt update
sudo apt upgrade

Шаг 2. Установка Java.

Apache Hadoop — это приложение на основе Java. Итак, вам нужно будет установить Java в вашу систему:

sudo apt install default-jdk default-jre

Проверьте установку Java:

java -version

Шаг 3. Создание пользователя Hadoop.

Выполните следующую команду, чтобы создать нового пользователя с именем Hadoop:

adduser hadoop

Затем переключитесь на пользователя Hadoop после создания пользователя:

su - hadoop

Теперь пришло время сгенерировать ключ ssh, потому что Hadoop требует доступа ssh для управления своим узлом, удаленным или локальным компьютером, поэтому для нашего единственного узла настройки Hadoop мы настраиваем так, чтобы у нас был доступ к localhost:

ssh-keygen -t rsa

После этого дайте разрешение файлу authorized_keys:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Затем проверьте SSH-соединение без пароля с помощью следующей команды:

ssh your-server-IP-address

Шаг 4. Установка Apache Hadoop на Debian 11.

Сначала переключитесь на пользователя Hadoop и загрузите последнюю версию Hadoop с официальной страницы, используя следующую wgetкоманду:

su - hadoop
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

Затем извлеките загруженный файл с помощью следующей команды:

tar -xvzf hadoop-3.3.1.tar.gz

После распаковки измените текущий каталог на папку Hadoop:

su root
cd /home/hadoop
mv hadoop-3.3.1 /usr/local/hadoop

Затем создайте каталог для хранения журнала с помощью следующей команды:

mkdir /usr/local/hadoop/logs

Измените владельца каталога Hadoop на Hadoop:

chown -R hadoop:hadoop /usr/local/hadoop
su hadoop

После этого настраиваем переменные среды Hadoop:

nano ~/.bashrc

Добавьте следующую конфигурацию:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Сохраните и закройте файл. Затем активируйте переменные среды:

source ~/.bashrc

Шаг 5. Настройте Apache Hadoop.

  • Настройте переменные среды Java:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Добавьте следующую конфигурацию:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Далее нам нужно скачать файл активации Javax:

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Проверьте версию Apache Hadoop:

hadoop version

Вывод:

Hadoop 3.3.1
  • Настройте файл core-site.xml:
nano $HADOOP_HOME/etc/hadoop/core-site.xml

Добавьте следующий файл:

<configuration>
 <property>
            <name>fs.default.name</name>
        <value>hdfs://0.0.0.0:9000</value>
        <description>The default file system URI</description>
 </property>
</configuration>
  • Настройте файл hdfs-site.xml:

Перед настройкой создайте каталог для хранения метаданных узла:

mkdir -p /home/hadoop/hdfs/{namenode,datanode}
chown -R hadoop:hadoop /home/hadoop/hdfs

Затем отредактируйте файл и определите расположение каталога:hdfs-site.xml

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Добавьте следующую строку:

<configuration>
     <property>
            <name>dfs.replication</name>
        <value>1</value>
     </property>

     <property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hdfs/namenode</value>
     </property>

     <property>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hdfs/datanode</value>
     </property>
</configuration>
  • Настройте файл mapred-site.xml:

Теперь редактируем файл:mapred-site.xml

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Добавьте следующую конфигурацию:

<configuration>
 <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>
</configuration>
  • Настройте файл yarn-site.xml:

Вам нужно будет отредактировать файл и определить настройки, связанные с YARN:yarn-site.xml

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Добавьте следующую конфигурацию:

<configuration>
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
 </property>
</configuration>
  • Отформатируйте HDFS NameNode.

Выполните следующую команду, чтобы отформатировать Hadoop Namenode:

hdfs namenode -format
  • Запустите кластер Hadoop.

Теперь мы запускаем NameNode и DataNode следующей командой:

start-dfs.sh

Затем запустите менеджеры ресурсов и узлов YARN:

start-yarn.sh

Теперь вы можете проверить их с помощью следующей команды:

jps

Вывод:

root@infoit.com.ua:~$ jps
58000 NameNode
54697 DataNode
55365 ResourceManager
55083 SecondaryNameNode
58556 Jps
55365 NodeManager

Шаг 6. Доступ к веб-интерфейсу Hadoop.

После успешной установки откройте свой веб-браузер и получите доступ к Apache Hadoop с помощью URL-адреса . Вы будете перенаправлены в веб-интерфейс Hadoop:http://your-server-ip-address:9870

Как установить Apache Hadoop на Debian 11

Перейдите по URL-адресу или IP-адресу вашего локального хоста, чтобы получить доступ к отдельным узлам данных: http://your-server-ip-address:9864

Чтобы получить доступ к диспетчеру ресурсов YARN, используйте URL-адрес . Вы должны увидеть следующий экран:http://your-server-ip-adddress:8088

Поздравляю! Вы успешно установили Hadoop . Благодарим за использование этого руководства для установки последней версии Apache Hadoop на Debian 11 Bullseye. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный сайт Apache .