Как установить Apache Hadoop в Ubuntu 20.04 LTS

Как установить Apache Hadoop в Ubuntu 20.04 LTS

 

В этом руководстве мы покажем вам, как установить Apache Hadoop на Ubuntu 20.04 LTS. Для тех из вас, кто не знал, Apache Hadoop — это платформа с открытым исходным кодом, используемая для распределенного хранения, а также для распределенной обработки больших данных на кластерах компьютеров, работающих на стандартном оборудовании. Вместо того, чтобы полагаться на оборудование для обеспечения высокой доступности, сама библиотека предназначена для обнаружения и обработки сбоев на уровне приложений, таким образом предоставляя услуги высокой доступности поверх кластера компьютеров, каждый из которых может быть подвержен сбоям.

В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Flask на Ubuntu 20.04 (Focal Fossa). Вы можете следовать тем же инструкциям для Ubuntu 18.04, 16.04 и любого другого дистрибутива на основе Debian, например Linux Mint.

Установите Apache Hadoop на Ubuntu 20.04 LTS Focal Fossa

Шаг 1. Во-первых, убедитесь, что все ваши системные пакеты обновлены, выполнив следующие aptкоманды в терминале.

sudo apt update
sudo apt upgrade

Шаг 2. Установка Java.

Чтобы запустить Hadoop, на вашем компьютере должна быть установлена ​​Java 8. Для этого используйте следующую команду:

sudo apt install default-jdk default-jre

После установки вы можете проверить установленную версию Java с помощью следующей команды:

java -version

Шаг 3. Создайте пользователя Hadoop.

Сначала создайте нового пользователя с именем Hadoop с помощью следующей команды:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Затем войдите в систему с пользователем Hadoop и сгенерируйте пару ключей SSH с помощью следующей команды:

su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

После этого проверьте SSH без пароля с помощью следующей команды:

ssh localhost

Как только вы войдете в систему без пароля, вы можете перейти к следующему шагу.

Шаг 4. Установка Apache Hadoop в Ubuntu 20.04.

Теперь мы загружаем последнюю стабильную версию Apache Hadoop , на момент написания этой статьи это версия 3.3.0:

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz

Затем переместите извлеченный каталог в :/usr/local/

sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs

Мы меняем владельца каталога Hadoop на Hadoop:

sudo chown -R hadoop:hadoop /usr/local/hadoop

Шаг 5. Настройте Apache Hadoop.

Настройка переменных среды. Отредактируйте файл и добавьте следующие значения в конец файла:~/.bashrc

nano ~/.bashrc

Добавьте следующие строки:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Примените переменные среды к текущему сеансу:

source ~/.bashrc

Затем вам нужно будет определить переменные среды Java, чтобы настроить параметры проекта, связанные с YARN, HDFS, MapReduce и Hadoop:hadoop-env.sh

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Добавьте следующие строки:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Теперь вы можете проверить версию Hadoop, используя следующую команду:

hadoop version

Шаг 6. Настроить файл.core-site.xml

Откройте файл в текстовом редакторе:core-site.xml

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Добавьте следующие строки:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>

Шаг 7. Настроить файл.hdfs-site.xml

Используйте следующую команду, чтобы открыть файл для редактирования:hdfs-site.xml

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Добавьте следующие строки:

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

Шаг 8. Настроить файл.mapred-site.xml

Используйте следующую команду для доступа к файлу:mapred-site.xml

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Добавьте следующие строки:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Шаг 9. Настроить файл.yarn-site.xml

Откройте файл в текстовом редакторе:yarn-site.xml

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Добавьте следующие строки:

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

Шаг 10. Отформатируйте HDFS NameNode.

Теперь мы входим в систему с пользователем Hadoop и форматируем HDFS NameNode с помощью следующей команды:

su - hadoop
hdfs namenode -format

Шаг 11. Запустите кластер Hadoop.

Теперь запустите NameNode и DataNode с помощью следующей команды:

start-dfs.sh

Затем запустите ресурсы YARN и менеджеры узлов:

start-yarn.sh

Вы должны наблюдать за выводом, чтобы убедиться, что он пытается запустить datanode на подчиненных узлах один за другим. Чтобы проверить, правильно ли запущены все службы, используйте jpsкоманду ‘ ‘:

jps

Шаг 12. Доступ к Apache Hadoop.

Номер порта по умолчанию 9870 дает вам доступ к пользовательскому интерфейсу Hadoop NameNode:

http://your-server-ip:9870

Порт по умолчанию 9864 используется для доступа к отдельным узлам данных непосредственно из вашего браузера:

http://your-server-ip:9864

Менеджер ресурсов YARN доступен через порт 8088:

http://your-server-ip:8088

Поздравляю! Вы успешно установили Hadoop . Благодарим за использование этого руководства по установке Apache Hadoop в системе Ubuntu 20.04 LTS Focal Fossa. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный веб-сайт Apache Hadoop .