Как установить Apache Hadoop в Ubuntu 20.04 LTS
В этом руководстве мы покажем вам, как установить Apache Hadoop на Ubuntu 20.04 LTS. Для тех из вас, кто не знал, Apache Hadoop — это платформа с открытым исходным кодом, используемая для распределенного хранения, а также для распределенной обработки больших данных на кластерах компьютеров, работающих на стандартном оборудовании. Вместо того, чтобы полагаться на оборудование для обеспечения высокой доступности, сама библиотека предназначена для обнаружения и обработки сбоев на уровне приложений, таким образом предоставляя услуги высокой доступности поверх кластера компьютеров, каждый из которых может быть подвержен сбоям.
В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo
‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Flask на Ubuntu 20.04 (Focal Fossa). Вы можете следовать тем же инструкциям для Ubuntu 18.04, 16.04 и любого другого дистрибутива на основе Debian, например Linux Mint.
Установите Apache Hadoop на Ubuntu 20.04 LTS Focal Fossa
Шаг 1. Во-первых, убедитесь, что все ваши системные пакеты обновлены, выполнив следующие apt
команды в терминале.
sudo apt update sudo apt upgrade
Шаг 2. Установка Java.
Чтобы запустить Hadoop, на вашем компьютере должна быть установлена Java 8. Для этого используйте следующую команду:
sudo apt install default-jdk default-jre
После установки вы можете проверить установленную версию Java с помощью следующей команды:
java -version
Шаг 3. Создайте пользователя Hadoop.
Сначала создайте нового пользователя с именем Hadoop с помощью следующей команды:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Затем войдите в систему с пользователем Hadoop и сгенерируйте пару ключей SSH с помощью следующей команды:
su - hadoopuser ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
После этого проверьте SSH без пароля с помощью следующей команды:
ssh localhost
Как только вы войдете в систему без пароля, вы можете перейти к следующему шагу.
Шаг 4. Установка Apache Hadoop в Ubuntu 20.04.
Теперь мы загружаем последнюю стабильную версию Apache Hadoop , на момент написания этой статьи это версия 3.3.0:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz tar -xvzf hadoop-3.3.0.tar.gz
Затем переместите извлеченный каталог в :/usr/local/
sudo mv hadoop-3.3.0 /usr/local/hadoop sudo mkdir /usr/local/hadoop/logs
Мы меняем владельца каталога Hadoop на Hadoop:
sudo chown -R hadoop:hadoop /usr/local/hadoop
Шаг 5. Настройте Apache Hadoop.
Настройка переменных среды. Отредактируйте файл и добавьте следующие значения в конец файла:~/.bashrc
nano ~/.bashrc
Добавьте следующие строки:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Примените переменные среды к текущему сеансу:
source ~/.bashrc
Затем вам нужно будет определить переменные среды Java, чтобы настроить параметры проекта, связанные с YARN, HDFS, MapReduce и Hadoop:hadoop-env.sh
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Добавьте следующие строки:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Теперь вы можете проверить версию Hadoop, используя следующую команду:
hadoop version
Шаг 6. Настроить файл.core-site.xml
Откройте файл в текстовом редакторе:core-site.xml
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
Добавьте следующие строки:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property> </configuration>
Шаг 7. Настроить файл.hdfs-site.xml
Используйте следующую команду, чтобы открыть файл для редактирования:hdfs-site.xml
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Добавьте следующие строки:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Шаг 8. Настроить файл.mapred-site.xml
Используйте следующую команду для доступа к файлу:mapred-site.xml
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Добавьте следующие строки:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Шаг 9. Настроить файл.yarn-site.xml
Откройте файл в текстовом редакторе:yarn-site.xml
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Добавьте следующие строки:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Шаг 10. Отформатируйте HDFS NameNode.
Теперь мы входим в систему с пользователем Hadoop и форматируем HDFS NameNode с помощью следующей команды:
su - hadoop hdfs namenode -format
Шаг 11. Запустите кластер Hadoop.
Теперь запустите NameNode и DataNode с помощью следующей команды:
start-dfs.sh
Затем запустите ресурсы YARN и менеджеры узлов:
start-yarn.sh
Вы должны наблюдать за выводом, чтобы убедиться, что он пытается запустить datanode на подчиненных узлах один за другим. Чтобы проверить, правильно ли запущены все службы, используйте jps
команду ‘ ‘:
jps
Шаг 12. Доступ к Apache Hadoop.
Номер порта по умолчанию 9870 дает вам доступ к пользовательскому интерфейсу Hadoop NameNode:
http://your-server-ip:9870
Порт по умолчанию 9864 используется для доступа к отдельным узлам данных непосредственно из вашего браузера:
http://your-server-ip:9864
Менеджер ресурсов YARN доступен через порт 8088:
http://your-server-ip:8088
Поздравляю! Вы успешно установили Hadoop . Благодарим за использование этого руководства по установке Apache Hadoop в системе Ubuntu 20.04 LTS Focal Fossa. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный веб-сайт Apache Hadoop .