Как установить Apache Spark на CentOS 8

Как установить Apache Spark на CentOS 8

 

В этом руководстве мы покажем вам, как установить Apache Spark на CentOS 8. Для тех из вас, кто не знал, Apache Spark — это быстрая и универсальная кластерная вычислительная система. Он предоставляет высокоуровневые API-интерфейсы на Java, Scala и Python, а также оптимизированный движок, поддерживающий общие диаграммы выполнения. Он также поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и обработки структурированной информации, MLlib для машинного обучения, GraphX ​​для обработки графиков и Spark Streaming.

В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Apache Spark на CentOS 8.

 

Установка Apache Spark на CentOS 8

Шаг 1. Во-первых, давайте начнем с проверки актуальности вашей системы и установки всех необходимых зависимостей.

sudo dnf install epel-release
sudo dnf update

Шаг 2. Установка Java.

Установка Java в этой статье была рассмотрена в предыдущей статье. Мы обратимся к статье об установке Java . Затем мы проверяем версию Java с помощью командной строки ниже:

java -version

Шаг 3. Установка Scala.

Apache Spark реализован на языке программирования Scala, поэтому нам нужно установить Scala для запуска Apache Spark, поэтому нам просто нужно убедиться, что Java и Python присутствуют:

wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz
tar xvf scala-2.13.4.tgz
sudo mv scala-2.13.4 /usr/lib
sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala
export PATH=$PATH:/usr/lib/scala/bin

После установки проверьте версию scala:

scala -version

Шаг 4. Установка Apache Spark на CentOS 8.

Теперь скачиваем последнюю версию Apache Spark из официального источника:

wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz
tar -xzf spark-3.0.1-bin-hadoop2.7.tgz
export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Перед запуском Spark установите некоторые переменные среды:

echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile
echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile

Автономный кластер Spark можно запустить вручную, т. д. Выполнив сценарий запуска на каждом узле, или просто используя доступные сценарии запуска . Для тестирования мы можем запускать главные и подчиненные демоны на одной машине:

./sbin/start-master.sh

Шаг 5. Настройте брандмауэр для Apache Spark.

Выполните следующую команду, чтобы открыть порт на брандмауэре:

sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp
sudo firewall-cmd --reload

Шаг 6. Доступ к веб-интерфейсу Apache Spark.

По умолчанию Apache Spark будет доступен через HTTP-порт 7077. Откройте свой любимый браузер, перейдите к или и выполните необходимые действия, чтобы завершить установку.  http://your-domain.com:7077 или http://server-ip-address:7077 .

Поздравляю! Вы успешно установили Apache Spark . Благодарим за использование этого руководства для установки фреймворка с открытым исходным кодом Apache Spark в вашей системе CentOS 8. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный сайт Apache Spark .