Как установить Apache Spark на CentOS 8
В этом руководстве мы покажем вам, как установить Apache Spark на CentOS 8. Для тех из вас, кто не знал, Apache Spark — это быстрая и универсальная кластерная вычислительная система. Он предоставляет высокоуровневые API-интерфейсы на Java, Scala и Python, а также оптимизированный движок, поддерживающий общие диаграммы выполнения. Он также поддерживает богатый набор инструментов более высокого уровня, включая Spark SQL для SQL и обработки структурированной информации, MLlib для машинного обучения, GraphX для обработки графиков и Spark Streaming.
В этой статье предполагается, что у вас есть хотя бы базовые знания Linux, вы знаете, как использовать оболочку, и, что наиболее важно, вы размещаете свой сайт на собственном VPS. Установка довольно проста и предполагает, что вы работаете с учетной записью root, в противном случае вам может потребоваться добавить ‘ sudo
‘ к командам для получения привилегий root. Я покажу вам пошаговую установку Apache Spark на CentOS 8.
Установка Apache Spark на CentOS 8
Шаг 1. Во-первых, давайте начнем с проверки актуальности вашей системы и установки всех необходимых зависимостей.
sudo dnf install epel-release sudo dnf update
Шаг 2. Установка Java.
Установка Java в этой статье была рассмотрена в предыдущей статье. Мы обратимся к статье об установке Java . Затем мы проверяем версию Java с помощью командной строки ниже:
java -version
Шаг 3. Установка Scala.
Apache Spark реализован на языке программирования Scala, поэтому нам нужно установить Scala для запуска Apache Spark, поэтому нам просто нужно убедиться, что Java и Python присутствуют:
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
После установки проверьте версию scala:
scala -version
Шаг 4. Установка Apache Spark на CentOS 8.
Теперь скачиваем последнюю версию Apache Spark из официального источника:
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Перед запуском Spark установите некоторые переменные среды:
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
Автономный кластер Spark можно запустить вручную, т. д. Выполнив сценарий запуска на каждом узле, или просто используя доступные сценарии запуска . Для тестирования мы можем запускать главные и подчиненные демоны на одной машине:
./sbin/start-master.sh
Шаг 5. Настройте брандмауэр для Apache Spark.
Выполните следующую команду, чтобы открыть порт на брандмауэре:
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
Шаг 6. Доступ к веб-интерфейсу Apache Spark.
По умолчанию Apache Spark будет доступен через HTTP-порт 7077. Откройте свой любимый браузер, перейдите к или и выполните необходимые действия, чтобы завершить установку. http://your-domain.com:7077
или http://server-ip-address:7077
.
Поздравляю! Вы успешно установили Apache Spark . Благодарим за использование этого руководства для установки фреймворка с открытым исходным кодом Apache Spark в вашей системе CentOS 8. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный сайт Apache Spark .