Hvordan installere og konfigurere Apache Spark på Ubuntu/Debian
Apache Spark er et distribuert beregningsrammeverk med åpen kildekode som er laget for å gi raskere beregningsresultater. Det er en beregningsmotor i minnet, noe som betyr at dataene vil bli behandlet i minnet.
Spark støtter ulike APIer for strømming, grafbehandling, SQL, MLLib. Den støtter også Java, Python, Scala og R som foretrukne språk. Spark er for det meste installert i Hadoop-klynger, men du kan også installere og konfigurere gnist i frittstående modus.
I denne artikkelen skal vi se hvordan du installerer Apache Spark i Debian og Ubuntu-baserte distribusjoner.
Installer Java og Scala i Ubuntu
For å installere Apache Spark i Ubuntu, må du ha Java og Scala installert på maskinen din. De fleste av de moderne distribusjonene kommer med Java installert som standard, og du kan bekrefte det ved å bruke følgende kommando.
java -version
Hvis ingen utdata, kan du installere Java ved å bruke artikkelen vår om hvordan du installerer Java på Ubuntu eller bare kjøre følgende kommandoer for å installere Java på Ubuntu og Debian-baserte distribusjoner.
sudo apt update
sudo apt install default-jre
java -version
Deretter kan du installere Scala fra apt-depotet ved å kjøre følgende kommandoer for å søke etter scala og installere det.
sudo apt search scala ⇒ Search for the package
sudo apt install scala ⇒ Install the package
For å bekrefte installasjonen av Scala, kjør følgende kommando.
scala -version
Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Installer Apache Spark i Ubuntu
Gå nå til den offisielle Apache Spark-nedlastingssiden og hent den nyeste versjonen (dvs. 3.1.1) når du skriver denne artikkelen. Alternativt kan du bruke wget-kommandoen til å laste ned filen direkte i terminalen.
wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Åpne nå terminalen og bytt til der den nedlastede filen er plassert og kjør følgende kommando for å pakke ut Apache Spark tar-filen.
tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Til slutt flytter du den utpakkede Spark-katalogen til /opt-katalogen.
sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigurer miljøvariabler for Spark
Nå må du angi noen få miljøvariabler i .profile-filen din før du starter gnisten.
echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
For å sikre at disse nye miljøvariablene er tilgjengelige i skallet og tilgjengelige for Apache Spark, er det også obligatorisk å kjøre følgende kommando for å sette nylige endringer i kraft.
source ~/.profile
Alle gnistrelaterte binære filer for å starte og stoppe tjenestene er under sbin-mappen.
ls -l /opt/spark
Start Apache Spark i Ubuntu
Kjør følgende kommando for å starte Spark-mastertjenesten og slavetjenesten.
start-master.sh
start-workers.sh spark://localhost:7077
Når tjenesten er startet, gå til nettleseren og skriv inn følgende URL-tilgangsgnistside. Fra siden kan du se at min herre- og slavetjeneste er startet.
http://localhost:8080/
OR
http://127.0.0.1:8080
Du kan også sjekke om spark-shell fungerer bra ved å starte kommandoen spark-shell.
spark-shell
Det er det for denne artikkelen. Vi vil ta deg med en annen interessant artikkel veldig snart.