Hvordan installere og konfigurere Apache Spark på Ubuntu/Debian

Apache Spark er et distribuert beregningsrammeverk med åpen kildekode som er laget for å gi raskere beregningsresultater. Det er en beregningsmotor i minnet, noe som betyr at dataene vil bli behandlet i minnet.

Spark støtter ulike APIer for strømming, grafbehandling, SQL, MLLib. Den støtter også Java, Python, Scala og R som foretrukne språk. Spark er for det meste installert i Hadoop-klynger, men du kan også installere og konfigurere gnist i frittstående modus.

I denne artikkelen skal vi se hvordan du installerer Apache Spark i Debian og Ubuntu-baserte distribusjoner.

Installer Java og Scala i Ubuntu

For å installere Apache Spark i Ubuntu, må du ha Java og Scala installert på maskinen din. De fleste av de moderne distribusjonene kommer med Java installert som standard, og du kan bekrefte det ved å bruke følgende kommando.

java -version

Hvis ingen utdata, kan du installere Java ved å bruke artikkelen vår om hvordan du installerer Java på Ubuntu eller bare kjøre følgende kommandoer for å installere Java på Ubuntu og Debian-baserte distribusjoner.

sudo apt update
sudo apt install default-jre
java -version

Deretter kan du installere Scala fra apt-depotet ved å kjøre følgende kommandoer for å søke etter scala og installere det.

sudo apt search scala  ⇒ Search for the package
sudo apt install scala ⇒ Install the package

For å bekrefte installasjonen av Scala, kjør følgende kommando.

scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installer Apache Spark i Ubuntu

Gå nå til den offisielle Apache Spark-nedlastingssiden og hent den nyeste versjonen (dvs. 3.1.1) når du skriver denne artikkelen. Alternativt kan du bruke wget-kommandoen til å laste ned filen direkte i terminalen.

wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Åpne nå terminalen og bytt til der den nedlastede filen er plassert og kjør følgende kommando for å pakke ut Apache Spark tar-filen.

tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Til slutt flytter du den utpakkede Spark-katalogen til /opt-katalogen.

sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurer miljøvariabler for Spark

Nå må du angi noen få miljøvariabler i .profile-filen din før du starter gnisten.

echo "export SPARK_HOME=/opt/spark" >> ~/.profile
echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

For å sikre at disse nye miljøvariablene er tilgjengelige i skallet og tilgjengelige for Apache Spark, er det også obligatorisk å kjøre følgende kommando for å sette nylige endringer i kraft.

source ~/.profile

Alle gnistrelaterte binære filer for å starte og stoppe tjenestene er under sbin-mappen.

ls -l /opt/spark

Start Apache Spark i Ubuntu

Kjør følgende kommando for å starte Spark-mastertjenesten og slavetjenesten.

start-master.sh
start-workers.sh spark://localhost:7077

Når tjenesten er startet, gå til nettleseren og skriv inn følgende URL-tilgangsgnistside. Fra siden kan du se at min herre- og slavetjeneste er startet.

http://localhost:8080/
OR
http://127.0.0.1:8080

Du kan også sjekke om spark-shell fungerer bra ved å starte kommandoen spark-shell.

spark-shell

Det er det for denne artikkelen. Vi vil ta deg med en annen interessant artikkel veldig snart.