Lokale Installation
In diesem Beitrag erfahren Sie, wie Sie VirtualBox mit Ubuntu herunterladen und einrichten. Anschließend werden wir Spark, Python und das Jupiter Notebook auf dieser VirtualBox Ubuntu installieren.
Zuerst müssen Sie folgendes herunterladen (klicken Sie einfach auf die Namen):
VirtualBox herunterladen
Mit VirtualBox können Sie im Grunde genommen einen virtuellen Computer auf Ihrem eigenen physischen Computer haben.
Sie müssen die Download-Seite öffnen und da sehen Sie einige Download Optionen. Klicken Sie einfach auf den richtigen Host (abhängig von dem verwendeten Computer).
Doppelklicken auf die heruntergeladene Datei -> folgen Sie den Anweisungen, machen Sie alles in den Standardeinstellungen.
Ubuntu herunterladen
Sobald Sie VirtualBox heruntergeladen haben, müssen Sie Ubuntu herunterladen. Gehen Sie zur Ubuntu Website und es gibt verschiedene Optionen zum Herunterladen, aber wir benötigen die Ubuntu Desktop Version.
VirtualBox konfigurieren
Sobald Sie den VirtualBox Manager geöffnet haben, klicken Sie oben links auf Neu. Sie werden nach dem Namen des Betriebssystems gefragt. Wir werden es myspark nennen. Ändern Sie den Typ auf Linux und die Version auf Ubuntu (64-Bit).
Klicken Sie auf Weiter und Sie müssen die Speichergröße auswählen. Dies hängt von der Größe des Arbeitsspeichers Ihres Computers ab. Abhängig von den Anwendungen empfehlen wir Ihnen 4-8 GB.
Wir werden eine virtuelle Festplatte erstellen. Wählen Sie den VDI-Typ (VirtualBox Disk Image). Die Erstellung einer Festplatte mit fester Größe kann auf einigen Systemen länger dauern, ist jedoch häufig schneller zu verwenden, weshalb wir sie auswählen werden. Geben Sie es 20 GB und klicken Sie auf Erstellen.
Doppelklicken Sie auf Ihre erstellte VirtualMachine. Schließlich sehen Sie ein Pop-up Fenster mit der Select start-up disk Aufschrift und dort werden Sie auf Ubuntu verweisen, das Sie zuvor heruntergeladen haben.
Ubuntu Installation
Sie werden ein kleines Pop-up Fenster sehen, das entweder Try Ubuntu oder Install Ubuntu anzeigt. Wir möchten Ubuntu installieren und es wird nur auf Ihrer VirtualMachine installiert. Laden Sie dann Updates herunter, während Sie Ubuntu installieren. Klicken Sie auf Weiter. Auf der nächsten Seite müssen Sie auf Festplatte löschen klicken und Ubuntu installieren. Wählen Sie dann Ihre oder eine beliebige Zeitzone aus, wählen Sie das Tastaturlayout aus und geben Sie Ihre Anmeldeinformationen ein. Und voila Ubuntu ist installiert.
Python und Spark
Als erstes möchten wir testen, ob Python 3.5 (oder höher) bereits unter Ubuntu läuft. Wählen Sie Terminal und wenn Sie ~ $ python3 eingeben, erhalten Sie Python 3.5… zurück.
Jetzt installieren wir das Jupiter Notebook System. Führen Sie dazu einfach den folgenden Code aus:
pip3 install jupyter
Wenn es heißt, dass pip3 nicht installiert ist, geben Sie den folgenden Code ein:
sudo apt install python3-pip
Versuchen Sie den vorherigen Befehl erneut, um Jupiter Notebook zu installieren. Sobald dies erledigt ist, geben Sie einfach ~ $ jupiter notebook ein und das Notebook System wird automatisch geöffnet. Kopieren Sie den im Terminal angezeigten Link und fügen Sie ihn ein.
Um Spark herunterzuladen, öffnen Sie die Apache Spark Website und rufen Sie das Download Menü auf. Wählen Sie die gleichen Optionen wie im folgenden Screenshot. Wenn Sie eine neueste Version zur Verfügung haben, können Sie diese auswählen.
Wir wollen das Paket am richtigen Ort. Öffnen Sie also den Datei Explorer, schneiden Sie das Paket aus und fügen Sie es in Ihren Home Ordner ein.
Gehen Sie dann zu Ihrer Befehlszeile und geben Sie Folgendes ein:
sudo tar -zxvf spark(und klicken Sie auf Tab)
Dies wird unser Paket für uns entpacken.
Jetzt wollen wir Python mitteilen, wo Spark zu finden ist.
export SPARK_HOME='home/ubuntu/saprk-2.1.0-bin-hadoop2.7' export PATH=$SPARK_HOME:$PATH export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH export PYSPARK_DRIVER-PYTHON="jupyter" export PYSPARK_DRIVER_PYTHON_OPTS="notebook" export PYSPARK_PYTHON=python3