Eine Data Science Umgebung unter Windows aufsetzen mit Anaconda

Anaconda ist freie Open Source Distribution für die Porgrammiersprachen Python und R. Dies ermöglicht es Data Scientisten als auch Data Engineers auf eine sehr einfache Art und Weise Python oder R. Gängige Bibliotheken wie SciPy, Scikit-learn, Keras, Tensorflow etc. können bei Bedarf über den integrieren Paketmanager Conda jederzeit hinzugefügt werden. Somit kann sehr einfach und vor allem auch sehr schnell eine Entwicklungsumgebung für Data Scientists aufgesetzt und bereitgestellt werden indem der Data Scientist alles an benötigten Tools/Bibliotheken findet und sofort startbereit ist. Es ist binnen weniger Minuten aufgesetzt und funktioniert auf Anhieb. Des Weiteren können spezifische virtuelle Umgebung erstellt werden um beispielsweise geringere und nur benötigte Pakete zu installieren oder mit einer speziellen Version zu arbeiten (was ja in der Regel durchaus der Realität entspricht “auf meinem Notebook funktioniert es”).

Zudem ist ein einfacher Transport möglich und Weitergabe von vorkonfigurierten Umgebung. Als Entwicklungsumgebung stehen beispielsweise Jupyter, RStuido und Microsoft Visual Studio zur Verfügung.

Dieser Beitrag soll aufzeigen, wie einfach man Anaconda auf einem Windows 10 Rechner installiere und nutzen kann.

Anaconda kann unter dem nachfolgenden Link heruntergeladen werden.

Anaconda Download Page

Über Download wählen wir die gewünschte Distribution aus. In meinem Fall wird es Python 3.7 version => 64-Bit Graphical Installer sein.

Wir starten das heruntergeladene Installationspaket und machen weiter mit Next.

Das License Agreement bestätigen wir mit I Agree.

Für den Installation Type wähle ich Just me (recommended) aus.

Als Installation Location gebe ich c:\Anaconda3 an.

Bei den Advanced Installation Options lassen wir den Checkbox Add Anaconda to my PATH environment variable deaktiviert und werden das nach erfolgreicher Installation manuell vornehmen. Anaconda gibt auch bei Auswahl dieser Option eine Warnung aus, dass dies zu Problemen bei der Installation führen könnte und durchaus auch eine Neuinstallation nach sich ziehen könnte.

Mit Next bestätigen.

Damit ist die Installation abgeschlossen.

Um zu sehe ob die Installation funktioniert hat öffnen wir nun zum einen den Anaconda Navigator und zum anderen die Anaconda Prompt.

Wenn alles richtig installiert wurde, öffnet sich der Anaconda Navigator.

Als nächstes geben wir in der Anaconda Prompt folgenden Befehl ein:

> conda list

Es sollten alle installierten Packages aufgelistet werden.

Jupyter Notebook

Es gibt insgesamt 3 Wege um ein Jupyter Notebook zu öffnen:

  • Anaconda Prompt
  • Anaconda Navigator
  • Windows Startmenü

Um ein Jupyter Notebook aus der Anaconda Prompt heraus zu öffnen, geben wir in der Prompt folgende Befehl ein:

jupyter notebook

Das führt zu folgender Ausgabe und es öffnet sich Jupyter im Default-Browser.

Alternativ dazu kann man Jupyter aus dem Anaconda Navigator heraus öffnen indem wir auf Home gehen und dort bei Jupyter Notebook auf Launch klicken.

Die letzte Möglichkeit wäre, Jupyter aus dem Startmenü heraus zu öffnen.

Environments

Eine R Umgebung aufsetzen

Man kann R auf zweierlei Wegen aufsetzen.

  • Anaconda Prompt
  • Anaconda Navigator

Im Anaconda Navigator geht es recht einfach und mit zwei Klicks. Wir gehen hierzu im Navigator auf den Tab Environments und klicken in der Liste der Environments auf Create.

Danach wählen wir Python ab und wählen R. Geben anschließend einen Namen für die virtuelle Umgebung ein und klicken auf Create.

R wird nun mit dem Default Package r-essentials installiert.

Aus der Anaconda Prompt heraus kann man die Installation ebenfalls vornehmen. Dazu öffnen wir die Anaconda Prompt und geben folgenden Befehl ein:

(base) > conda create -n R_from_Prompt r r-essentials

Dieser Befehl erstellt eine neue virtuelle Umgebung mir den R Packages r und r-essentials. Um die virtuelle Umgebung zu aktivieren, geben wir nachfolgenden Befehl ein:

(base) > conda activate R_from_Prompt

Das die virtuelle Umgebung erfolgreich aktiviert wurde, sehen wir daran, dass der Prompt nun den Namen der ausgewählten Umgebung anzeigt:

Wenn wir jetzt Jupyter starten, sehen wir unter New auch, dass wir R Notebooks erstellen können.

Um zu testen ob R auch wirklich funktioniert, erstellen wir ein neues Jupyter R Notebook. Im Notebook geben wir nachfolgenden Befehl ein. Wenn dieser Erfolgreich war, wird der Satz “Welcome to R!” ausgegeben ohne Fehler ausgegeben.

print('Welcome to R!'

Testen ob beispielsweise Tensorflow fehlerfrei funktioniert

Wir wechseln in eine Umgebung, welche auf Python 3.6 basiert. Starten Jupyter und erstellen ein neues Python Notebook. Dort geben wir den folgenden Befehl ein und führen es aus.

 # Launch the graph in a session.
 with tf.compat.v1.Session() as ses:

     # Build a graph.
     a = tf.constant(5.0)
     b = tf.constant(6.0)
     c = a * b

     # Evaluate the tensor `c`.
     print(ses.run(c))

Wenn alles funktioniert, sollte die Ausgabe wie folgt aussehen:

Configuring PATH Variables (Windows Commandline)

Um von der Windows Kommandozeile aus mit Anaconda interagieren zu können, müssen wir den Pfad indem sich die Python.exe befindet zu den PATH Variablen hinzufügen.

Das können wir einfach tun, indem wir in der Anaconda Prompt zuerst nach der Python.exe mit dem nachfolgenden Befehl suchen:

(base) > where Python

Die Ausgabe sind die Pfade unter denen die Python.exe zu finden ist. Mit SETX können wir diese Pfade zu der PATH Variable hinzufügen.

(base) > SETX PATH "%PATH%;c:\Anaconda3;C:\Users\Yavuz\AppData\Local\Microsoft\WindowsApps"

Leave a Reply

Your email address will not be published. Required fields are marked *