Zum Inhalt springen

Statistical Computing


PVoss

566 Aufrufe

Moin,

 

es hat jetzt doch etwas länger gedauert diesen Blogeintrag zu schreiben. Zum einen fehlte mir die Inspiration, zum anderen habe ich stattdessen jeden Tag an der Fallstudie für Big Data gearbeitet. Gestern habe ich bereits die Note für die Klausur in Deep Learning bekommen, das ist ein guter Anlass um wieder was zu schreiben.

 

Statistical Computing

Zu diesem Kurs gibt es an sich gar nicht so viel zu sagen. Der Dozent beschreibt ihn als Übergangskurs von der Statistik in das Thema Maschinelles Lernen. Inhaltlich bedeutet das, es werden die Themen aus dem Kurs Statistik aufgefrischt, aber anstatt die Rechnungen manuell durchzuführen, verwenden wir die Funktionen aus Programmiersprachen oder Statistikprogrammen - in diesem Kurs wird dafür R verwendet.

 

Die Fallstudie

Die Aufgabenstellungen der Fallstudie und die Kombination mit dem Kurs Deep Learning sind das, was diesen Kurs für mich so besonders machen. Die Szenarien der Augaben sind teilweise ziemlich Banane, aber die konkreten Aufgabenstellungen selbst sind sehr interessant und praxisorientiert. Man kann wieder aus 3 verschiedenen Aufgabenstellungen auswählen, ich habe für mich die Aufgabe ausgewählt die ich am besten mit dem maschinellen Lernen verknüpfen konnte. Während es bei anderen Aufgaben zum Beispiel darum ging vorhandene Daten zu analysieren und daraus Handlungsempfehlungen abzuleiten ging es bei meiner Aufgabe um die Ermittlung fehlender Daten mittels Regressionsanalyse.

Zur Umsetzung habe ich also den Scope des Kurses etwas ausgedehnt und mir mit Python ein paar Skripte zur Aufbereitung der Rohdaten und zum Training von Machine Learning Modellen entwickelt. Damit habe ich mich ein paar Wochenenden beschäftigt, das hat einfach richtig Spaß gemacht. Dabei habe ich dann mit den Daten experimentiert, an den Modellen gebastelt und ständig versucht noch ein bisschen mehr Präzision in die Schätzungen zu bekommen. Zum Abschluss dieses Arbeitsteils ging es dann noch darum die Modelle selbst zu bewerten: sind sie zu sehr angepasst, zu schwach, wie sind die Fehler der Schätzungen verteilt, kann ich die Lagemaße der Fehler in der späteren Auswertung der Daten berücksichtigen oder sind die einfach völlig random? Es ist ein super interessantes Thema.

Das waren also ungefähr 5 Wochen die ich im Endeffekt allein mit der Datenaufbereitung für meine eigentliche statistische Auswertung verbracht habe. Von da an habe ich mich also mit der tatsächlichen* Aufgabenstellung beschäftigt. (*Datenaufbereitung gehört natürlich zum Prozess, aber dieser Umfang ist eigentlich nicht vorgesehen)

Für die Auswertung habe ich mir dann die Programmiersprache R angesehen, die ja auch schon im Skript behandelt wird. R-Studio habe ich auch ausprobiert ... aber sehr schnell wieder weggeworfen, ich bin modernere Tools gewohnt und sowas tue ich mir freiwillig nicht an. Stattdessen gibt es für die IDE PyCharm ein R-Plugin, mit dem man auf die gleichen Funktionen und Bibliotheken wie im R-Studio zugreifen kann.

Insgesamt habe ich für die Fallstudie etwa 46 Diagramme mit R erstellt. 30 davon waren vom gleichen "Typ", andere ähnelten sich auch sehr stark... es waren also am Ende etwa 9 Diagrammtypen die jeweils öfter mit verschiedenen Daten befüllt wurden. Mit den Plot-Bibliotheken in R rumzuspielen hat auch ziemlich Spaß gemacht, da gibt es wirklich viele Möglichkeiten zur Gestaltung der Daten.

 

Es hat auch Spaß gemacht sich Gedanken zu machen welche Daten man wie darstellen möchte, aber ich möchte an dieser Stelle nicht allzu tief in das eigentliche Thema der Fallstudie eintauchen.

Daher das Fazit: Wenn man an dem Thema Interesse hat, gibt es viele Stellen an denen man sich richtig austoben kann. Es ist für mich eine schöne Abwechslung gewesen mal etwas vollkommen anderes zu programmieren.

 

Tipps für die Mitstudenten:

  • Ihr seid in der Wahl der Programmiersprachen recht frei. R wird zwar im Skript behandelt, ihr könnt die Visualisierungen eurer Daten aber auch in Python, JavaScript oder sonstwar umsetzen.
  • Für die Datenaufbereitung gilt das gleiche, theoretisch könntent ihr die Arbeitsschritte in Excel oder ähnlichem umsetzen - es muss halt nachvollziehbar sein wie ihr von den Ausgangsdaten zum Ergebnis kommt.
  • Der Dozent ist super engagiert. Nutzt die Live Sessions um Fragen zu stellen wenn ihr in irgend einem Aspekt unsicher seid oder einfach die mathematischen Themen vertiefen wollt.
  • Die konkreten Aufgabenstellungen sind wieder nicht in Stein gemeißelt. Wichtig ist, dass ihr die jeweiligen Arbeitsschritte umsetzt, aber das Szenario usw. könnt ihr in Absprache mit dem Dozenten ändern.
  • Es müssen nicht alle Diagramme in der Fallstudie landen. Ich habe aus meinen 46 Diagrammen nur die wichtigsten gewählt, für die Typen von denen es mehrere gibt habe ich jeweils eins als Beispiel eingefügt.
    • Die anderen Diagramme liegen auf Github, in der Arbeit habe ich die Verzeichnisstruktur usw. für das Projekt beschrieben damit der Dozent die Grafiken finden und auch zuordnen kann.

 

Das wars zu Statistical Computing. Wie bereits im Forum erwähnt waren die beiden Kurse zum Machine Learning die Highlights meines Studiums, dicht gefolgt von der App-Entwicklung in Android.

Aktuell bearbeite ich noch Data Analytics und Big Data, die Aufgabenstellung macht mir nicht annähernd so viel Spaß; aber man muss da halt durch. Ich gehe davon aus, dass ich die Fallstudie am kommenden Wochenende fertigstellen werde und dann auch zeitnah abgebe. Einen Bericht dazu sollte es also auch demnächst geben.

Nebenbei habe ich bereits ein Exposé für die Bachelorarbeit erstellt und einen möglichen Betreuer angeschrieben. Zu diesen beiden Schritten folgt demnächst auch noch ein Blogeintrag.

 

Bis dann!

Bearbeitet von PVoss

0 Kommentare


Empfohlene Kommentare

Keine Kommentare vorhanden

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden



×
  • Neu erstellen...