Zum Inhalt springen

  • Beiträge
    72
  • Kommentare
    239
  • Aufrufe
    12.686

Modul: Data Warehouse & Data Mining


kurtchen

1.066 Aufrufe

Das Modul "Data Warehouse & Data Mining" kann in meinem Studiengang "Web- und Medieninformatik" als Vertiefungsmodul belegt werden. Für Studierende der Wirtschaftsinformatik ist es ein Pflichtmodul und wird dem Studienbereich "Wirtschaftsinformatik" zugerechnet. Meine Erwartungen an dieses Modul wurden durch das Lehrbuch "Data Mining" von Jürgen Cleve und Uwe Lämmel geprägt. In diesem Buch geht es darum, wie Analyseverfahren mathematisch und algorithmisch funktionieren. Das wollte ich lernen. Zu meiner anfänglichen Enttäuschung hat dieses Modul andere inhaltliche Schwerpunkte. Eigentlich hätte ich das ahnen müssen. Als inhaltliche Voraussetzung werden nämlich "Grundlagen der Informatik 1" und "SQL und relationale Datenbanken" aber nicht "Statistik" genannt. Kein Wunder also, dass die eigentlichen Mechanismen des "Knowledge Discovery in Databases" keinen großen Raum einnehmen.

 

Dieses Modul beschäftigt sich mit Data Mining und Data Warehousing in einem unternehmerischen Kontext. Zunächst geht es um die Unterscheidung zwischen operativen und analyseorientierten Informationssystemen. Operative Systeme sind entlang von Workflows im Unternehmen organisiert. Ein Beispiel wäre eine Software zu Aufnahme und Abwicklung von Bestellungen. Solche Informationssysteme häufen im Laufe der Zeit große Datenbestände an. Die Art der Ablage der Daten ist aber an der konsistenten Speicherung von fallbezogenen Daten orientiert.

 

Bei analyseorientierten Informationssystemen geht es darum, die so gewonnenen Daten in Kombination mit Daten aus anderen Quellen mit geeigneten Methoden auszuwerten, um bislang unbekannte Muster und Zusammenhänge zu erkennen, die sich betriebswirtschaftlich nutzen lassen. Zum Beispiel, dass bestimmte Produkte häufig in Kombination gekauft werden oder dass der Kauf bestimmter Produkte Folgekäufe bestimmter anderer Produkte nach sich zieht. Ein Unternehmen könnte darauf z.B. reagieren, indem es solche Produkte gemeinsam anbietet oder Werbung passgenau verschickt.Die Details solcher Auswertungsprozesse stehen nicht im Mittelpunkt des Kurses. Vielmehr geht es um den Prozess im Unternehmen, in dem solche Verfahren durch geeignete Aufbereitung der Daten vorbereitet werden und zur Anwendung kommen. Und natürlich auch darum, wie die Ergebnisse solcher Analysen für den Unternehmenserfolg nutzbar gemacht werden können.

 

Als Studierender der Web- und Medieninformatik bin ich eine andere Perspektive gewohnt: Wie funktioniert es technisch?

 

Aber das ist ein Modul für Wirtschaftsinformatiker. Die Perspektive ist eher: Wie bekommen wir das im Unternehmern organisiert? Was fangen wir betriebswirtschaftlich damit an? Die nötige Analysesoftware programmieren wir wahrscheinlich nicht selbst sondern kaufen sie ein. Wir möchten daher nur wissen, was für Verfahren es gibt und für welche Anwendungsszenarien sie welche Stärken und Schwächen haben. Wir müssen nicht en detail wissen, wie z.B. ein künstliches neuronales Netz in der Lage ist, bislang unbekannte Muster im Kaufverhalten zu entdecken.

 

Nach der ersten Enttäuschung habe ich beschlossen, mich auf diese andere Perspektive einzulassen und das beste aus dem Modul zu machen. Unterm Strich hat es mir dann doch recht gut gefallen, wenn auch aus ganz anderen Gründen als erwartet. Der größte Gewinn war tatsächlich die unternehmerische, anwendungsbezogene Perspektive, über die ich mir bislang weniger Gedanken gemacht hatte. Mich interessiert, wie man ein gegebenes Problem technisch lösen kann. Wie man vorhandene Technologien einsetzt, um sich im Wettbewerb Vorteile zu verschaffen, finde ich weniger spannend. Aber natürlich braucht man Menschen, die sich um genau solche Dinge Gedanken machen. Ich möchte mich nicht unbedingt selbst in diese Richtung entwickeln, aber ich halte es für sinnvoll, ein Verständnis für diese Denk- und Arbeitsweise zu entwickeln. Und für Menschen, die so arbeiten. Dazu ist das Modul Data Mining gut geeignet.

 

Der Umfang des Lehrbuches ist mit ca. 200 Seiten für Springer Campus unterdurchschnittlich. Nur die zweite Hälfte des Buches beschäftigt sich mit dem Prozess der Wissensgewinnung aus großen Datenbeständen. In der ersten Hälfte geht es zunächst um die Transformation und Zusammenführung von Daten aus operativen Systemen. Für analyseorientierte Systeme bieten sich andere Formen der Datenspeicherung an. Es gibt multidimensionale Datenbanken, die für genau solche Anwendungsfälle entwickelt wurden. Auch die Verwendung relationaler Datenbanken ist möglich, aber sie werden dann oft anders aufgebaut. Während man in operativen Systemen redundante Speicherung von Informationen vermeiden möchte, um Inkonsistenzen auszuschließen, lässt man bei analyseorientierten Systemen manchmal gewisse Redundanzen zu, um schneller durch multidimensionale Datenbestände navigieren zu können. All dies ist zusammengefasst in den Kapiteln zu Data Warehouse und OLAP. Eine wesentliche Rolle spielen die grundlegenden Navigationsmöglichkeiten in multidimensionalen Datenstrukturen. Man kann multidimensionale Datenwürfel in verschiedenen Ebenen schneiden (Slicing), den Datenwürfel durch die Schnittebene drehen (Dicing), Dimensionen feiner Auflösen bzw. in den Würfel hineinzoomen (Drill down) oder aus dem Würfel herauszoomen (Roll up). Ziel ist, eine Datenstruktur aufzubauen, die es erlaubt, große Datenbestände interaktiv und auf neue Weise zu erkunden. Das ist etwas ganz anderes als klassisches Reporting.

 

Erst im zweiten Teil des Buches geht es dann um Data Mining, also das Erkennen bislang unbekannter Muster in großen Datenbeständen. Im Lehrbuch werden zwei Auslegungen des Begriffes Data Mining unterschieden. Data Mining im engeren Sinne ist der technische Prozess der Wissensentdeckung in Datenbanken. Dazu verwendet man Verfahren wie künstliche neuronale Netze, Clusterverfahren, Assoziationsanalyse und Entscheidungsbaumverfahren. Data Mining im weiteren Sinne ist ein umfassender, mehrstufiger Prozess. Die Stufen heißen: Business Understanding, Data Understanding (Auswahl und Sichtung der Daten), Data Preparation (Datenaufbereitung und -bereinigung), Data Modelling (die Anwendung der eigentlichen Analyseverfahren), Evaluation (Beurteilung und Auswahl relevanter Analyseergebnisse) und Deployment (die Anwendung der Ergebnisse zur Generierung von Wettbewerbsvorteilen). Das Lehrbuch konzentriert sich auf die zweite Sichtweise des Data Minings als mehrstufiger Prozess. Wer wissen will, wie die Phase des Data Modelling mathematisch-technisch funktioniert, sollte ein anderes Lehrbuch lesen.

 

Typisch für Springer Campus ist, dass jedes Kapitel mit einer Fallstudie endet, die die Anwendung der beschriebenen Techniken und Konzepte in einem betrieblichen Kontext schildert. Hier geht es um eine Firma, die Fahrräder produziert und ihre Kunden gezielter ansprechen möchte.

 

Meine Tutorin gab mir mit den Aufgaben gute Rückmeldungen zur Klausurvorbereitung. Dankbar bin ich vor allem für ihre Tipps zum Zeitmanagement in der Klausur. Meine eingereichten Lösungen waren nämlich oft recht detailliert. Hier bekam ich den Hinweis, für die Klausur mehr auf den Punkt zu kommen, weil die Zeit knapp sei. In der Präsenzklausur gab es denn auch viele Aufgaben, die alle Teile des Kurses abdeckten. Ich habe von Anfang bis Ende geschrieben, was das Zeug hielt, und wurde gerade so rechtzeitig fertig. Was recht angenehm war: Die Aufgaben kamen in Dreiergruppen und aus jeder Gruppe sollte man zwei Aufgaben auswählen, eine durfte man weglassen. Auf diese Weise konnte man kleinere Unsicherheiten im Stoff ein wenig ausgleichen. Aber nicht ganz, denn z.T. zielten die Fragen in ähnliche Richtungen mit unterschiedlichen Schwerpunkten. Eine gründliche Vorbereitung des gesamten Stoffes ist also angesagt. Ich meine, ganz gut klar gekommen zu sein. Ein Ergebnis liegt mir aber noch nicht vor.

 

Data Mining ist aus meiner Sicht ein Modul mit mittlerem Schwierigkeitsgrad. Der Arbeitsumfang für die Bearbeitung erscheint mir leicht unterdurchschnittlich, weil das Lehrbuch etwas dünner ist als in vergleichbaren Modulen. Web- und Medieninformatiker sollten sich bewusst sein, dass Data Mining als Modul für Wirtschaftsinformatiker aus einer anderen als der gewohnten Perspektive geschrieben ist und auch eine andere Zielsetzung hat. Wer mit diesem anderen Blickwinkel zurecht kommt, ihn vielleicht sogar als willkommene Abwechslung und Anregung begreifen kann, hat hier eine Möglichkeit, im Vertiefungsbereich auch mal mit etwas weniger Bearbeitungszeit einen Schritt weiter zu kommen. Mir hat es am Ende Spaß gemacht, auch wenn ich immer noch Lust hätte, ein Modul zu belegen, das wirklich vertieft auf die einzelnen Analysetechniken eingeht.

4 Kommentare


Empfohlene Kommentare

Zitat

auch wenn ich immer noch Lust hätte, ein Modul zu belegen, das wirklich vertieft auf die einzelnen Analysetechniken eingeht.

 

Wird das denn auch angeboten, da bei Interesse noch tiefer einzusteigen?

Link zu diesem Kommentar

Nein, ein darauf aufbauendes Modul gibt es nicht. Aber es gibt ein Modul "Data Mining" aus dem Studiengang "IT-Forensik" der WINGS. Da geht es um Analysetechniken. Leider fehlt mir momentan die Zeit für solche Extratouren.

Link zu diesem Kommentar

Ergänzen möchte ich noch, dass Springer Campus auch ein Modul "Text Mining" hat. Im Gegensatz zu Data Mining liegt der Schwerpunkt dort auf Analysetechniken. Deswegen wird für dieses Modul auch "Statistik" als inhaltliche Voraussetzung genannt. Das Lehrbuch liegt mir bereits vor und macht beim Durchblättern einen sehr "mathematischen" Eindruck. Manche Begriffe aus dem Lehrbuch "Data Mining" tauchen hier wieder auf, z.B. Clusteranalyse. Ob die im Kontext von Text Mining eine andere Bedeutung haben, weiß ich noch nicht genau. Jedenfalls geht es in diesem Buch klar darum, wie es mathematisch-algorithmisch funktioniert. Möglicherweise war das auch ein Grund, für Data-Mining eine andere inhaltliche Ausrichtung zu wählen.

 

Text Mining werde ich als Wahlpflichtmodul belegen. Es gibt im Anhang Kapitel zur Einführung in bestimmte linguistische Grundlagen, die man braucht, um die Analysetechniken begreifen zu können. Hier hat man also ein Modul, wo sich Informatik und Geisteswissenschaft berühren, was ich schon mal interessant finde. Ich hatte E-Mail-Kontakt mit einem der Autoren des Moduls. Er schrieb mir, dass Text-Mining für "digital humanities" eingesetzt wird. Geisteswissenschaftler nutzen Computer und die Analysetechniken des Text-Minings, um große Mengen natürlichsprachlicher Texte auswerten zu können. Klingt für mich echt spannend.

 

Wegen der mathematischen Ausrichtung vermute ich, dass das ein vergleichsweise schwieriges Modul sein wird. Ich schiebe das noch eine Weile vor mir her, weil ich erst ein paar bestimmte Pflichtmodule hinter mir lassen möchte. Wahrscheinlich wird das ein Modul, dass ich nicht gut parallel zu anderen Modulen bearbeiten kann. Dafür brauche ich einen freien Kopf. Ich freu mich schon drauf.

Link zu diesem Kommentar

So lange habe ich bei Springer noch nie auf die Korrektur einer Präsenzklausur gewartet. Neun Wochen ist es her, dass ich "Data Warehouse & Data Mining" geschrieben habe. Heute kam endlich ein Ergebnis.

 

Es ist ziemlich gut gelaufen. Ich glaubte zwar schon, meine Sache ganz gut gemacht zu haben. Aber durch die für mich ungewohnte Perspektive Wirtschaftsinformatik war ich mir nicht ganz sicher, ob ich auch bei allen Aufgaben genau das geliefert hatte, was benotungsrelevant war. Das scheint gut geklappt zu haben.

 

Auch wenn ich das Modul anfangs etwas spröde fand, ziehe ich nun doch ein positives Fazit. Data Warehouse war interessant, auch wenn der inhaltliche Schwerpunkt nicht - wie von mir erhofft - auf den Analysetechniken lag. Das scheint aber genau der Fokus des Moduls "Text-Mining" zu sein, dass ich ebenfalls im Wahlpflichtbereich belegen möchte. Hier werden Statistik-Kenntnisse  als inhaltliche Voraussetzungen genannt und beim Durchblättern wirkt der Lehrtext durchaus recht mathematisch. Ich glaube, diese beiden Module werden sich gut ergänzen. Auf Text-Mining freue ich mich schon.

 

Inzwischen erwäge ich, auch "Business-Intelligence" zu belegen. Das scheint inhaltlich wieder in einer ähnliche Richtung zu gehen wie "Data-Warehouse & Data Mining", das auch als eine der inhaltlichen Voraussetzungen genannt wird. Als weitere Voraussetzung wird allerdings BWL2 genannt (Ökonomie und Unternehmensführung). Das habe ich noch nicht geschafft. Insofern möchte ich erst mal abwarten, wie ich damit zurecht komme, und mich erst dann endgültig entscheiden.

Link zu diesem Kommentar

Erstelle ein Benutzerkonto oder melde Dich an, um zu kommentieren

Du musst ein Benutzerkonto haben, um einen Kommentar verfassen zu können

Benutzerkonto erstellen

Neues Benutzerkonto für unsere Community erstellen. Es ist einfach!

Neues Benutzerkonto erstellen

Anmelden

Du hast bereits ein Benutzerkonto? Melde Dich hier an.

Jetzt anmelden


×
  • Neu erstellen...