Wenn Du mit maschinellen Lernen startest, hörst Du oft die Begriffe supervised und unsupervised.
Was bedeutet das? Und worauf muss ich bei der Wahl achten?
Dieser Guide beantwortet Deine Fragen!
Was ist maschinelles Lernen?
Das Machine Learning oder die künstliche Intelligenz sind keine geschützten Begriffe, die irgendwer abschließend definiert hat.
Die Marketing-Abteilungen von einigen IT-Konzernen und Start-ups nutzen diese Begriffe in der Werbebotschaft, um ihr Produkt von der Konkurrenz abzusetzen. Meistens verbirgt sich hinter Machine Learning und künstlicher Intelligenz häufige die Nutzung von Verwendung von statischen Methoden oder neuronalen Netzen.
Diese Verfahren sind keine neuen Erfindungen, sondern sind mehrere Jahrzehnte oder Jahrhunderte alt. Moderne Computer können heute die theoretischen Rechenwege in der Realität kosteneffizient berechnen.
Steffen Lippke
Prinzipiell funktioniert Machine Learning so:
Der Algorithmus erzeugt ein Modell oder Programm auf Basis von Trainingsdaten. Dieses Modell kann eine Vorhersage (Regen in 4h), Entscheidungen (Schuldig oder nicht schuldig) oder Klassifikationen (Katze, Hund) treffen. Der Programmierer schreibt keine Logik und weiß nicht im Detail, welche Entscheidung das Programm warum und wie trifft.
Basiert das Modell auf zu wenig Daten, welche noch von schlechter Qualität sind, dann spukt das Modell falsche Ergebnisse aus.
Was ist supervised?
Das A und O von Machine Learning sind die Trainingsdaten.
Du brauchst viele Trainingsdaten (10.000 von Messungen) in einer hohen Qualität (Millimeter genau ohne Messfehler).
Stell Dir vor, Du möchtest eine Pflanzenart anhand der Blatt-Proportionen erkennen. Rose Italia weist schmale Blätter und Rose Espania weist breite kurze Blätter auf. Deine App soll mit einem Blatt-Scann die Pflanzenart bestimmen. Damit der Algorithmus überhaupt arbeiten kann, musst Du mindestens 50 Pflanzen vermessen, besser 10.000 Pflanzen. Falls Du Dich vermisst, dann reproduziert der Algorithmus Deinen Quatsch (Datenqualität).
Beispiele – Neuronale Netze und Regression
Klassifikation mit neuronalen Netzen: Neuronale Netzen können mit den Eingabedaten und Ergebnissen (den Labels), neue unbekannte Eingabedaten verarbeiten und in den meisten Fällen korrekt überprüfen. In unserem Beispiel hast Du eine Tabelle aus den Eingabedaten und der Zielvariable:
Nummer | Eingabe | Eingabe | Zielvariable |
Breite | Länge | Art | |
1 | 30 mm | 60 mm | Espania |
2 | 25 mm | 75 mm | Italia |
Über neuronale Netze habe ich in diesem Beitrag eine vollständige Erklärung geschrieben.
Regression: In der Natur findest Du viele lineare Zusammenhänge. Die Länge des Blattes sagt viel über die Art aus. Trägst Du Art und Größe in ein Streudiagramm ein, dann kannst Du einen Trend erkennen.
Die Regressionsgraden, die im Zentrum der Punktwolken von Espania und Italia liegen, hilft Dir dabei den Pflanzentyp zu bestimmen.
Vorteile – Die Power der Erkentnisse
Neuronale Netze können Zusammenhänge erkennen, welche einem Mensch nicht auffällt. Wenn Du 100te von Variablen hast, dann unterstützen Dich diese Methode bei der Suche.
Steffen Lippke
Neuronale Netze können nicht lineare Zusammenhänge erkennen, aber der Programmierer kann nicht (oder nur bedingt) erklären, warum das Netz so konfiguriert ist, wie es konfiguriert ist.
Probleme – Arbeit ohne Ende?
Überwachte Lernmethoden brauchen Eingabedaten, die ein Mensch beschriftet hat. Je mehr Daten für die Modellbildung nutzen kann, desto besser funktionieren das Endsystem. Eine großen, qualitativ hochwertigen Datensatz aufzubauen ist Zeit und Kosten intensiv.
Menschen können ihre Bias, Fehleinschätzungen und Vorurteile in die Beschriftung einfließen lassen, sodass eine Richter-KI diskriminierend auftritt.
Was ist unsupervised?
Nicht bei jeder Datenanalyse ist das Ziel klar. Unüberwachte Lernmethoden bieten die Möglichkeit, Strukturen in Datensätze zu finden, die der Analyst nicht erwartet:
Statt: „Zeige mir X. Beweise mir Y. Erkläre mir den Zusammenhang von Z und K.“
… , fragt der Analyse: „Zeige, was mich interessieren könnte. Welche Zusammenhänge sind vorhanden, an die ich nicht gedacht habe?“
Steffen Lippke
Beispiele – Ausreißer und Cluster
Ausreißer-Erkennung: In Zeitreihen und Logdateien versuchen Algorithmen Abweichungen, die Ausreißer zu finden. Steigt die Temperatur z. B. an einem Sensor eines Hochofens sprunghaft an, dann soll das System einen Alarm auslösen.
Ein Schwellwert ist für viele Anwendungen zu starr, weil der Schwellwert andere Umgebungsfaktoren missachtet. Die Analysten müssen bei der Ausreißer-Analyse die regulären Zyklen und Schwankungen herausrechnen.
Die Anzahl der Alarme soll auf ein sinnvolles Minimum begrenzt sein, um das Wartungsteam nicht in der Nacht unnötig aus dem Bett zu klingeln. Auf der anderen Seite soll der Alarm auch nicht zu unempfindlich sein und echte Notlagen unterdrücken!
Cluster-Verfahren: Das typische Anwendungsbeispiel von Cluster-Verfahren ist die Bestandskundenanalyse. Die Kundendatenbank hält über jeden Kunden folgende Variablen, z. B.
- Häufigkeit des Einkaufs pro Jahr
- Abends oder Morgens-Käufer
- Kleineinkauf oder Großeinkauf
- Produktwahl (Qualität oder Billig)
- Markenauswahl
Der Algorithmus gruppiert Kunden in Stammkunden und Laufkundschaft oder Abteilung1-Käufer und Abteilung2-Käufer oder in ganz andere Gruppen. Die unüberwachte Lernmethode versucht ein sinnvolles Maß zu finden, um die Kunden zu gruppieren.
Die Marketing-Abteilung entwirft basierend auf der Gruppierung gezielte Werbekampagnen.
Vorteile – Erkenne das Unbekannte, jetzt!
Das Beschriften der Daten wie bei den überwachten Lernmethoden entfällt.
Dieser Prozess ist aufwendig, teuer und kann fehleranfällig sein. Unüberwachte Methoden erlauben eine schnelle erste Analyse und sind die beste Wahl, wenn eine Gruppierung auf den ersten Blick nicht offensichtlich ist.
Probleme – Konkrete oder offene Fragen?
Die unüberwachte Methoden sind dann nicht gut geeignet, wenn nach konkreten Fragestellungen suchst.
Fragen wie: „Steigt mit dem Alter des Kunden auch der Gesamtpreis pro Einkauf?“, beantwortet eine solche Methode nicht. In diesem Fall ist eine Regressions- oder Korrelations-Analyse die erste Wahl.
Der Algorithmus clustert nach den mathematischen Prinzipien, welche diesem zugrunde liegen. Ein Eingriff ist nur bedingt möglich. Der Algorithmus kann zwei ähnliche Cluster zu einem Cluster zusammenfassen, indem Du die Anzahl der Cluster reduzierst.
Was soll ich wählen? – 5 Fragen
Die Wahl des Algorithmus steht und fällt mit den Daten. Wenn Du einen gut beschrifteten Datensatz vorliegen hast, dann nutze ein neuronales Netz.
Falls Du keinen Plan hast, wie Du aus einem Datensatz Gruppen bilden kannst, dann wähle das Cluster-Verfahren für die Untersuchung aus!
Die Medien, Professoren oder Kollegen drängen uns dazu, dass die Methode XY das neue Non-Plus-Ultra ist. Die „neuartige“ Methode, mit der kürzlich Forscher in irgendeinem Spezialfall gute Ergebnisse erzielten (Hust – neuronale Netze), sind nicht immer die beste Wahl für Deine Aufgabe.
Vergesse alle Hypes und suche nach der Methode, die am besten für Deinen Datensatz passt:
- Welche Frage möchte mit den Daten beantworten?
- Welche Datentypen (nominal, ordinal, metrisch) habe ich vorliegen?
- Wie hoch ist die Datenqualität (Messfehler, falsche Eingaben, Vertipper)?
- Wie groß ist der Datensatz?
- Wie viel Pferdestärken habe ich verfügbar (Cloudserver-Farm oder alter Dell-Laptop)?
- Sind diese beschriftet?
- Muss ich die Daten umwandeln / transformieren?
- Wie stark streuen die Daten?
Wähle das Verfahren nach diese Analyse erst aus.