Machine-Learning in der Industrie: Aus Erfahrung klug werden

Fortsetzung des Artikels von Teil 1.

Funktionsweise von Machine-Learning

Bei Machine-Learning kommen zwei verschiedene Verfahren zum Einsatz: Überwachtes Lernen, mit dem ein Modell anhand bekannter Eingabe- und Ausgabedaten trainiert wird, sodass es zukünftige Ausgaben vorhersagen kann, und nicht überwachtes Lernen, mit dem verborgene Muster oder innere Strukturen in Eingabedaten gefunden werden.

Überwachtes Lernen: Das Ziel des überwachten Machine-Learning ist, ein Modell zu erstellen, das bei Ungewissheiten Prognosen auf der Grundlage von Indizien abgibt. Ein Algorithmus des überwachten Lernens verwendet eine bekannte Menge von Eingabedaten und bekannte Ausgänge zu diesen Daten (die Ausgabe), um damit ein Modell zu trainieren, das fundierte Vorhersagen für den Ausgang neuer Eingabedaten erzeugt. Bekannte Ausgaben bedeutet in diesem Fall, dass Anwender die verschiedenen Maschinenzustände wie etwa Fehlerzustände oder Ausfälle benennen – labeln – können. Eingabedaten sind Signale oder Daten, die gesammelt werden. Mögliche Ausgabedaten zu diesen Daten könnte dann zum Beispiel sein: „Fehler X“ oder „Maschine läuft im grünen Bereich“.

Diese Vorhersagen werden durch Klassifikations- und Regressionstechniken entwickelt. Klassifikationstechniken sagen diskrete Ausgänge vorher – beispielsweise, ob eine E-Mail echt oder Spam ist oder ob es sich bei einem Tumor um Krebs oder eine gutartige Form handelt. Klassifikationsmodelle ordnen Eingabedaten Kategorien zu. Typische Anwendungen sind die medizinische Bildgebung, die Spracherkennung und das Credit-Scoring. – Regressionstechniken sagen kontinuierliche Ausgänge voraus – beispielsweise Temperaturänderungen oder Schwankungen des Energiebedarfs.

MathWorks Bildquelle: © MathWorks

Für Supervised und Unsupervised Learning gibt es verschiedene Algorithmen.

Bei richtiger Anwendung sind die intuitiven Möglichkeiten der überwachten Lerntechniken fast unbegrenzt. Sogar Ärzte können mit ihrer Hilfe vorhersagen, ob bei einer Person die Gefahr eines Herzinfarkts besteht, indem sie auf Daten vorheriger Patienten, wie Alter, Gewicht, Größe und Blutdruck, sowie auf historisches Wissen über Personen mit Herzinfarkt zurückgreifen.

Unüberwachtes Lernen: Unüberwachtes Lernen wird genutzt, um Rückschlüsse aus Datenmengen zu ziehen, die aus Eingabedaten ohne klassifizierte Ausgänge bestehen.

Clustering ist die gängigste Technik des nicht überwachten Lernens. Es wird für explorative Datenanalysen verwendet, um verborgene Muster oder Gruppierungen in Daten zu finden. Anwendungen für Clustering sind beispielsweise Gensequenzanalyse, Marktforschung und Objekterkennung in Bildern.

Das Verständnis, welche Lerntechnik sich für ein bestimmtes Projekt oder eine bestimmte Anwendung am besten eignet, ist zwar wichtig, aber nur der erste Schritt, um das Potenzial eines integrierten Machine-Learning-Systems zu entfalten. Die Wahl des richtigen Lernalgorithmus und schließlich die Bestimmung des besten Zeitpunkts für die Nutzung der Technologie runden den Prozess ab.