Wie lässt sich die Energieeffizienz von maschinellen Lernmodellen untersuchen?

Autor*in:
Raphael
Fischer

Auch wenn Maschinelles Lernen (ML) heute wichtige Probleme lösen kann, haben verschiedene Forschungsarbeiten gezeigt, dass viele hochmoderne Machine-Learning-Modelle einen enormen Energiebedarf und somit großen CO2-Fußabdruck haben. So benötigt beispielsweise das Training aktueller ML-Sprachmodelle ungefähr so viel Energie wie ein Trans-Amerika Flug – und das, obwohl im Rahmen der Untersuchungen nicht einmal die enorme Komplexität hinter der Optimierung von Hyperparametern betrachtet wird. Insbesondere im Kontext von Energiekrise und Klimawandel wird es deswegen immer wichtiger, neben der Vorhersagequalität auch die Energieeffizienz von gelernten Modellen zu untersuchen.

Was bedeutet Energieeffizienz im Kontext des Maschinellen Lernens?

Leider lässt sich die Energieeffizienz von Maschinellem Lernen aufgrund seiner vielseitigen Einsatzmöglichkeiten nicht trivial bestimmen. Wissenschaftler*innen des ML2Rs (nun Lamarr-Institut) haben deswegen zunächst eine Charakterisierung von ML-Experimenten ausgearbeitet: Jedes Experiment besteht dabei aus einer konzeptionellen Konfiguration und einer praktischen Umgebung. Die Konfiguration definiert die Aufgabe (zum Beispiel Training, Klassifikation, Testen von Eigenschaften), einen zugrundeliegenden Datensatz, und ein gewähltes Modell (mit all seinen Hyperparametern). Die Umgebung setzt sich indes aus der genutzten Rechnerarchitektur und der darauf lauffähigen Software, welche das Experiment durchführt, zusammen. In der Praxis bedingen sich Konfiguration und Umgebung gegenseitig, da zum Beispiel bestimmte Modelle spezielle Software erfordern, oder manche Datensätze aufgrund ihrer Größe kaum auf kleinen Recheneinheiten verarbeitet werden können.

Aus der Konfiguration eines Experiments ergeben sich die Metriken, die für eine Untersuchung von Effizienz interessant sind. So haben verschiedene Aufgaben und Datensätze ihre spezifischen Messgrößen, mit denen die Qualität eines Modells gemessen werden kann (zum Beispiel Top-1 Accuracy auf Validierungsdaten). Ebenfalls interessant sind Metriken, die sich mit begrenzten Ressourcen beschäftigen, wie zum Beispiel die Modellgröße (in Bytes oder Anzahl Parameter), Laufzeit, oder der Energieverbrauch. Letzterer korreliert zwar mit der benötigten Laufzeit, kann jedoch aufgrund unterschiedlicher Auslastung der Hardware schwanken. Zwischen den meisten Metriken gibt es Wechselwirkungen, da zwar zum Beispiel mit erhöhter Modellkomplexität die Genauigkeit verbessert wird, jedoch gleichzeitig auch der Ressourcenverbrauch steigen kann. Je nach Hardware muss der Verbrauch einzelner Rechnerkomponenten über bestimmte Tools direkt gemessen oder ansonsten aus der Spezifikation abgeschätzt werden. Hier sei erwähnt, dass die immer beliebter werdende Virtualisierung (zum Beispiel via Docker oder Amazon Web Services) auch die Abschätzung des realen Energieverbrauchs erschwert.

© Raphael Fischer
Das von Wissenschaftler*innen entworfene Framework zur Bewertung der Effizienz von maschinell gelernten Modellen.

Von Metriken zu Effizienz

Nun müssen die verschiedenen Metriken in Relation zueinander gesetzt werden, um so die Effizienz der Modelle zu bestimmen. Hier gibt es zwei Probleme: Einerseits sind wie beim Äpfel-Birnen-Vergleich die realen Größen hinter den Metriken unvergleichbar. Darüber hinaus kann sich die Skala, auf der Werte für Metriken gemessen werden, extrem unterscheiden (zum Beispiel in Bezug auf die Laufzeit eines Experiments mit oder ohne GPU Beschleunigung). Beide Probleme lassen sich lösen, indem anstatt absoluter Werte lediglich relative Indexwerte betrachtet werden. Dafür wird ein Referenzmodell festgelegt, bei dem allen Messwerten jeweils der Indexwert 1 zugeordnet wird. Man kann nun berechnen, wie viel besser (Index > 1) oder schlechter (Index < 1) die Metriken eines anderen Modells in Relation zum Referenzmodell ausfallen. So könnte zum Beispiel ein Modell doppelt so klein wie das Referenzmodell sein (Indexwert 2 für Anzahl Parameter), deswegen aber auch eine 20 % schlechtere Genauigkeit haben (Indexwert 0.8). Über eine Unterteilung der Index-Skala in bestimmte Abschnitte lässt sich dann eine diskrete Bewertung (A: Sehr gut bis E: Sehr schlecht) festlegen.

Die finale Effizienzkategorie erhält man, indem man für ein Modell alle Metrik-Bewertungen über einen gewichteten Median zusammenfasst. Eine Gewichtung der Metriken stellt sicher, dass stark korrelierte Metriken (zum Beispiel Laufzeit und Energieverbrauch) weniger Einfluss auf die Gesamtbewertung nehmen. Es lassen sich Metriken so auch je nach Einsatzzweck mehr oder weniger priorisieren. Der Einsatz von relativen Indexwerten und festen Grenzen für diskrete Bewertungen ist dabei inspiriert von dem bereits etablierten Energie Label System der EU, welches auf ganz ähnliche Weise die Effizienz von Elektrogeräten kommuniziert.

© Raphael Fischer
Übersicht über die Wechselwirkungen verschiedener Metriken für ImageNet Modelle.

Expert*innenwissen verständlich machen

Auch wenn das neue Verfahren zur Effizienzbewertung gelernter Modelle von Wissenschaftler*innen entwickelt wurde, sollen in Zukunft auch Anwender*innen maschineller Lernverfahren (zum Beispiel Softwareentwickler*innen in der Industrie), die nicht über eine fundierte KI-Expertise verfügen, verstärkt Zugang zu entsprechenden Informationen erhalten. Auch hier kann man sich am Vorbild der Energie Labels orientieren, welche teils komplexe elektronische Abläufe und ihre Auswirkungen auf die Umwelt deutlich vereinfacht und verständlich darstellen. Auf ganz ähnliche Weise kann man die Ergebnisse einer Effizienzanalyse für Maschinelles Lernen je nach Zielgruppe kommunizieren. Wissenschaftler*innen und Expert*innen erhalten hierbei Logdateien und detaillierte Reports, Anwender*innen erhalten hingegen ein Label, welches Effizienzinformationen wie den jeweiligen Ressourcenverbrauch auf einen Blick darstellen.

© Raphael Fischer
Beispielhafte Darstellung von Effizienzinformationen in Form von Energy Labels.

Anwender*innen können so eine informierte Entscheidung über den Einsatz der Verfahren treffen. Das am ML2R (nun Lamarr-Institut) entwickelte Energy Label Exploration Tool ermöglicht es Nutzenden so bereits jetzt, sich einen über mehrere Plattformen hinweg gemessenen und vergleichbaren Überblick über die Effizienz der bekanntesten ImageNet Modelle zu verschaffen.

Mehr Informationen im zugehörigen Paper:

A Unified Framework for Assessing Energy Efficiency of Machine Learning R. Fischer, M. Jakobs, S. Mücke, K. Morik, 2022

Proceedings of the ECML Workshop on Data Science for Social Good Implementierung: https://github.com/raphischer/imagenet-energy-efficiency

Autor*in

Raphael
Fischer

Raphael Fischer ist wissenschaftlicher Mitarbeiter am Lamarr-Standort der Technischen Universität Dortmund. Hier forschte er bislang zur Anwendung graphischer Modelle auf Satellitendaten. In Zukunft wird er sich vermehrt dem interaktiven Maschinellen Lernen widmen.