_108243428_gettyimages-871148930

Warum verbrauchen KI-Modelle so viel Strom?

Avatar von Luis Antonio Costa
Die Art und Weise, wie KI-Modelle derzeit trainiert werden, ist sehr ineffizient und Frameworks werden immer komplexer und kostspieliger

Google hat kürzlich eine führende KI-Ethikforscherin (Künstliche Intelligenz) entlassen, nachdem sie ihre Frustration über das Unternehmen zum Ausdruck gebracht hatte, weil es sie veranlasst hatte, einen Forschungsartikel aus den Suchmaschinenergebnissen von Google zu ziehen. Der Artikel wies auf die Risiken der Verwendung von sprachverarbeitender künstlicher Intelligenz hin, genau die Art, die in der Google-Suche und anderen Textanalyseprodukten verwendet wird.

Unter den genannten Risiken ist das große "COXNUMX-Fußabdruck" bei der Entwicklung dieser Art von KI-Technologie. Einigen Schätzungen zufolge erzeugt das Training eines KI-Modells so viele COXNUMX-Emissionen, wie für den Bau und das Fahren von fünf Autos im Laufe ihrer Lebensdauer erforderlich sind.

Da KI in unseren technologischen Milieus zu einem zunehmend genutzten Rechenwerkzeug wird, müssen wir uns fragen: Warum sind KI-Modelle so energiehungrig geworden? Wie unterscheiden sie sich von herkömmlichem Rechenzentrums-Computing?

Das aktuelle KI-Training ist ineffizient

Herkömmliche Datenverarbeitungsaufgaben, die in Rechenzentren (besser bekannt als Rechenzentren) enthalten Streaming Video, E-Mail und soziale Medien. KI ist rechenintensiver, weil sie viele Daten lesen muss, bis sie lernt, sie zu verstehen, also trainiert zu werden.

Ein solches Training ist im Vergleich dazu, wie Menschen tatsächlich lernen, ineffizient. Moderne KI nutzt künstliche neuronale Netze, also mathematische Berechnungen, die das Verhalten von Neuronen im menschlichen Gehirn simulieren. Die Verbindungsstärke jedes Neurons zu seinem Nachbarn ist ein Netzwerkparameter namens Gewicht. Um also zu lernen, die Sprache zu verstehen, beginnt das Netzwerk mit zufälligen Gewichtungen und passt sie an, bis die Ausgabe mit der richtigen Antwort übereinstimmt.

einfaches neuronales Netz
KI-Modelle verwenden häufig künstliche neuronale Netze wie dieses zum Trainieren und Lernen von Algorithmen.

Das Bild veranschaulicht den Betrieb eines einfachen künstlichen neuronalen Netzes. Das Netzwerk erhält zwei Eingaben: das Bild eines Hundes und einer Katze, die die Eingaben sein werden ("Input"). Das Modell weiß im Voraus, dass die erwartete Antwort darin besteht, dass das ausgewählte Bild das des Hundes ist. Daher hat jeder Pfeil, der aus einer Eingabe kommt, ein anderes Wahrscheinlichkeitsgewicht, das dann in Kombination mit der Eingabe verwendet wird, um eines der Neuronen in der ersten Schicht zu füttern ("versteckt"). Jedes Neuron hat dann eine definierte mathematische Kostenfunktion, die auf den Ausgabeneuronen berechnet wird ("Ausgang"). Das Neuron mit der höchsten Wahrscheinlichkeit ist die ausgewählte Ausgabe.

Eine gängige Methode zum Trainieren eines Sprachnetzwerks besteht beispielsweise darin, es mit viel Text von Websites wie zu füttern Wikipedia und Nachrichtenagenturen mit einigen der versteckten Wörter und bitten Sie, diese Wörter zu erraten.

Ein Beispiel ist „Meine Katze ist süß“, wobei das Wort „süß“ versteckt ist. Anfänglich wird dem Modell das Wort „Vermutungen“ fehlen, aber nach vielen Abstimmungsrunden beginnen sich die Verbindungsgewichte zu ändern und Muster in den Daten aufzunehmen. Auf diese Weise wird das Netzwerk schließlich genau. Es ist eine elegante Praxis der Technik von Versuch und Irrtum.

Um sich ein Bild von der Größe zu machen Datensätze (Trainingsdatensatz) verwendet von AIs, ein kürzlich von Google entwickeltes Modell mit dem Namen Bidirektionale Geberdarstellungen von Transformatoren (BERT, „Bidirektionale Encoder-Darstellungen von Transformatoren“, eine Hommage an den gleichnamigen Charakter der Serie Die Muppets) verwendete 3,3 Milliarden Wörter aus englischen Büchern und Wikipedia-Artikeln.

Googles Bert-Algorithmus
BERT ist ein KI-Algorithmus, der verspricht, die Google-Suchergebnisse zu verbessern.

Außerdem las BERT diesen Datensatz während des Trainings nicht nur einmal, sondern 40 Mal. Leider ist die Durchführung mehrerer Trainingsrunden ein wesentlicher Schritt im Lernprozess einer KI, denn wie heißt es so schön: „Übung führt zur Perfektion“. Bei der KI gilt: Je mehr Runden gefahren werden, desto genauer wird die KI.

Wenn wir diese Methode jedoch mit einer für Menschen verwendeten Lernmethode vergleichen, kann ein Kind, das sprechen lernt, im Alter von fünf Jahren 45 Millionen Wörter hören, 3 Mal weniger als BERT mit seiner Trainingsmethode.

Auf der Suche nach der richtigen Nervenstruktur

Gerade weil der Trainingsprozess bei der Entwicklung dieser KIs in mehreren Runden stattfindet, werden Sprachmodelle zu zu teuer bauen. Denn die Forscher wollen die beste Struktur für das Netzwerk finden, also wie viele Neuronen, wie viele Verbindungen zwischen Neuronen, wie schnell sich die Parameter beim Lernen ändern sollen und so weiter.

Je mehr verschiedene Kombinationen beim KI-Training ausprobiert werden, desto größer sind die Chancen, eine hohe Treffsicherheit zu erreichen. Es ist ein ganz anderer Prozess als beispielsweise im menschlichen Gehirn, da unser Geist keine optimale Struktur finden muss, um die Welt um uns herum zu verstehen, da uns Jahrhunderte der Evolution bereits eine vorgefertigte Struktur präsentiert haben.

Da Unternehmen und Wissenschaftler im KI-Bereich konkurrieren, besteht der Druck, den „Stand der Technik“ zu verbessern – ein Begriff, der sich auf den höchsten bisher erreichten Wissensstand in einem bestimmten Bereich bezieht. Selbst das Erreichen einer Genauigkeitsverbesserung von 1 % bei schwierigen Aufgaben wie der maschinellen Übersetzung wird als bedeutende Leistung angesehen und führt zu einer guten Publicity und besseren Produkten. Um diese kleine Verbesserung zu erzielen, muss ein Forscher das Modell jedoch tausende Male trainieren, jedes Mal mit einer anderen Struktur, bis die beste gefunden ist.

Warum verbrauchen KI-Modelle so viel Strom?. Die Art und Weise, wie KI-Modelle derzeit trainiert werden, ist sehr ineffizient und die Strukturen werden immer komplexer und kostspieliger
Bei der Suche nach der geeigneten Struktur für ein neuronales Netz suchen Forscher und Unternehmen nach etwas, das ein möglichst hohes Maß an Genauigkeit bietet.

Forscher aus Universität von Massachusetts, Amherst schätzten die Energiekosten für die Entwicklung von KI-Modellen für die Sprachverarbeitung durch Messung des Energieverbrauchs Hardware Wird häufig während des Trainings verwendet. Sie fanden heraus, dass zum Beispiel das BERT-Training früher ähnliche Energiekosten hatte wie ein Passagier, der eine Hin- und Rückfahrt zwischen New York und San Francisco durchführte.

Wenn Sie jedoch mit verschiedenen Frameworks suchen – das heißt, den Algorithmus mehrmals mit demselben Satz trainieren Datensätze, aber mit etwas unterschiedlicher Anzahl von Neuronen, Verbindungen und anderen Parametern – die Kosten entsprachen 315 Passagieren oder einem ganzen 747-Jet!

Größere und heißere KIs

Ein weiteres großes Problem bei aktuellen KI-Modellen ist, dass sie viel größer sind, als sie sein müssten, und schlimmer noch, sie wachsen jedes Jahr. Ein neueres BERT-ähnliches Sprachmodell namens GPT-2, hat 1,5 Milliarden Gewichte oder Parameter in seinem Netzwerk. Andererseits ist die GPT-3, die ein hohes Maß an Genauigkeit aufweist, beträgt 175 Milliarden Pesos!

Es ist natürlich, dass größere Netzwerke zu einer besseren Genauigkeit führen. Eine gute Analogie, um zu verstehen, warum die gesamte Struktur eines KI-Modells nicht aktiv zur Vorhersage von Ergebnissen verwendet wird, ist das, was im menschlichen Gehirn selbst passiert, da nicht alle Teile des Gehirns verwendet werden, um beispielsweise einen Text zu verstehen. Der Unterschied besteht darin, dass das biologische Gehirn viel energieeffizienter ist als Computer.

Sätze und Wörter, die ein KI-Modell füttern
GPT-3 ist ein KI-Modell mit 175 Milliarden verschiedenen Gewichtungen zur Bewertung von Wort- und Satzeingaben.

Es muss berücksichtigt werden, dass KI-Modelle trainiert werden Hardware B. große Grafikprozessoren, die mehr Strom verbrauchen als herkömmliche CPUs. Da Grafikkarten im Vergleich zu den normalerweise in Computern verwendeten Prozessoren immer leistungsfähiger werden, ist es sinnvoll, dass solche teuren Algorithmen in geeigneten Komponenten ausgeführt werden, um den gesamten Bedarf an Berechnungen, Verarbeitung und Energieverbrauch zu decken.

Wenn Sie einen Gaming-PC oder Laptop haben, ist dieser wahrscheinlich (in den meisten Fällen) mit einer NVIDIA-Grafikkarte mit RTX-Technologie ausgestattet. Und nicht nur Forscher und Computerspezialisten können die Rechenleistung dieser Grafikkarten nutzen, um ihre KI-Modelle zu trainieren, sondern auch Spiele, die die DLSS-Technologie verwenden, profitieren von der Rechenleistung dieser Komponenten.

Trotzdem bleibt das Problem des hohen Stromverbrauchs bestehen, da ein PC oder Laptop mit dieser Art von Grafikkarte viel mehr Wärme erzeugt als normale Maschinen, wenn die Grafikkarte zum Ausführen von KI-Modellen verwendet wird.

RTX 3060
Um Tausende Runden des KI-Modelltrainings durchzuführen, können nur Grafikkartenprozessoren wie die neue RTX 3060 von NVIDIA damit umgehen.

All dies bedeutet, dass die Entwicklung fortschrittlicher KI-Modelle große Energiekosten verursacht und folglich eine hohe Umweltbelastung bei der Erzeugung dieser Energie erzeugt. Wenn wir nicht zu 100 % auf erneuerbare Energiequellen umsteigen, könnte der KI-Fortschritt im Widerspruch zu den Zielen stehen, Treibhausgasemissionen zu reduzieren und den Klimawandel zu verlangsamen.

Darüber hinaus werden auch die Kosten für die Entwicklung von KI-Modellen so hoch, dass sich nur wenige ausgewählte Labore diese leisten können. Dies erzeugt am Ende ein Monopol derjenigen, die Wissen über den Stand der Technik von KIs haben und auch die Definition, wie diese Modelle von nun an entwickelt werden.

Erstellen von KI-Modellen, die mit weniger mehr erreichen

Doch was bedeutet dieser exponentielle Anstieg der Energiekosten von KI-Modellen für die Zukunft der Forschung auf diesem Gebiet? Trotz der Hinweise, dass die Modelle nur tendenziell größer und rechenaufwändiger werden, kann man sich für dieses Szenario dennoch eine optimistischere Perspektive vorstellen.

Die Kosten für das Training von KI-Modellen können sinken, wenn effizientere Trainingsmethoden erfunden werden. Ebenso, obwohl vorhergesagt wurde, dass der Energieverbrauch von Rechenzentren in den letzten Jahren explodierte, geschah dies nicht aufgrund von Effizienzsteigerungen dieser gigantischen Rechenzentren, hauptsächlich in Bezug auf die Verbesserung Hardware und effizientere Kühlpraktiken.

Es gibt auch einen Kompromiss zwischen den Kosten für das Training der KI-Modelle und den Kosten für ihre Verwendung. Wenn Sie also mehr Energie für die Trainingszeit aufwenden, um ein kleineres Modell zu erstellen, können sie tatsächlich billiger werden. Schließlich wird ein Modell während seiner Lebensdauer viele Male verwendet, was zu enormen Energieeinsparungen führt.

einfache KI-Modelle
Der Fokus der Forschung an KI-Modellen richtet sich zunehmend auf kleinere Strukturen, die bei gleicher Effizienz aber weniger Energie verbrauchen.

Neben der Steigerung ihrer Effizienz und Genauigkeit besteht die größte Forschungsherausforderung bei KI-Modellen heute darin, nach Möglichkeiten zu suchen, sie kleiner zu machen, Gewichte zu teilen oder dieselben Gewichte in verschiedenen Teilen des Netzwerks zu verwenden. Diese Art von Ansatz für die Struktur eines neuronalen Netzwerks wird als Shifter-Netzwerke, da ein kleiner Satz von Gewichten zu einem größeren Netzwerk beliebiger Form oder Struktur rekonfiguriert werden kann.

Vor diesem Hintergrund sollte die KI-Community mehr in die Entwicklung energieeffizienter Trainingsprogramme investieren. Andernfalls laufen wir Gefahr, dass die KI von einer ausgewählten Gruppe von Unternehmen oder Forschungszentren dominiert wird, die die Zukunft der KI bestimmen werden, einschließlich der Art der Modelle, die entwickelt werden, welche Arten von Daten verwendet werden und wie das Training durchgeführt wird . Am Ende werden wir mehr „Business“ als „künstliche“ Intelligenz haben.

Quelle: ARS Techina


Erfahren Sie mehr über Showmetech

Melden Sie sich an, um unsere neuesten Nachrichten per E-Mail zu erhalten.

Related posts