Es g’hört wieder mehr g’huggt - der KI-Sonntag auf der Nicht-nur-Wein-Party

(Nikolaus Skene)

Manchmal haben Sie Lust auf einen Weißwein.

Manchmal auf einen Roten.

Und nach dem Sport ist ein Bier auch etwas sehr Feines.

Niemand käme auf die Idee, in genau diesem Moment alles gleichzeitig zu bestellen.

Kein Sommelier dieser Welt würde sagen: „Kein Problem, ich bringe Ihnen Weißwein, Rotwein, Bier, ein Steak, ein Handtuch, eine Massage, ein Telefonat mit Ihrer Mutter und vorsorglich einen Skiurlaub.“

Unser Gehirn ist da deutlich effizienter.

Es entscheidet kontextuell. Situativ. Energiesparend.

Es aktiviert nur jene Regionen, die gerade relevant sind. Der Rest bleibt “ruhig”.

Und genau hier liegt ein oft übersehener Unterschied zwischen menschlicher und heutiger künstlicher Intelligenz.

Und jetzt kommt ChatGPT ins Spiel.

ChatGPT funktioniert im Kern anders.

Egal, worauf Sie gerade Lust haben – es fragt immer alles ab.

Nicht nur das Bier nach dem Sport, sondern gleichzeitig das Bier, den Weißwein, den Rotwein, das Steak, das Rezept, die Lieferkette, die CO₂-Bilanz, die Weinregion, die Sportart und die philosophische Bedeutung von Durst.

Der Grund, warum wir das nicht merken:

Es passiert extrem schnell.

Die sinnlosen „Regionen“ werden in Millisekunden ausgegrenzt, und am Ende kommt eine halbwegs vernünftige Antwort heraus. Aber der Rechenaufwand dahinter ist gigantisch.

Das menschliche Hirn wäre in dieser Form völlig überfordert.

Und genau deshalb ist der Stromverbrauch heutiger KI-Systeme ein ernstzunehmender Kritikpunkt.

DeepSeek geht hier bereits einen Schritt weiter.

Es versucht, unterschiedliche Teile des Modells gezielter zu „feuern“, abhängig davon, was gerade wahrscheinlich relevant ist. Nicht alles, immer, gleichzeitig. Sondern selektiver. Kontextsensitiver.

Und dann kommt HuggingGPT.

HuggingGPT ist kein neues Modell.

Es ist ein Architekturgedanke.

Die Kernidee:

Ein großes Sprachmodell wie ChatGPT wird nicht mehr als Universalgenie verwendet, sondern als Controller. Als Dirigent. Als Planer.

Es hört dem Nutzer zu, versteht die Absicht – und zerlegt sie dann in konkrete Teilaufgaben.

Diese Teilaufgaben werden nicht vom selben Modell gelöst, sondern gezielt an Spezialisten weitergegeben: Bildmodelle, Audiomodelle, Klassifikatoren, Text-zu-Sprache-Systeme, Objekterkennung, Segmentierung. Alles Modelle, die bereits existieren, zum Beispiel im Hugging-Face-Ökosystem.

Entscheidend ist dabei nicht nur was gemacht wird, sondern in welcher Reihenfolge.

HuggingGPT plant Abhängigkeiten.

Manche Aufgaben müssen seriell abgearbeitet werden, andere können parallel laufen. Ergebnisse aus einem Modell werden als Input für das nächste verwendet. Erst am Ende sammelt der Controller alles wieder ein und formuliert eine Antwort.

Eine einfache Anfrage wie „Beschreibe dieses Bild detailliert“ wird automatisch zerlegt in Bildklassifikation, Objekterkennung, Segmentierung, Captioning und visuelle Frage-Antwort-Modelle – und erst dann zusammengeführt.

Das ist keine neue Intelligenz.

Aber es ist eine andere Art, intelligent zu arbeiten.

Und hier wird HuggingGPT wirklich interessant:

Das System skaliert nicht über immer größere Modelle, sondern über Koordination. Über Auswahl. Über Arbeitsteilung. Über Kontext.

Plötzlich sieht KI nicht mehr aus wie ein überforderter Universalstudent, der alles gleichzeitig können muss, sondern wie ein gut organisiertes Team.

Noch “quietscht” es an der einen oder anderen Ecke: höhere Latenz, Abhängigkeit von der Planungsfähigkeit des Controllers, Token-Limits, Instabilitäten. HuggingGPT ist kein fertiges Produkt. Es ist ein Denkmodell.

Aber eines, das auf eine wichtige Richtung hinweist:

Weg von „größer, schneller, alles gleichzeitig“.

Hin zu „richtiger, selektiver, effizienter“.

Und damit zurück zum Stromverbrauch. Eine der berechtigten Hauptkritiken an heutiger KI ist ihr Energiehunger. Wenn Intelligenz nicht mehr aus maximaler Parallelität entsteht, sondern aus gezielter Orchestrierung, nähern wir uns möglicherweise einer effizienteren maschinellen Denkweise.

Was das langfristig bedeutet – auch für menschliche Arbeit, menschliche Intelligenz und menschliche Relevanz – ist eine andere Diskussion.

Für einen anderen Samstag.

Heute reicht eine Beobachtung:

Es gehört wieder mehr g’huggt.

Nicht alles auf einmal.

Sondern das Richtige, im richtigen Moment.

(Nikolaus Skene lebt und arbeitet in San Francisco, berät Unternehmen in Sachen KI und veranstaltet seit mehreren Jahren Touren in das Silicon Valley und andere Hot-Spots der technlogischen Entwicklung