Mixture of Experts (MoE)

Q: Was ist Mixture of Experts (MoE)?

Mixture of Experts ist eine Modellarchitektur, bei der nur ein Teil der Experten-Netzwerke pro Eingabe aktiviert wird — effizient bei vielen Parametern.

Was ist Mixture of Experts?

MoE-Architekturen stecken hinter vielen der leistungsstärksten KI-Modelle wie GPT-4 und Mixtral. Für Anwender bedeutet das: größere Modelle mit besserer Leistung bei vertretbaren Kosten. Wenn Sie verstehen, warum ein Modell trotz enormer Parameterzahl effizient arbeitet, können Sie KI-Lösungen besser bewerten und passende Modelle für Ihre Anforderungen auswählen.

Mixture of Experts (MoE) ist ein Architekturprinzip für neuronale Netze, das die Skalierung großer Sprachmodelle effizienter macht. Statt ein einziges monolithisches Netzwerk zu verwenden, besteht ein MoE-Modell aus vielen spezialisierten Teilnetzwerken — den „Experten”. Ein Router-Netzwerk (auch Gating-Network genannt) entscheidet für jede Eingabe, welche zwei bis acht Experten aktiviert werden. Der Rest bleibt inaktiv.

Das Prinzip ermöglicht Modelle mit enormer Gesamtkapazität bei moderatem Rechenaufwand. Googles Switch Transformer hatte 1,6 Billionen Parameter, nutzte aber pro Token nur einen Bruchteil davon. Mixtral von Mistral AI aktiviert 2 von 8 Experten pro Schicht. GPT-4 nutzt Berichten zufolge ebenfalls eine MoE-Architektur. Die Experten spezialisieren sich während des Trainings automatisch auf verschiedene Aufgabentypen oder Wissensdomänen.

Für Unternehmen bedeutet MoE: größere Modelle werden wirtschaftlich betreibbar. Ein MoE-Modell mit 100 Milliarden Parametern kann auf Hardware laufen, die sonst nur für 20-Milliarden-Parametermodelle ausreicht — weil bei jeder Anfrage nur ein Bruchteil der Parameter berechnet wird. In Kombination mit State Space Models entstehen Hybridarchitekturen wie MoE-Mamba / Jamba, die sowohl bei Geschwindigkeit als auch bei Kosten neue Maßstäbe setzen.

Kurz erklärt

Was ist Mixture of Experts?