Transformer Glossar - Verstehe das Fundament von ChatGPT und KI

Transformer sind das Herzstück von ChatGPT und generativer KI. Leider ist nicht ganz so einfach zu verstehen, wie es funktioniert. Es gibt eine Menge Fachbegriffe. Hier kommt das Glossar ins Spiel.

Es bietet dir eine Basis, um die grundlegenden Begriffe und Konzepte hinter der Transformer-Architektur zu begreifen. Diese Seite ergänzt das umfangreichere KI-Glossar.

Transformer

Der Transformer selbst ist eine Art Design für neuronale Netzwerke, die besonders gut darin ist, Text zu verstehen und zu verarbeiten. Der Name leitet sich von der Kernfunktion des Modells ab, Daten zu transformieren oder umzuwandeln. In diesem Fall bedeutet Transformation die Umwandlung von Eingabetext in eine nützliche interne Darstellung, die dann für eine Vielzahl von Aufgaben wie Übersetzungen, Zusammenfassungen oder Beantwortung von Fragen genutzt werden kann.

Anders als frühere Modelle, die Informationen sequenziell, also eins nach dem anderen, verarbeiten, kann der Transformer mehrere Teile eines Textes gleichzeitig betrachten. Dies ermöglicht es ihm, effizienter zu arbeiten, da er nicht darauf warten muss, die gesamte Sequenz zu durchlaufen, bevor er Entscheidungen trifft. Stattdessen nutzt der Transformer eine Technik namens „Attention“, um sofort zu erkennen, welche Teile eines Textes wichtig sind und wie diese Teile zusammenhängen.

Attention (Aufmerksamkeit)

Attention ist eine Technik in der künstlichen Intelligenz, speziell in neuronalen Netzwerken, die es dem Modell erlaubt, bestimmte Informationen hervorzuheben und andere zu ignorieren. Das hilft dem Modell, sich auf wichtige Teile der Daten zu konzentrieren, ähnlich wie wenn wir in einem lauten Raum auf eine einzelne Stimme achten.

Self-Attention (Selbst-Aufmerksamkeit)

Self-Attention ist eine spezielle Form der Aufmerksamkeit, die einem Modell erlaubt, Beziehungen innerhalb eines einzigen Textes zu verstehen, ohne Informationen von außerhalb zu benötigen. Das Modell bewertet, wie wichtig jedes Wort im Bezug zu den anderen Wörtern im Satz ist.

Multi-Head Attention

Multi-Head Attention ist eine erweiterte Form der Selbst-Aufmerksamkeit. Statt einmal, wird die Aufmerksamkeit mehrfach und unabhängig voneinander auf verschiedene Teile der Daten angewendet. Dies hilft dem Modell, mehrere Aspekte der Informationen gleichzeitig zu verstehen.

Positional Encoding

Da Transformer die Reihenfolge der Wörter in einem Satz nicht automatisch verstehen, wird Positional Encoding verwendet, um die Position jedes Wortes oder Zeichens zu markieren. Dies gibt dem Modell eine Möglichkeit, die Reihenfolge und die Position der Wörter im Kontext zu berücksichtigen.

Feed-Forward Neural Networks (FFNN)

Ein Feed-Forward Neural Network ist ein sehr grundlegender Typ von neuronalem Netzwerk, wo Informationen in eine Richtung fließen: vom Eingang (Input) zum Ausgang (Output). Im Transformer wird diese Art von Netzwerk verwendet, um die durch Attention verarbeiteten Daten weiter zu verarbeiten.

Layer Normalization

Layer Normalization ist eine Technik, die dabei hilft, dass die Berechnungen in einem neuronalen Netzwerk stabil bleiben und nicht zu sehr schwanken. Das macht das Training des Netzwerks oft schneller und zuverlässiger.

Zero-Shot-Learning

Zero-Shot-Learning (ZSL) bezieht sich auf die Fähigkeit eines KI-Modells, Aufgaben zu bewältigen, für die es während des Trainings keine spezifischen Beispiele gesehen hat. Das Modell lernt, Verbindungen und Generalisierungen über Klassen oder Konzepte herzustellen, die es während des Trainings erkannt hat, und wendet diese Kenntnisse auf neue, unbekannte Klassen an. Ein Schlüsselelement von ZSL ist die Nutzung von semantischen Informationen, wie beispielsweise Beschreibungen oder Attribute, die es dem Modell ermöglichen, Zusammenhänge zwischen bekannten und unbekannten Kategorien zu erkennen.

Few-Shot-Learning

Few-Shot-Learning (FSL) verlangt, dass ein Modell neue Aufgaben oder Kategorien lernt, indem es nur eine sehr kleine Menge von Beispielen („Shots“) zur Verfügung hat. Oft sind das nur wenige oder sogar nur ein Beispiel pro Kategorie. Diese Art des Lernens ist besonders herausfordernd, da die geringe Datenmenge das Risiko von Überanpassung und schlechter Generalisierung erhöht. Few-Shot-Learning-Modelle nutzen oft Techniken wie Meta-Lernen oder Transferlernen, um trotz der begrenzten Daten effektiv zu lernen.

Encoder

Der Encoder ist ein Teil des Transformer-Modells, der die Eingabedaten (wie Sätze) aufnimmt und verarbeitet, um eine interne Darstellung zu erstellen, die alle wichtigen Informationen enthält. Diese Darstellung wird dann verwendet, um viele verschiedene Aufgaben zu erfüllen, wie zum Beispiel die Übersetzung in eine andere Sprache.

Decoder

Der Decoder arbeitet im Gegensatz zum Encoder daran, aus der internen Darstellung der Daten eine sinnvolle Ausgabe zu erzeugen, wie zum Beispiel einen Satz in einer Zielsprache bei der Übersetzung.

Tokenization (Tokenisierung)

Tokenisierung ist der Prozess des Aufteilens von Text in kleinere Teile, die als Tokens bezeichnet werden. Diese können Wörter, Silben oder sogar Buchstaben sein. Diese Tokens helfen dem Modell, den Text Stück für Stück zu analysieren und zu verstehen.

Vektor

Ein Vektor in diesem Kontext ist eine Reihe von Zahlen, die Informationen über ein Wort, einen Satz oder ein anderes Datenstück in einer Form speichern, die von Computern verarbeitet werden kann. Jede Zahl im Vektor kann eine spezielle Eigenschaft oder Qualität darstellen. Diese Vektoren helfen Computern, die Bedeutung oder Beziehung zwischen Wörtern in Texten zu verstehen.

Embeddings (Einbettungen)

Embeddings sind spezielle Arten von Vektoren, die dazu verwendet werden, Wörter oder Phrasen in einem numerischen Format darzustellen, das deren Bedeutung einfängt. Sie ermöglichen es, dass Wörter mit ähnlichen Bedeutungen ähnliche Vektoren haben. Das hilft dem Transformer, zu verstehen, welche Wörter zusammenpassen oder in ähnlichen Kontexten verwendet werden.

Dimension

In Bezug auf Vektoren und Embeddings bezieht sich Dimension auf die Anzahl der Elemente innerhalb eines Vektors. Eine höhere Dimension bedeutet, dass der Vektor mehr Informationen tragen kann, was oft zu einer genaueren Darstellung von Daten führt, aber auch mehr Rechenleistung erfordert.

Parallelisierung

Parallelisierung bedeutet, dass viele Berechnungen gleichzeitig ausgeführt werden können. Transformer nutzen diese Technik, um Daten schneller zu verarbeiten, indem sie mehrere Teile eines Textes gleichzeitig analysieren, anstatt Schritt für Schritt vorzugehen.

Training

Training ist der Prozess, bei dem ein maschinelles Lernmodell (wie ein Transformer) Daten analysiert und daraus lernt. Während des Trainings passt das Modell seine internen Einstellungen an (oft Gewichte genannt), um besser vorhersagen zu können, was es mit neuen, ähnlichen Daten tun soll.

Inferenz

Inferenz ist der Prozess, bei dem ein trainiertes Modell neue Daten verwendet, um Vorhersagen zu treffen oder Entscheidungen zu treffen. Zum Beispiel kann ein Transformer, der für die Übersetzung trainiert wurde, für die Inferenz verwendet werden, um Sätze von einer Sprache in eine andere zu übersetzen.

Overfitting

Overfitting ist ein Problem in der Modellbildung, bei dem ein Modell die Trainingsdaten zu genau lernt, einschließlich des Rauschens und der Fehler. Dies kann dazu führen, dass das Modell bei neuen Daten schlechter abschneidet, weil es zu spezialisiert auf die Trainingsdaten ist.

Gradient

Ein Gradient in der Welt des maschinellen Lernens ist eine Sammlung von Ableitungen, die anzeigen, in welche Richtung ein Modell seine internen Einstellungen ändern sollte, um seine Leistung zu verbessern. Es ist ein entscheidendes Konzept beim Trainieren von Modellen, da es hilft, die „Steigung“ oder Richtung der besten Verbesserung zu finden.

Masking (Maskierung)

Maskierung ist eine Technik, die in Transformer-Modellen verwendet wird, um bestimmte Teile der Eingabe oder der zukünftigen Daten während des Trainings oder der Inferenz zu verdecken. Dies ist besonders wichtig in Aufgaben wie Sprachmodellierung oder Übersetzung, um sicherzustellen, dass das Modell nur auf angemessene Informationen zugreift und Vorhersagen nicht einfach aus den folgenden Worten abschaut.

Query, Key, Value

Diese drei Begriffe beschreiben die Hauptkomponenten des Attention-Mechanismus in Transformer-Modellen. „Query“ (Anfrage), „Key“ (Schlüssel) und „Value“ (Wert) sind spezielle Vektoren, die genutzt werden, um zu bestimmen, auf welche Teile der Daten das Modell achten sollte. Die „Query“ vergleicht sich mit jedem „Key“, und basierend auf dieser Übereinstimmung wird der zugehörige „Value“ ausgewählt, um die Ausgabe zu beeinflussen.

Attention Weights

Attention Weights (Aufmerksamkeitsgewichte) sind Werte, die die Stärke der Aufmerksamkeit bestimmen, die jedes Element einer Sequenz von anderen Teilen der Sequenz erhält. Sie spielen eine entscheidende Rolle bei der Bestimmung, wie viel jedes Teil der Eingabe zur endgültigen Ausgabe des Modells beiträgt.

Cross-Attention

Cross-Attention ist eine Variation des Attention-Mechanismus, die verwendet wird, wenn das Modell Informationen aus zwei verschiedenen Datenquellen kombinieren muss, wie zum Beispiel in einer Übersetzungsaufgabe, wo der Encoder-Output mit dem Decoder-Input kombiniert wird.

Position-wise Feed-Forward Networks

Dies sind spezielle Feed-Forward Netzwerke innerhalb eines Transformer-Blocks, die nach den Attention-Schichten kommen. Sie verarbeiten die Ausgabe der Attention-Schicht separat für jede Position in der Sequenz und sind für das Hinzufügen zusätzlicher Transformationen verantwortlich, bevor die Daten an den nächsten Block weitergeleitet werden.

Warm-up und Cooling Down

Diese Begriffe beziehen sich auf spezielle Trainingsstrategien, die in der Optimierung von Transformer-Modellen verwendet werden. „Warm-up“ ist eine Phase zu Beginn des Trainings, in der die Lernrate schrittweise erhöht wird, um Konvergenzprobleme zu vermeiden. „Cooling Down“ bezeichnet das schrittweise Reduzieren der Lernrate gegen Ende des Trainings, um die Feinabstimmung des Modells zu verbessern.

Transformer-XL & andere Modelle

Eine Erweiterung der ursprünglichen Transformer-Architektur, die darauf abzielt, Limitationen bezüglich der Speicherung und Verarbeitung langer Daten-Sequenzen zu überwinden. Transformer-XL verwendet eine spezielle Technik, um Informationen über mehrere Segmente hinweg zu „erinnern“, was besonders nützlich für Aufgaben mit langen Textdaten ist.

Andere Transformermodelle heißen übrigens BERT, GPT, RoBERTa, DistilBERT, XLNet, ERNIE, BART, ALBERT, DeBERTa oder T5. Man erkennt in diesen Namen eine gewisse Verspieltheit – jedenfalls sagt das meine biologische Musterkennnung …

Werkstatt

Die Visualisierungen generierte die KI DALL-E via Bing, was darin abgebildet ist, existiert in der realen Welt nicht. Die verwendeten Fonts im Beitragsbild oben sind Anton (Google) und Alegreya Sans (Google).

Transformer Glossar – Verstehe das Fundament von ChatGPT und KI

Inhaltsverzeichnis