Der Verlust der Fähigkeit zur Erkennung unvollständiger und verrauschter Muster

Ein einzelnes künstliches Neuron wird vollständig durch zwei Gewichtsvektoren beschrieben: einen Eingangsgewichtsvektor Formel , der bestimmt, wie der Input verarbeitet wird, und einen Ausgangsvektor Formel, der festlegt, in welchem Muster das Neuron seinen Output verteilt.

Das Verhalten dieses Neurons ist daher exakt ein dyadisches Produkt Formel.

In den allermeisten Fällen wird es sich jedoch nicht um ein einzelnes Neuron handeln. Neuronen sind in Nervensystemen meist sehr zahlreich vertreten. Dadurch können sie neuronale Netze bilden. In der nachfolgenden Abbildung ist ein neuronales Netz mit einer Zwischenschicht dargestellt, rot wird die Struktur hervorgehoben, die einem einzelnen dyadischen Produkt entspricht und nur die Verbindungen des Zwischenneurons zum Input und Output darstellt.

Neuronales Netz miz einer Zwischenschicht

 

Betrachtet man nun eine ganze Zwischenschicht eines neuronalen Netzes, so besitzt jedes Zwischenneuron sein eigenes Paar aus Eingangs- und Ausgangsgewichtsvektor. Diese Gewichtsvektoren lassen sich jeweils in einer Matrix darstellen.

Gewichtsmatrix Formel (Input → Zwischenschicht)

Formel

Die Formel-te Zeile ist der Input-Gewichtsvektor des -ten Zwischenneurons:

Formel

 

Gewichtsmatrix Formel (Zwischenschicht → Output)

Formel

Die Formel-te Spalte ist der Output-Gewichtsvektor des Formel-ten Zwischenneurons:

Formel

Dyadische Summe der Zwischenneuronen

Die Gesamtmatrix der Abbildung ist

Formel

Mit den eben definierten Zeilen- und Spaltenvektoren gilt komponentenweise:

Formel

Jeder Summand ist explizit

Formel

Und damit ist jede Komponente von Formel eine Summe dyadischer Beiträge:

Formel

Genau das ist die komponentenweise Form der dyadischen Summe der Zwischenneuronen.

Die gesamte Schicht lässt sich daher als Summe der dyadischen Produkte aller Zwischenneuronen darstellen:

Formel

Jedes Matrizenprodukt Formel lässt sich als Summe von dyadischen Produkten der Spalten von Formelund der Zeilen von Formeldarstellen.

Formel

Hierbei enthalten die Matrizen W1 und W2 die zu den Zwischenneuronen gehörenden Gewichtsvektoren der divergenten und der konvergenten Netzschicht.

Ein einzelnes dyadisches Produkt erzeugt ein stabiles Muster. Mehrere dyadische Produkte erzeugen eine dyadische Summe — und diese ist ein lineares System.

In einem linearen System überlagern sich die Muster der einzelnen dyadischen Produkte.

Dadurch geht die Fähigkeit verloren, fehlende oder verrauschte Muster zu ergänzen.

Das System wird zu einem gewöhnlichen linearen Projektor ohne Rekonstruktionsfähigkeit.

Das ist exakt das, was in einem Netzwerk mit mehreren Zwischenneuronen passiert:

Beispiel für den Verlust der Rekonstruktionsfähigkeit:

Ausgangspunkt: Ein einzelnes dyadisches Produkt

Wir nehmen:

Formel

Für einen vollständigen Input:

Formel

Skalar:

Formel

Output:

Formel

Jetzt löschen wir eine Komponente:

Formel

Neuer Skalar:

Formel

Neuer Output:

Formel

→ Muster bleibt identisch. → Fehlende Komponente wird vollständig ergänzt.

Jetzt fügen wir ein zweites dyadisches Produkt hinzu

Wir nehmen:

Formel

Für den vollständigen Input:

Formel

Output:

Formel

Gesamtausgang (dyadische Summe):

Formel

Jetzt löschen wir wieder dieselbe Komponente:

Formel

Dann:

Formel

Formel

Gesamtausgang bei fehlender Komponente:

Formel

Was ist passiert?

Vergleich:

Das Muster ist komplett zerstört.

Es gibt keinen Skalierungsfaktor Formel, sodass:

Formel

Das System ist nicht mehr rekonstruktiv.

Interpretation

Schon zwei dyadische Produkte reichen aus, um:

Das System ist jetzt ein gewöhnliches lineares System.

Fazit: Der Lehrsatz in Worten

Schon die Addition von zwei dyadischen Produkten zerstört die Rekonstruktionsfähigkeit des Systems. Die Muster überlagern sich, löschen sich aus oder verzerren sich. Das System verliert die Fähigkeit, fehlende oder verrauschte Komponenten zu ergänzen.

Eine Gegenmaßnahme besteht darin, die verschiedenen dyadischen Produkte, die in einem Netzwerk summiert werden, nicht gleich stark zu berücksichtigen. In biologischen neuronalen Netzen wird hierzu die laterale Hemmung eingesetzt: Sie sorgt dafür, dass das stärkste dyadische Produkt auch am stärksten berücksichtigt wird, während schwächere Produkte unterdrückt werden. Auf diese Weise bleibt die Fähigkeit erhalten, unvollständige oder verrauschte Muster zu erkennen und fehlende Komponenten zu ergänzen.

Sobald mehrere dyadische Produkte gleichzeitig aktiv sind, überlagern sich ihre Muster und die Fähigkeit zur Musterergänzung geht verloren.

Die Natur musste daher einen Mechanismus entwickeln, um die einzelnen dyadischen Produkte unterschiedlich stark zu berücksichtigen. In biologischen neuronalen Netzen geschieht dies durch laterale Hemmung: Zwischenneuronen hemmen sich gegenseitig in Abhängigkeit von ihrer Aktivität. Dadurch entsteht über den Zwischenneuronen eine Art glockenförmige Resonanzkurve, bei der das stärkste dyadische Produkt am stärksten berücksichtigt wird, während schwächere Produkte zunehmend gedämpft werden. Diese ungleiche Gewichtung verhindert, dass sich die Muster der verschiedenen dyadischen Produkte gegenseitig auslöschen. Die Rekonstruktionsfähigkeit bleibt erhalten, weil das dominante dyadische Produkt das Ausgangsmuster bestimmt. Da durch diese Hemmung die lineare Abbildung mittels Matrizen zerstört wird, spricht man in der Mathematik und in der künstlichen Intelligenz von der Einführung einer Nichtlinearität.

Laterale Hemmung erzeugt über den Zwischenneuronen ein Aktivitätsprofil, das einem glockenförmigen Resonanzmaximum ähnelt: Das stärkste dyadische Produkt bildet den Gipfel, schwächere Produkte liegen auf den abfallenden Flanken und werden zunehmend unterdrückt. Dadurch bleibt das dominante Muster erhalten, und die Rekonstruktionsfähigkeit des Systems geht nicht verloren. Weil diese Hemmung die lineare Summation der dyadischen Produkte aufbricht, bezeichnet man sie in der KI als Nichtlinearität.

Nichtlinearitäten in KI‑Netzen – und ihre biologische Entsprechung

Nachdem wir gezeigt haben, dass die Summation mehrerer dyadischer Produkte die Rekonstruktionsfähigkeit zerstört, folgt logisch:

Die Natur musste einen Mechanismus einführen, der die dyadischen Produkte unterschiedlich stark berücksichtigt.

Biologisch geschieht das durch laterale Hemmung:

Und jetzt kommt die entscheidende Einsicht:

Weil diese laterale Hemmung der Zwischenneuronen untereinander die lineare Abbildung mittels Matrizen zerstört, spricht man in der KI von einer Nichtlinearität.

Die wichtigsten Nichtlinearitäten in KI‑Netzen (mit biologischer Entsprechung)

1. ReLU (Rectified Linear Unit)

Formel:

Formel

Wirkung:

Biologische Entsprechung:

Funktional:

2. Softmax

Formel:

Formel

Wirkung:

Biologische Entsprechung:

Funktional:

3. Sigmoid

Formel:

Formel

Wirkung:

Biologische Entsprechung:

Funktional:

4. Tanh (hyperbolischer Tangens)

Formel:

Formel

Wirkung:

Biologische Entsprechung:

Funktional:

5. Winner‑take‑all (WTA)

Wirkung:

Biologische Entsprechung:

Funktional:

Warum Nichtlinearitäten unverzichtbar sind

Die besondere Intelligenz eines einzelnen Zwischenneurons – seine Fähigkeit zur Musterergänzung und zur Erzeugung neuer Elementarsignale – geht in einer linearen Summe mehrerer Zwischenneuronen verloren. Um diesen Verlust zu kompensieren, müssen einzelne dyadische Summanden selektiv abgeschwächt oder deaktiviert werden. Genau dies leisten Aktivierungsfunktionen: Sie steuern die Wirksamkeit der einzelnen Rang‑1‑Bausteine. In diesem Sinne bilden Nichtlinearitäten den Mechanismus, der die dyadische Summe wieder intelligenzfähig macht.

Hauptsatz über Nichtlinearitäten in Netzwerken

Ohne Nichtlinearität wird ein Netzwerk aus vielen dyadischen Produkten zu einer gewöhnlichen linearen Matrixabbildung. Die Fähigkeit zur Musterergänzung, Rauschunterdrückung und Rekonstruktion geht verloren. Erst durch Nichtlinearität wird die Rekonstruktionsfähigkeit eines einzelnen dyadischen Produkts wiederhergestellt.

Wie bereits gezeigt, sollte die Nichtlinearität auf die Ausgabe der Zwischenneuronen angewendet werden. In KI-Algorithmen wird dies aus technischen Gründen meist nicht so gemacht und könnte dadurch zu Unschärfen im Erkennen von Mustern führen.

Fabulieren und Halluzinieren in KI-Systemen

Halluzinationen in KI‑Systemen sind keine Fehlfunktion, sondern die direkte Folge der rekonstruktiven Eigenschaften dyadischer Produkte. Dieselbe mathematische Struktur, die unvollständige Muster ergänzt, erzeugt zwangsläufig auch erfundene Muster, wenn der Input zu schwach oder zu mehrdeutig ist.

Die KI‑Nichtlinearitäten unterdrücken falsche dyadische Produkte nur unvollständig

Ein neuronales Netz berechnet in jeder Schicht:

Formel

Das ist eine dyadische Summe.

Wenn der Input unvollständig oder verrauscht ist, dann werden viele dieser Skalarprodukte:

Formel

nicht null, obwohl sie es eigentlich sein sollten.

Die Nichtlinearitäten der KI – ReLU, Sigmoid, Tanh – tun Folgendes:

Aber sie tun nicht das, was die Biologie tut:

Sie unterdrücken unzutreffende dyadische Produkte nicht vollständig.

Das bedeutet:

Das ist Halluzination.

2. Warum die Biologie das Problem nicht hat

Die Biologie verwendet laterale Hemmung mit einem glatten, gaußförmigen Verlauf:

Das ist funktional perfekt:

Die KI hat diesen Mechanismus nie implementiert.

3. Warum KI‑Nichtlinearitäten zu „verwaschenen“ Mustererkennungen führen

ReLU, Sigmoid, Tanh, Softmax:

Sie sind:

Sie erzeugen:

Und ein Punkt kommt noch hinzu: Viele KI-Algorithmen (z. B. Transformer) berechnen erst das komplette Matrizenprodukt der ersten mit der zweiten Gewichtsmatrix. Erst danach wird eine Nichtlinearität angewendet. Eigentlich müsste diese Nichtlinearität bereits nach der ersten Matrizenmultiplikation angewendet werden, damit schwache Muster nicht neue Elementarsignale erzeugen, die die Mustererkennung verwaschen.

Zusammenfassung

Halluzinationen in KI‑Systemen entstehen nicht nur durch die rekonstruktive Natur dyadischer Produkte, sondern auch durch die unvollständige Unterdrückung unzutreffender dyadischer Produkte durch die verwendeten Nichtlinearitäten. Da ReLU, Sigmoid, Tanh und Softmax falsche dyadische Produkte nur schwach dämpfen, bleiben viele davon aktiv und mischen sich in die Mustererkennung ein. Die Biologie löst dieses Problem durch laterale Hemmung mit gaußförmigem Verlauf, die unzutreffende dyadische Produkte nahezu vollständig unterdrückt.

Das ist ein Satz, den man in der KI‑Literatur vergeblich sucht – aber er ist mathematisch zwingend.

These der primitiven Nichtlinearitäten

Die KI verwendet primitive Nichtlinearitäten, die Halluzinationen begünstigen. Die Biologie verwendet optimale Nichtlinearitäten, die Halluzinationen verhindern.

Wenn man die Zeilen der ersten Gewichtsmatrix normiert und nach Ähnlichkeit sortiert, entsteht ein stetiger Merkmalsraum. Legt man anschließend eine gaußförmige laterale Hemmung über die stärkste Aktivierung, werden unzutreffende dyadische Produkte effektiv unterdrückt. Dieser Mechanismus ist der biologischen Signalverarbeitung ähnlich und verhindert die verwaschenen Mustererkennungen und Halluzinationen, die durch primitive KI‑Nichtlinearitäten entstehen.

Die Notwendigkeit der ergänzten Elementarsignale

Transformer und ähnliche KI-Systeme nutzen die dreistufige Signalauswertung

Biologische Systeme verwenden bereits die Elementarsignale der zweiten Ebene. Sie sind darauf angewiesen, die vervollständigten Elementarsignale für ihre motorische Steuerung einzusetzen. KI-Systeme ohne motorische Komponenten (Sprachsysteme) benötigen diese Signale nicht, daher verwenden sie diese auch nicht. Es ist aber absehbar, dass KI-Systeme mit motorischen Komponenten auch die vervollständigten Elementarsignale nutzen werden.

 

Monografie von Dr. rer. nat. Andreas Heinrich Malczan

Monografie von Dr. rer. nat. Andreas Heinrich Malczan