ISBN 978-3-00-068559-0
Monografie von Dr. rer. nat. Andreas Heinrich Malczan
Erstellt am 07.10.2024
Künstliche Intelligenz und künstliche neuronale Netze erleben weltweit einen ungeahnten Boom. Künstliche neuronale Netze mit extrem vielen verdeckten Schichten, auch als „Deep Neural Networks“ bezeichnet, können eine riesige, fast unvorstellbare Anzahl von Neuronenschichten besitzen. Ihnen können während der Lernphase (Deep Learning) Unmengen an Informationen zur Verfügung gestellt werden, so dass sie immer komplexere Probleme lösen können. In vielen Anwendungen können sie Probleme bereits besser lösen als Menschen.
Die Theoretiker und Entwickler der künstlichen neuronalen Netze könnten daher recht schnell zur Überzeugung gelangen, das menschliche Gehirn verwende genau diese Technologie mit seinen realen Neuronen.
Die Vermutung liegt nahe, dass das Gehirn genau nach diesen Methoden arbeitet, und seine Neuronen auf genau die Art miteinander verknüpft, wie es in künstlichen neuronalen Netzen der Fall ist. Und dass im Gehirn die gleichen Lernvorgänge ablaufen wie beim Deep Learning in den Deep Neural Networks.
Gewiss hat man inzwischen festgestellt, dass künstliche intelligente Systeme auch zum Fabulieren, zum Halluzinieren, oder bösartiger formuliert auch zum einfachen Lügen neigen und diese Effekte sogar leicht vorführbar sind. Aber man ist auch der Auffassung, dass man dieses Fehlverhalten eingrenzen, vermindern oder sogar eliminieren kann. Möglicherweise trifft dies zu.
Die Hauptfähigkeit künstlicher neuronaler Netze ist die Mustererkennung. Führt man genug Input zu, so lernt ein künstliches neuronales Netz die in der Inputmenge vorhandenen Muster und kann sie wiedererkennen, sogar wenn sie von Störinput überlagert werden. Es scheint die weitverbreitete Meinung zu existieren, ohne solche neuronalen Netze – egal ob künstlich oder real im Gehirn vorhanden – wäre die Mustererkennung nicht möglich.
Dem muss energisch widersprochen werden. Mustererkennung kann im realen Gehirn von Wirbeltieren auch völlig anders organisiert sein.
Diese These will der Autor an Beispielen beweisen. Vorausgesetzt wird hinreichendes Wissen über den primären visuellen Cortex und das Pontocerebellum. Hier empfehle ich die Lektüre der folgenden Kapitel aus meiner Monografie „Gehirntheorie des Menschen“:
- 4.2. Divergenzmodule mit seitlicher Signalausbreitung
- 4.3. Module mit räumlicher Signalausbreitung
- 8. Das Speichermodul im Pontocerebellum,
die ebenfalls auf dieser Webpräsenz bereitgestellt werden.
Wir werden im folgenden Unterkapitel Signalvektoren definieren, die geeignet sind, in einer beliebigen Menge visueller Objekte bestimmte Objekte zu erkennen, ohne dass dafür ein neuronales Netz und irgendwelche Lernvorgänge nötig sind. Erforderlich ist lediglich eine neuronale Schaltung im Gehirn, deren Existenz bereits unstrittig nachgewiesen wurde.
Wir sollten uns an den Gedanken gewöhnen, dass das Wirbeltiergehirn ein Konglomerat von unterschiedlichsten Schaltungen bildet, von denen jede einzelne einen spezifischen Beitrag zur Signalverarbeitung und Signalerkennung beisteuert. Die Ansicht, das Gehirn wäre aufgebaut wie ein künstliches neuronales Netz, muss dringend revidiert werden.
Dies bedeutet jedoch nicht, dass es im Wirbeltiergehirn keine neuronalen Netze gibt, die den künstlichen neuronalen Netzen wenigstens ähneln. Es gibt Substrukturen im Gehirn, für die dieses zutrifft. Jedoch unterscheiden sich die Konstruktionsprinzipien im Wirbeltiergehirn von den Konstruktionsprinzipien gegenwärtiger künstlicher neuronaler Netze (Stand November 2024) wesentlich. Eine besondere Stärke der natürlichen neuronalen Netze im Wirbeltiergehirn besteht in der Fähigkeit, logische Verknüpfungen zwischen Signalen herzustellen, die nicht durch Lernen gebildet und gefestigt werden, sondern die durch die Netzstruktur der natürlichen neuronalen Netze im Wirbeltiergehirn zwangsläufig gebildet werden.
Logik im Gehirn wird nicht erlernt, sondern schaltungstechnisch verursacht! Dies wird in den nächsten Monaten ausführlich nachgewiesen.
Doch nun soll ein Beispiel für die Mustererkennung ohne KI folgen.
Wir beginnen unsere Betrachtungen beim Sehsinn. Die Retina projiziert über den visuellen Thalamus in den primären visuellen Cortex.
Dem visuellen Sehfeld entspricht dort ein zugeordnetes Cortexfeld.
Nun betrachten wir den Output des primären visuellen Cortex und beschränken uns nur auf die Orientierungssäulen. Jeder Orientierungssäule entspricht genau eine Orientierung einer geneigten Geraden im Sichtfeld, also ein Anstiegswinkel. Nur, wenn eine geneigte Gerade im Sichtfeld – und zusätzlich genau in dem Bildpunkt zu dieser Hypersäule – auftaucht, feuert diese Orientierungssäule stark, jedoch nur, wenn der ihr zugeordnete Anstiegswinkel tatsächlich vorhanden ist. Weicht der Anstiegswinkel nur wenig von dem Sollwert ab, feuert das Neuron der Orientierungssäule ebenfalls. Gemessen wird also nicht unbedingt ein Winkel, der zutreffen muss, sondern ein Winkelintervall, in dem sich der Anstiegswinkel der Geraden befinden muss.
Wir unterstellen hier die These, dass die so gewonnenen, neuen Signale des visuellen Cortex eine neue Modalität darstellen: Linienelemente. Ein Linienelement ist ein Geradenabschnitt mit einer bestimmten Orientierung, also einem Anstiegswinkel.
Neue Modalitäten begründen im Strickleiternervensystem – und das Wirbeltiergehirn ist topologisch noch immer ein derartiges Strickleiternervensystem – eine neue Etage, ein neues Segment.
Daher projizieren die Orientierungssäulen als Outputneuronen in ein neues, sekundäres visuelles Cortexgebiet.
Dieses enthält dann sämtliche Orientierungen aller visuellen Hypersäulen.
Und wir unterstellen, dass sich die neue Modalität topologisch wohlordnet. Als Ordnungskriterium dient der Anstiegswinkel.
Wenn es (theoretisch angenommen) 36 verschiedene Anstiegswinkel gibt, die von den Orientierungssäulen detektiert werden können, dann kann eine Gerade einen Winkel im Intervall von 0° bis 180° annehmen, wobei jede Orientierungssäule für ein Winkelintervall von 5° steht. (Winkelauflösung: 5°).
Genau nach diesen Winkeln wird die Projektion vom primären in den sekundären visuellen Cortex geordnet.
Somit gibt es im sekundären visuellen Cortex einen länglichen Neuronenstreifen, der aus 36 Retinaabbildungen besteht, die einfach hintereinander angeordnet sind. In der ersten Retinaabbildung treffen die Signale derjenigen Orientierungssäulen ein, die dem Orientierungswinkel von 0° entsprechen (genauer -2,5° bis +2,5°). Die Neuronen sind retinotop angeordnet, spiegeln also die komplette Retina in ihrer Anordnung dar, jedoch stammt der Input von allen Orientierungssäulen mit dem Winkel von 0° ± 2,5°.
In der daneben befindlichen Retinaabbildung treffen die Signale derjenigen Orientierungssäulen ein, die dem Winkel von 5° zugeordnet sind (genauer von 2,5 ° bis 7,5°). Hierbei bleibt die Topologie der Retina gewahrt.
In der letzten Retinaabbildung am Ende des Streifens werden wieder alle Retinapunkte dargestellt, doch nur diejenigen Neuronen feuern, bei denen der Orientierungswinkel 180 ° betrug (genauer 177,5° bis 182,5°).
Wie lang und breit ist diese sekundäre Fläche der Orientierungssäulen?
Einer Hyperkolumne im primären visuellen Cortex entspricht pro detektiertem Winkelintervall lediglich genau ein Cortexneuron pro Retinaabbildung im sekundären Cortex. Gibt es im primären visuellen Cortex (hypothetisch) 200 Zeilen mit 200 Spalten, wobei pro Zeile und Spalte jeweils eine Hyperkolumne von ca. 0,5 Millimetern Breite angenommen wird, so besteht das zugehörigen Feld im sekundären Cortex aus einem Streifen von 36 Feldern, die jeweils aus 200 Neuronen pro Zeile und aus 200 derartiger in Zeilen untereinander angeordnet sind. Nun benötigen 200 Hyperkolumnen etwa 100 mm Platz in der Breite, 200 Pyramidenzelle dagegen vielleicht nur 5 mm, also ein Zwanzigstel davon. Und 36 derartige Systeme sind maximal 180 mm breit.
Daher bildet die Projektion der Orientierungssäulen in den sekundären visuellen Cortex einen schmalen, langen Streifen von Cortexneuronen. Er dient der Umrisserkennung, also letztlich der Formerkennung.
Doch nun erinnern wir uns an unser Anliegen, Formerkennung ohne neuronale Netze zu realisieren!
Hierzu nutzt das Wirbeltiergehirn nach Ansicht des Autors das Mittelwertsystem.
Wir ordnen jeder der 36 Winkelabbildungen im sekundären Cortex zunächst genau ein Mittelwertneuron zu. Es zapft alle Neuronen der Winkelabbildung an und bildet daraus einen Mittelwert zu diesem Winkel.
Dieses Auswertesystem liefert insgesamt 36 Outputsignale, die einen Signalvektor bilden können. Den nach Orientierungswinkeln wohlgeordneten Signalvektor bezeichnen wir als Winkelsignatur des Systems.
Wir fordern, dass die Abbildung eines Dreiecks durch die Winkelsignatur möglichst eindeutig bestimmt wird.
Wie sieht die Winkelsignatur eines Dreiecks aus?
- Es sind genau drei Positionen des Signalvektors größer als Null, alle anderen jedoch sind gleich null. Denn das Dreieck besteht aus drei Geraden, von denen jede einen anderen Anstiegswinkel hat.
- Wird das betreffende Dreieck im Sichtfeld hin- und herbewegt, so bleibt die Winkelsignatur unverändert. Es ist also egal, wo sich das Dreieck im Sichtfeld befindet.
- Wird das Dreieck verkleinert oder vergrößert, bleibt die Winkelsignatur erhalten, allerdings wird durch die Mittelwertbildung für größere Dreiecke jede Vektorkomponente entsprechend etwas größer, für kleinere Dreiecke dagegen kleiner (Skalare Multiplikation, weil die Mittelwertbildung bei Neuronen keine echte Mittelwertbildung ist, sondern mit der Summe der zugeführten Erregungen (nichtlinear) ansteigt bis zu einer neuronalen Sättigungsgrenze).
Wenn nun der Mathematiklehrer dem Schüler klarmacht, dass er ein Dreieck sieht, so wird der Schüler dies lernen.
Doch wenn der Lehrer dem Schüler anstelle des Dreiecks nur drei Geraden zeigt, die sich im Mittelpunkt des ursprünglichen Dreiecks schneiden, wobei die Dreiecksseiten parallel zu sich selbst verschoben wurden, dann wird der Schüler meinen, diese Figur wäre ein Dreieck.
Der Schüler wird also fabulieren, halluzinieren oder sich einfach irren? Vorausgesetzt, er nutzt für die Analyse ausschließlich das beschriebene Mittelwertsystem der Orientierungssäulen und seine Winkelsignatur.
Warum ist das so? Es werden nur Winkel von Linienelementen analysiert. Es ist nicht nötig, dass die analysierten drei Geraden ein Dreieck bilden.
Und es kommt noch schlimmer: Wenn anstelle eines Dreiecks zehn derartige Dreiecke – möglicherweise in verschiedener Größe – im Sehfeld verteilt sind, entsteht der gleiche Output, die völlig gleiche Winkelsignatur.
Dennoch kann ein solches System deutliche Vorteile bringen. Sein Output benötigt nur die nichtlineare Signalausbreitung, in deren Folge die Orientierungssäulen im primären Cortex entstehen, welche eine Winkelanalyse betreiben können. Und als zweite Komponente braucht man nur das Mittelwertsystem des Cortex.
Wenn ein Objekt beispielsweise sämtliche Orientierungssäulen aktiviert, weil geneigte Linienelemente sämtliche möglichen Winkel annehmen, kommt ein Outputvektor heraus, der in jeder Winkelposition maximal erregt ist. Stellen wir uns ein Insekt vor, welches diese Schaltung besitzt. Und welches die Komponenten der Winkelsignatur auf ein gemeinsames Outputneuron konvergieren lässt, so dass dieses wiederum eine Art Mittelwert bildet.
Dieses Insekt könnte eine Biene, ein Schmetterling oder eine Wespe sein.
Präsentiert man diesem Tier ein visuelles Objekt in Form eines Gänseblümchens, einer Dahlie oder einer Blüte mit schmalen, länglichen Blütenblättern, die rund um ein Blütenzentrum angeordnet sind, so wird das beschriebene Analysesystem maximal erregt werden. Das Tier erhält also ein Erkennungssignal: Blüte vorhanden. Für alle Orientierungswinkel erfolgt eine maximale Erregung, weil alle diese Winkel von den Blütenblättern eingenommen werden. Sind Blüten deshalb so angeordnet? Der evolutionäre Vorteil liegt auf der Hand: Sie werden von Insekten gefunden und bestäubt! Hat sich die Blütenform an das visuelle Auswertesystem der Orientierungssäulen angepasst, deren wesentliche Voraussetzung lediglich die exponentielle Signaldämpfung und die Mittelwertbildung ist?
Das System der Orientierungssäulen trifft man mit ziemlicher Sicherheit im Pilzkörper der Insekten an. Diese Hypothese benötigt noch einen Nachweis! Diese Schaltung bei Insekten wollte ich schon vor Jahren beschreiben, sie ähnelt übrigens der Cerebellumschaltung.
Über das aktive Schwerpunktsystem, analog dem Tectum der Wirbeltiere, kann das Insekt sogar die Richtung ermitteln und die Blüte finden.
Wirbeltiere besitzen mehrere derartiger Mittelwert-Analysesysteme.
Neben Winkeln können ebenfalls Ecken detektiert werden, hier kann zusätzlich nach der Größe des eingeschlossenen Winkels in der betreffenden Ecke sortiert werden. So kann als Output eine Eckensignatur erzeugt werden. Ein Dreieck hätte in der Eckensignatur ebenfalls drei besetzte Vektorpositionen größer als Null, die übrigen wären gleich Null. Kombiniert man dies mit der Winkelsignatur, werden Dreiecke, Vierecke oder allgemein eckige Figuren erkennbar und unterscheidbar. All dies ohne neuronale Netze und ohne Lernen.
Wird der Output dem Cerebellum zugeführt, können diese Formen erlernt und wiedererkannt werden. Hier jedoch arbeitet dann das Cerebellum ähnlich wie ein künstliches neuronales Netz, unterscheidet sich in seiner Konstruktion jedoch auch.
Die beschriebene Schaltung mit der Winkelsignatur kann also Dreiecke erkennen. Aber sie auch kann Halluzinieren!
Wir nehmen die Figur des Dreiecks als Ausgangsfigur und verändern diese, indem wir die drei Dreiecksseiten so verschieben, dass sie (bei gleicher Länge) jeweils genau durch den Schwerpunkt des bisherigen Dreiecks verlaufen. Im Ergebnis erhält man drei sich schneidende Geraden.
Bietet man dieses visuelle Objekt dem beschriebenen Auswertesystem an, so erhält man genau den Outputvektor, den das ursprüngliche Dreieck geliefert hat. Und man erhält somit die Meldung: “Dreieck erkannt“.
Doch diesmal liegt gar kein Dreieck vor, sondern nur drei sich schneidende Geraden.
Unser System erkennt die geometrischen Invarianten und meldet ihre Erkennung. Die Invarianten sind jedoch nicht die Dreiecke, sondern die Existenz dreier Anstiegswinkel. Wenn wir den Outputvektor als Erkennungsmerkmal für Dreiecke auffassen, begehen wir einen Fehler, nicht das Auswertesystem. Beim Fabulieren oder Halluzinieren werden also Invarianten erkannt, die wir fälschlicherweise einer Objektklasse zuordnen, der sie jedoch gar nicht zustehen.
Ein KI-System kann in einer Menge von Elementarsignalen statistische Merkmale erkennen, die durch den Lernprozess Objekten zugeordnet werden, denen sie jedoch nicht immer zustehen. Im Fall der Dreiecke haben wir die Invarianten erkannt: Das System erkennt nur unterschiedliche Anstiegswinkel (Gradienten), jedoch keine Dreiecke.
Ist denn die Winkelsignatur im neuronalen System von Nutzen?
Ganz gewiss ist sie nutzbringend. Sie stellt ja nicht die einzige verfügbare Information dar. Aber sie ist eine geometrische Invariante. Mathematiker werden leicht erkennen, dass die Winkelsignatur des Gesichts eines Menschen eine Konstante ist. Egal, ob dieses Gesicht in einem Meter Entfernung oder in 5 Metern Entfernung zu sehen ist. Die Winkelsignatur ist entfernungsunabhängig. Und sie ist unabhängig gegen Verschiebungen. Und eine Rotation eines visuellen Objekts bewirkt bei der Winkelsignatur lediglich eine zyklische Verschiebung der Vektorkomponenten. Eine Vergrößerung oder Verkleinerung des Objekts bewirkt nur eine skalare Multiplikation der Winkelsignatur.
Also ist die Winkelsignatur im Wirbeltiergehirn derart vorteilhaft, dass sie tatsächlich genutzt wird.
Wenn nun die Mittelwertbildung nicht über die gesamte Retina durchgeführt wird, sondern über eine Clustereinteilung (z. B. zehn Cluster nebeneinander in zehn Reihen untereinander), bleibt die Winkelsignatur erhalten, gestattet aber eine präzisere räumliche Zuordnung bezüglich der Lage im Bildfeld. Dennoch kann ein solches System auch Halluzinieren, wenn es die Winkelsignatur mit unzutreffenden Objekten verknüpft. Genau dies tun KI-Systeme offenbar.
An dieser Stelle wäre es angebracht, die
maschinelle Mustererkennung und die beschriebene Mustererkennung über die
Orientierungssäulen zu vergleichen. Seit langer Zeit nutzt man
automatisierte Verfahren, um beispielsweise Texte maschinell zu erkennen.
Jeder kennt die Möglichkeit, ausgefüllte Banküberweisungen in der Bank durch
Automaten einscannen zu lassen, was bedeutend schneller geht als die
manuelle Eingabe der Daten über die Tastatur des Gerätes.
Der mathematische Apparat dahinter wird durch
zweidimensionale Gabor-Filter bewerkstelligt, dieses Verfahren gibt es auch
in der disktreten Form. Benannt ist es nach Dennis Garbor, der es für die
eindimensionale Signalanalyse verwendete. Später wurde es von Gösta Granlund
auf die zweidimensionale Analyse erweitert.
Prinzipiell ist ein Gabor-Filter für die
Bildanalyse eine Faltung einer ebenen Welle mit einer Gaußfunktion. Diese
Garbor-Filter lassen sich für die Erkennung der Kanten und der Struktur in
Bildern verwenden, bevorzugt auch als Hilfsmittel für die Schrifterkennung.
Durch die Wahl der Schwingungsrichtung der ebenen
Welle und ihrer Frequenz kann man bei Anwendung auf ein vorgegebenes Bild
beispielsweise erkennen, an welchen Stellen im Bild eine Kante vorkommt, die
diesen Anstiegswinkel α aufweist. Will man das Bild auf einen anderen
Anstiegswinkel β analysieren, ist eine erneute Garbor-Transformation mit
diesem Winkel β in den Garbor-Parametern erforderlich.
Wir erinnern uns an die 36 Retinaabbildungen, die
als zusammenhängender schmaler Neuronenstreifen im sekundären Cortex
vorhanden sind. Jede von ihnen ist genau einem Anstiegswinkel-Intervall
zugeordnet und enthält überall dort aktive (feuernde) Neuronen, wo in der
primären Retinaabbildung eine Orientierungssäule genau diesen Winkel erkennt
und daher ebenfalls feuert.
Wir könnten jede der 36 Retinaabbildungen als
Ergebnis einer Gabor-Transformation auffassen, bei der genau der zugeordnete
Anstiegswinkel eines Linienelements detektiert wurde. Es müsste also
insgesamt 36 Mal eine Garbor-Transformation der Retinaabbildung vorgenommen
werden, um das Ergebnis im sekundären Cortex mit seinen 36
winkelspezifischen Retinaabbildungen zu erreichen.
Das eigentliche Problem besteht jedoch darin,
dass es Neurologen schwer fallen wird, sich mit der Theorie der
Fourier-Transformation, der Theorie der Garbor-Transformation, mit dem
Vorgang der Faltung von Funktionen, mit Gaußfunktionen und harmonischen
Funktionen zu befassen, um die mathematischen Zusammenhänge zu verstehen.
Und eigentlich kann man es auch nicht verlangen, es wäre eine Zumutung.
Andererseits ist es ebenso verständlich, dass die
Theoretiker der Signalanalyse selten umfassende Kenntnisse über
Wirbeltiergehirne haben. Dies erschwert natürlich die Zusammenarbeit dieser
Fachrichtungen.
Es wäre lohnenswert, darüber nachzudenken, ob man
das Prinzip der visuellen Orientierungssäulen im primären visuellen Cortex
nicht mikroelektronisch nachbauen könnte. Denn das Gehirn liefert das
Ergebnis nach zwei Schritten, und gleichzeitig (parallel) für alle
Bildpunkte. Der erste Schritt ist die Ausbreitung der Inputsignale von den
Inputneuronen zu den Outputneuronen, wobei die nichtlineare Signaldämpfung
auftritt. Diese Nichtlinearität ist übrigens nach der Signaltheorie zwingend
notwendig für eine Musteranalyse. Der zweite Schritt ist die
Mittelwertbildung über einen Bildbereich oder das Gesamtbild, um die
Winkelsignatur zu ermitteln. Diese wäre als Input für ein klassisches
neuronales Netz verwendbar, welches bei hinreichend vielen versteckten
Schichten ebenfalls Deep Learning durchführen könnte und damit zur
Mustererkennung fähig wäre. Man würde also das künstliche neuronale Netz mit
bereits aufgearbeiteten Daten füttern statt mit dem Orginalinput des zu
analysierenden Bildes.
Die bisherige numerisch sehr aufwändige
Garbor-Transformation beziehungsweise die diskrete Garbor-Transformation
könnte dann entfallen. Einsparung von Rechnerleistung, Speicherplatz und ein
Gewinn an Geschwindigkeit wären möglicherweise bedeutsam. Bedenkt man, dass
KI-Systeme inzwischen riesige Mengen Elektroenergie benötigen, könnte man
auf diese Art die Umwelt und das Klima schonen. So würde die Hirnforschung
sogar einen Beitrag zum Klimaschutz leisten können.
Insofern ist es vorteilhaft, die
Signalverarbeitung im Gehirn möglichst umfassend aufzuklären. Diese
Monografie soll hierzu einen bescheidenen Anteil leisten.
Monografie von Dr. rer. nat. Andreas Heinrich Malczan