ISBN 978-3-00-068559-0
Monografie von Dr. rer. nat. Andreas Heinrich Malczan
Erstellt am 27.11.2024
Die ersten Anwendungen von künstlicher Intelligenz gehen auf das Bedürfnis zurück, geschriebene Schrift maschinell lesen zu können. Dann könnten Bankkunden ihre zu Hause ausgefüllten Bankbelege in der Bank von einem Bankautomaten einscannen lassen, was ihnen das lästige Eintippen der Daten ersparen würde.
Das maschinelle Erkennen von Handschriften setzt voraus, dass ein künstliches System zunächst einmal Linien erkennen kann. Dazu kann man als erstes das beschriebene Blatt Papier einscannen und die Helligkeit der Bildpunkte in Zahlenwerte zu übertragen. Anschließend muss in dieser Bildpunktmenge ermittelt werden, wo sich die Helligkeit stark ändert, weil dort eine helle oder dunkle Linie vorhanden ist. Dazu muss man beispielsweise jeweils eine Gruppe von vier benachbarten Bildpunkten daraufhin untersuchen, ob sich die ihnen zugeordneten Helligkeitswerte stärker unterschieden. Die Richtung, in der die Helligkeit am stärksten abnimmt, kann man als Helligkeitsgradienten bezeichnen. Diese sollte ermittelt werden.
Der US-Amerikaner Lawrence Roberts entwickelte hierfür bereits im Jahr 1963 ein Verfahren, welches den Helligkeitsgradienten einer solchen Bildpunktgruppe aus vier Bildpunkten näherungsweise ermittelt. Denkt man sich eine quadratische Maske, die genau vier Punkte umfasst, kann man die Analyse für das gesamte Blatt Papier durchführen, indem man die Maske zunächst die linke obere Ecke des Blattes analysiert, dann die Maske immer m eine Position nach rechts verschiebt und die Analyse des Gradienten wiederholt, bis man am rechten Bildrand angekommen ist. So hat man die Gradientenwerte für die erste Bildzeile ermittelt.
Anschließend analysiert man die zweite Zeile ebenso, dann die dritte, bis man die letzte Zeile analysiert hat.
Die ständige Verschiebung der Maske über das gesamte Bildfeld und die Berechnung des Gradienten für die jeweils aktuellen vier Bildpunkte bezeichnet man in der Mathematik als Faltung. Verwendet man dabei die von Lawrence Roberts entwickelte Methode, dass muss man die Faltung doppelt ausführen, wozu man zwei Faltungsmatrizen braucht. Denn der Gradient ist ein Vektor aus zwei Vektorkomponenten, die nacheinander durch Faltung ermittelt werden müssen.
Die aktuelle Maske wird über das Bild bewegt. Der von ihr erfasste Bildausschnitt B besteht aus jeweils vier Bildpunkten, die das folgende Aussehen haben:
,
Die Zahlenwerte f1 bis f4 stellen die Bildhelligkeit dar. Wir wählen für die Bildhelligkeit das Symbol f, weil wir später mit Feuerraten der Ganglienzellen der Retina arbeiten möchten. Die Indizierung folgt der Rotationsrichtung von Winkeln, beginnend bei f1. Und da die Winkelrotation in der Mathematik entgegen der Uhrzeigerrichtung erfolgt, liegt f2 links davon, darunter f3 und rechts davon f4.
Diese Maske M wird mit den zwei Roberts-Matrizen Rx und Ry gefaltet, die folgende Form haben:
und
,
wobei B das Eingangsbild und G das Ausgangsbild darstellt. Der Operator stellt die Faltung dar. Da zwei Faltungen durchgeführt werden, ist das Resultat ein Vektor mit zwei Komponenten, der den Gradienten Δ darstellt.
.
Wir können auch den Betrag des Gradienten angeben:
.
Ebenso können wir den Winkel ω angeben, in die der Gradient zeigt:
Wir berechnen den Gradienten schrittweise.
.
Weiter kann berechnet werden:
, also
Diese Ergebnisse werden wir später noch brauchen. Man erhält sie, indem man die Roberts-Faltung auf das erste Quadrupel von Punkten anwendet.
Wir unterstellen nun, dass das Bild, von dem hier die Rede war (also das handgeschriebene Blatt Papier) von unseren Augen gesehen wird und auf der Retina eines Auges die entsprechende Abbildung erzeugt. Den vier Bildpunkten, die beim elektronischen Scannen des Blattes erzeugt wurden, mögen vier Ganglienzellen der Netzhaut entsprechen, die nun ihrerseits die vier Feuerraten f1 bis f4 erzeugen. Jede Ganglienzelle besitzt dabei (prinzipiell) ein rezeptives Feld, welches (idealisiert) kreisförmig ist. Mögen die vier rezeptiven Felder der vier Ganglienzellen gleich groß sein und die Anordnung haben, die in der folgenden Abbildung zu sehen ist.
Diese Abbildung haben wir bereits verwendet im Kapitel 4.2.2 „Das Helligkeitsmodul mit seitlicher Signalüberlagerung“.
Dort hatten wir gezeigt, dass eine Gerade, wenn sie die vier rezeptiven Felder K1 bis K4 der Ganglienzellen schneidet, diese Ganglienzellen neuronal erregt und die Feuerraten f1 bis f4 hervorruft:
Wir berechnen nun etwas willkürlich einige Differenzen, die auch wir auch bei der Anwendung des Roberts-Operators gefunden haben.
Nun müssen wir beachten, dass der Winkel φ den Anstiegswinkel einer Geraden im Gesichtsfeld darstellt. Die Richtung des stärksten Helligkeitsabfalls steht senkrecht zu dieser Geraden. Daher wird der Gradient sich um 90°, also um den Winkel π/2 von der Richtung der Geraden unterschieden.
Damit liefert die Signalauswertung mit Hilfe der rezeptiven Felder im primären visuellen Cortex den Gradienten α.
Die Differenz zwischen φ und ω beträgt π/2, wie man leicht sieht:
Nun wird ersichtlich, dass die Berechnung des Anstiegswinkels über die rezeptiven Felder der beteiligten Ganglienzellen und die Berechnung des Gradienten mit Hilfe des Roberts-Operators zum gleichen Ergebnis führen.
Damit liefert das Konzept der vier sich überlappenden rezeptiven Felder, die von einer Geraden mit dem Anstieg φ geschnitten wird, den Anstiegswinkel der Geraden, während die Behandlung des Bildes mit dem Roberts-Faltungsoperator den Gradienten liefert, der rechtwinklig zum Anstiegswinkel angeordnet ist.
Da diese geneigte Gerade in der Bildverarbeitung als Kante bezeichnet wird und der Roberts-Faltungsoperator der Kantenermittlung dient, kann das Konzept der vier sich überlappenden rezeptiven Felder in Verbindung mit der nichtlinearen Signaldämpfung im primären visuellen Cortex dem Gehirn die Kantenanalyse ermöglichen. Der Roberts-Faltungsoperator erfüllt den gleichen Zweck, er dient der Kantenanalyse, für die er letztlich entwickelt wurde.
Ob sich Lawrence Roberts, als er im Jahre 1963 diesen Operator für die Bildbearbeitung vorschlug, vorstellen konnte, dass die Bildauswertung im primären visuellen Cortex im Prinzip genau nach seinem Prinzip erfolgt, ist nicht bekannt, spricht jedoch für seine Weitsicht.
Inzwischen sind viele andere Faltungskerne entwickelt worden, die in der Bildauswertung und Bildbearbeitung bessere Resultate bringen.
Der Sobel-Operator nutzt beispielsweise eine Faltungsmatrix aus 9 Elementen, eine Matrix aus drei Zeilen und drei Spalten. Er liefert ebenfalls den Gradienten, jedoch ist er weniger störanfällig für Bildrauschen. Der Scharr-Operator liefert ebenfalls den Gradienten, hat jedoch den Vorteil, besser auf die Symmetrie in Bildern zu reagieren.
Der mathematische Formalismus aller dieser Faltungsmatrizen beruht auf der näherungsweisen Berechnung der partiellen Ableitungen, die man für die Ermittlung des Gradienten benötigt. Beim Übergang zum Diskreten wird aus dem Differentialquotienten ein Differenzenquotient, so dass letztlich Differenzen von Funktionswerten (hier Helligkeiten) ergeben.
Man kann bei den Faltungsmatrizen auch die zweite Ableitung berücksichtigen, dann erhält man den diskreten Laplace-Operator, der ebenfalls den Bildgradienten näherungsweise ermittelt.
Es ist auch möglich, beispielsweise das Bildrauschen besser zu unterdrücken, den Kontrast zu verändern und allerlei Veränderungen beispielsweise bei Fotografien vorzunehmen, um sie in eine gefälligere Form zu bringen. Dazu nutzt man unter anderem Gauß-Filter.
Für die Herleitung des Ergebnisses ist übrigens keinerlei Kenntnis über die Art der neuronalen Dämpfung bei der Signalausbreitung erforderlich!
Erwähnenswert ist jedoch, dass die Erkennung einer Kante bzw. eines Linienelements in einem Bildpunkt nicht möglich ist ohne die Kenntnis der Umgebung des Punktes. Dem Roberts-Operator liegt die (näherungsweise) Ermittlung des Anstiegs der Bildfunktion in zwei diagonale Richtungen zugrunde. Der Anstieg einer Funktion ist jedoch immer auf den Differentialquotienten, also die Ableitung zurückführbar. Die Ableitung einer Funktion ist jedoch eine Umgebungseigenschaft. Deshalb sind zur näherungsweisen Berechnung immer (im zweidimensionalen Fall eines Bildes) mindestens vier Bildpunkte nötig.
Die Tatsache, dass die Richtungsempfindlichkeit der Orientierungssäulen im primären visuellen Cortex über die Überlappung der rezeptiven Felder der retinalen Ganglienzellen erklärbar ist, sollte endlich die völlig absurde Theorie widerlegen, diese Eigenschaft der Orientierungssäulen käme durch Lernen zustande. Wir sollten uns daran gewöhnen, dass die nichtlineare Signalausbreitung im Gehirn die eigentliche Ursache vieler Analysefähigkeiten des Wirbeltiergehirns bildet.
Unabhängig davon gibt es im Wirbeltiergehirn auch lernende neuronale Netze, jedoch werden diese mit bereits aufgearbeiteten Daten versorgt, die im sekundären Gehirnsystem gewonnen werden.
Monografie von Dr. rer. nat. Andreas Heinrich Malczan