DE2541204B2

DE2541204B2 - Einrichtung zur Fehlerkorrektur

Info

Publication number: DE2541204B2
Application number: DE2541204A
Authority: DE
Inventors: Ellen Poughkeepsie N.Y. Bollinger Geb. Willis; Anne Marie Lanham Chaires Geb. Lyons; Jean Marie Rockville Ciconte Geb. Scheltes; Allen Harold Bethesda Ett; John Joseph Potomac Hilliard; Donald Francis Kocher; Walter Steven Rosenbaum
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1974-10-08
Filing date: 1975-09-16
Publication date: 1978-03-30
Also published as: US3969698A; CA1062811A; SE439848B; DE2541204C3; DE2541204A1; FR2287747B1; ES441353A1; GB1500203A; IT1042379B; BE832767A; BR7506545A; JPS573979B2; FR2287747A1; JPS5143643A; NL7511834A; CH586429A5; SE7511157L

Description

Die Erfindung betrifft eine Einrichtung zur Fehlerkorrektur nach dem Oberbegriff des Anspruchs 1.

Bei der optischen und akustischen Zeichenerkennung kommt es trotz aller technischen Vollkommenheit der Zeichenleser bzw. -umsetzer zu Fehlleistungen bei der Zeichenerkennung, insbesondere, wenn die Qualität der angebotenen Vorlage nicht einwandfrei ist, was z. B. bei schlechter Druckqualität oder geringer Güte eines elektroakustischen Übertragungsweges der Fall ist. Auch bei der manuellen Eingabe von Zeichen über Tastaturen können Fehler auftreten, die jedoch weniger technisch als menschlich bedingt sind. Die Einrichtung zur Fehlerkorrektur gemäß der vorliegenden Erfindung ist auf gewisse Typen von Fehlern anwendbar, die in Datenströmen von Zeichenlesern, akustischen Sprachanalysatoren oder Tastaturen auftreten, unabhängig davon, welcher Ursache ihre Existenz zuzuschreiben ist. Im folgenden wird daher unter dem Begriff »Zeichen« sowohl ein graphisch angebotenes alphabetisches Zeichen als auch ein akustisches Phonem und auch ein in eine Tastatur eingetastete alphabetisches Zeichen verstanden. Wo die folgende Beschreibung sich auf optische Zeichenleser bezieht, ist es dem Fachmann ohne weiteres möglich, die entsprechenden Verhältnisse bei Sprachanalysatoren oder Tastaturen zu substituieren.

Der Kürze halber wird in der Beschreibung gelegentlich statt fehlerhaft lesen, der Begriff »Verlesen« und statt fehlerhaft erkennen der Begriff »Verkennen« gebraucht.

Geräte zur Fehlerkorrektur bei der optischen Zeichenerkennung sind bereits bekannt. Bei diesen Geräten ist allerdings die Auswahl des korrekten Wortes für ein verstümmeltes Eingabewort, das von einem optischen Zeichenleser verlesen worden ist, auf die Korrektur von Substitutionsfehlern beschränkt. Zur Verbesserung der Lesequalität ist die Benutzung von bedingten Wahrscheinlichkeiten vorgeschlagen worden, um einfache Substitution eines Zeichens für ein anderes oder für eine Zeichenzurückweisung zu korrigieren, wobei die totale Wahrscheinlichkeit berechnet wird, mit

welcher das Eingabewort verlesen wurde, unter der Voraussetzung, daß ein vorbestimmtes Diktionärwort tatsächlich durch den Zeichenleser abgetastet worden war. Diese bekannten Geräte befassen sich jedoch nur mit der einfachen Substitution von verwechselten Paaren, die die gleiche Stellung im abgetasteten Wort wie im Diktionärwort einnehmen, wobei zusätzlich die Länge des abgetasteten Wortes mit der des Diktionärwortes übereinstimmen muß.

Ein bemerkenswerter Fortschritt gegenüber diesen Geräten is-, die in der DE-OS 24 60 757 offenbarte Lehre, die es ermöglicht, Segmentationsfehler und Substitutionsfehler in den vom Zeichenleser gelesenen Buchstaben zu korrigieren. Segmentationsfehler entstehen durch fehlerhafte Bestimmung des Anfangs und Endes eines Zeichens. Sie kommen in den von Zeichenlesern ausgegebenen Datenströmen relativ häufig vor und stellen ein wesentliches Hindernis für die Genauigkeit dieser Einrichtungen bei der Textverarbeitung dar. Gemäß der genannten DE-OS 24 60 757 enthält eine Korrekturvorrichtung einen gespeicherten Diktionär mit Wörtern, von denen angenommen wird, daß sie vom Zeichenleser gelesen werden. Für die Verarbeitung eines allgemeinen Textes in einer beliebigen Sprache wäre es erforderlich, einen vollständigen Diktionär dieser Sprache zu speichern, was eine außerordentlich große Speicherkapazität erfordern würde sowie sehr kurze Zugriffszeit, um jedes Wort im Diktionär mit dem verstümmelten Eingabewort vom Zeichenleser zu vergleichen. Eine Verbesserung ist dadurch möglich, daß spezielle Speicher vorgesehen werden, deren Wortinhalt auf die spezielle Art des Textes zugeschnitten ist.

Ein Vorschlag zur Verwendung eines Assoziativspeichers zum Auffinden der korrekten Form eines verstümmelten Wortes ist von J. ]. Giangardella gemacht worden in »Spelling Correktion by Vector Representation Using a Digital Computer«, IEEE Transactions on Engeneering Writing and Speech, Vol. EWS -10, Nr. 2, December 1967, S. 57. Dieser Vorschlag betrifft die Vektordarstellung von alphabetischen Wörtern durch Zuordnung der Ziffern 1 bis 26 zu den Buchstaben A bis Z und die Berechnung des Vektorbetrags und des Winkels für den Zugriff zur korrekten Form des Eingabewortes im Speicher eines Universalrechners. Mit diesem Vorschlag sind große Probleme verknüpft, die mit der Adressierung des Assoziativspeichers zusammenhängen und zu Klassen von Wörtern führen, die entweder zu viele Wörter umfassen oder die das gesuchte Eingabewort nicht umfassen.

Die vorliegende Erfindung soll daher die Aufgabe lösen, im Rahmen einer Einrichtung zur Fehlerkorrektur und zur korrekten Ausgabe von in Zeichengeneratoren erzeugten Wörtern, die mit einem Verzeichnis gültiger Wörter arbeitet, eine Lösung anzugeben, den Teil des Verzeichnisses sehr präzise und schnell zu bestimmen, der die korrekte Form des Eingabewortes und damit das gültige Ausgabewort enthält. Außerdem soll die Kapazität des Verzeichnisses kleiner sein als es bisher üblich ist.

Gelöst wird diese Aufgabe durch die im Hauptanspruch genannten Merkmale.

Vorteilhafte Weiterbildungen und Ausgestaltungen des Erfindungsgegenstands sind den Unteransprüchen zu entnehmen.

Mit der vorliegenden Erfindung wird also der Vorteil erzielt, daß Bezugswortgruppen für die Nachverarbei

tung der Erkennungssignalströme von optischen Zeichenlesern verdichtet und abgerufen werden können.

Einzelheiten eines Ausführungsbeispiels der Erfindung werden nachfolgend beschrieben, wobei auf die Zeichnungen Bezug genommen wird. Es zeigt

F i g. 1 ein Schema des Vektor-Entnahmevorgangs,

Fig. 2, 3 Matrizen für die Zuordnung numerischer Wert zu den Zeichen des Alphabets,

Fig.4 schematisch die Zuordnung von Wörtern zu verschiedenen Wortgruppen im Festwertspeicher,

F i g. 5 ein Blockschaltbild eines Festwertspeichers mit Adressiervorrichtung,

F i g. 6 ein Blockschaltbild des Häufungs-Speichers,

F i g. 7 ein Blockschaltbild einer Zeichenerkennungsund Korrekturvorrichtung,

F i g. 8 die im Text erwähnte Tabelle 2.

Das zur Fehlerkorrektur bei der optischen Zeichenerkennung angewandte Vorgehen beruht auf dem Nachschlagen in einem Fehlerkorrektur-Diktionär und aus allen darin verzeichneten Wörtern dasjenige herauszufinden, das vom optischen Zeichenleser gelesen, aber in die zur Zeit in Verarbeitung stehende falsche Form verkannt wurde. Ein grundlegender Teil dieser Teil dieser Operation besteht in der Fähigkeit, zunächst festzustellen, welcher Teil des Fehlerkorrektur-Diktionnrs heranzuziehen ist. Das ist schematisch in F i g. 1 dargestellt. Je genauer es möglich ist, den Teil des Diktionärs zu bestimmen, der die korrekte Form des Eingabewortes enthält, um so größer kann der Diktionär sein, ohne den Wirkungsgrad und die Geschwindigkeit der Fehlerkorrektur-Operation bei der optischen Zeichenerkennung zu beeinträchtigen.

Wenn in einem Zeichenerkennungsstrom ein verstümmeltes alphabetisches Wort festgestellt wird und für seine korrekte Form eine Gruppe von Kandidaten-Wörtern ausgewählt werden soll, machen es die Eigenschaften des optischen Zeichenlesers, dem die Verkennung entstammt, unmöglich, einen zuverlässigen Zugriff zum Diktionär zu formulieren, bei dem die normale Diktionär-Indexierung nach Wortattributen gemäß den alphabetischen Eigenschaften der Wörter und/oder der Wortlänge erfolgt. Die Verkennungsneigung des Zeichenlesers kann eines oder beide der Wortattribute in verschiedener Weise beeinflussen. Trotzdem ist in den verkannten Daten noch genug potentionelle Information für das »Nachschlagen« in einem Diktionär vorhanden. Um ein verstümmeltes Wort als Schlüssel zum Diktionär zu benutzen, muß der Zeichenstrom in einer neuen Weise analysiert werden. Für diese Analysen kommen die Speicher-Organisationskonzepte nach der Vektor-Entnahme und nach den Wortgruppen in Frage.

Die Diktionär-Zugriffmethode gemäß der Vektor-Entnahme kann am besten als eine spezialisierte Anwendungsform der statistischen Vertrauensintervall-Theorie verstanden werden. Dabei umfaßt ein Fehlerintervall Δ im allgemeinen einen Bereich von Werten, innerhalb dessen der wahre Wert der geschätzten Größe mit einer vorgegebenen Fehlertoleranz liegen wird.

Bei der Fehlerintervall-Analyse kann die Vektor-Entnahmemethode als eine spezielle Anwendung betrachtet verden, bei welcher das verstümmelte Wort benutzt wird:

a) den Ort im Diktionär abzuschätzen, an welchem das durch den optischen Zeichenleser verkannte Wort steht,

b) der geschätzten Zugriffsstelle im Diktionär Bedeu-

tung zu verleihen, indem um sie herum ein Bereich von Stellen abgesteckt wird, innerhalb dessen die gesuchte Wortinformation mit einer vorgegebenen Sicherheit liegt.

Die Beschreibung der Mechanismen, die bei der Verwirklichung der erwähnten Vektor-Entnahmemethode eine Rolle spielen, ist logisch in zwei Teile gegliedert, welche betreffen:

1. ein erstes Zugriffsmittel, das auf dem Zeicheninhalt basiert, und das verlangt

a) die Abschätzung einer Diktionär-Zugriffstelle innerhalb des Speichers

b) die Bestimmung der Grenzen der Entnahmebreite

2. ein zweites Zugriffsmittel, das die Gruppierung der Diktionärwörter innerhalb des Speichers in Wortgruppen verlangt, deren Wörter die gleiche Länge, d. h. Buchstabenzahl, haben.

Die Zugriffstelle im Diktionär stellt die erste Abschätzung der Stelle dar, an welcher die korrekte Form des vom optischen Zeichenleser gelesenen Eingabewortes im Diktionär-Speicher steht. Die Maßnahme für diesen anfänglichen Abschätzungsprozeß ist eine spezielle Such-Transformation, der das verkannte alphabetische Eingabewort unterworfen wird. Diese Such-Transformation beruht auf einem numerischen Zuordnungsschema, in dem jedem Buchstaben des Alphabets ein numerischer Wert zugeordnet wird, der seine absolute und relative Zuverlässigkeit beschreibt, bei der optischen Zeichenlesung richtig erkannt zu werden. Einzelheiten dieser Zuordnung werden weiter unten erläutert. Es genügt hier festzustellen, daß die zugeordnete Zahl mit der Zuverlässigkeit des alphabetischen Zeichens verknüpft ist. In seiner einfachsten Form besagt dies, daß je zuverlässiger die Erkennung eines alphabetischen Zeichens ist, um so mehr Gewicht wird ihr bei der Such-Rechnung beigelegt.

Unter diesem alphanumerischen Zuordnungsschema ergibt sich die Zugriffsstelle als eine Summe ganzer Zahlen:

v = Σ L_n ,

worin L der dem Buchstaben der JV-ten Position des verkannten Wortes zugeordnete numerische Wert ist und M die Anzahl der Buchstabenstellen in dem verkannten Wort.

Der Schlüssel zu dieser Technik ist die Ableitung des geeigneten alphanumerischen Zuordnungsschemas. Vielfache und scheinbar einander widersprechende Einschränkungen müssen bei diesem Zuordnungsschema berücksichtigt werden. Im wesentlichen muß das alphanumerische Zuordnungsschema, das zur Berechnung der Zugriffsstelle benutzt wird,

a) den Effekt der sich aus den Fehlleistungen des Zeichenlesers ergebenden Zeichensubstitutionen auf die Zugriffsstelle möglichst klein halten,

b) im Diktionär vorkommende Wörter möglichst gleichmäßig verteilt im Speicher aufführen.

Die erste Einschränkung betrifft die Bedingung, daß die Gleichung (1) so unempfindlich wie möglich gegen Zeichensubstitution und verkannte Segmentation, das ist die Aufteilung in einzelne Abschnitte, ist. Die zweite Einschränkung sucht die Erarbeitung einer trivialen Lösung zu verhindern, die sich auf Grund der ersten Einschränkung ergeben könnte. Eine derartige triviale Lösung würde im Zusammenschrumpfen des Diktionär! bestehen, so daß alle Eintragungen nur eine Zugriffsstel Ie, oder ein sehr schmales Band von Zugriffsstellen innerhalb des Speichers einnehmen würden. Wäre da; der Fall, würde nahezu der gesamte Diktionär bei jeder Entnahmeoperation zur Ausgabe gelangen. Bei einei Realzeit-Verarbeitung wäre dies völlig unanwendbar und würde die Vektor-Entnahmemethode völlig in Frage stellen.

Ein optimales alphanumerisches Zuordnungsschema für die Vektor-Entnahmemethode kann mathematisch mit Hilfe der linearen Programmierung abgeleitet werden. Diese Entwicklung des Zuordnungsschemas ergibt sich, indem man die Neigung des optischer Zeichenlesers zu Zeichensubstitutionen als lineare Beziehungen ausdrückt. Dabei wird für jedes von C verschiedene Ereignis in der Übertragungsfunktion de; Zeichenlesers eine Normdistanz festgesetzt, die die Form hat

ι ^Λ ι ~

worin X_x, Xß die numerischen Kennzeichen der alphabetischen Zeichen sind, die im allgemeinen Fall mil »λ« und »0« bezeichnet sind.

Eine typische Übertragungsfunktion eines Zeichenlesers liefert einige hundert separate Ausdrücke in dei Form der Gleichung (2). Mit der üblichen linearer Optimisierung ist es jedoch nicht möglich, eine Normdistanz (d. h. ein absolutes Größenverhältnis) be den gegebenen Einschränkungen als Basisvariable direkt vorzusehen.

Um der Optimisierung der Programmierung de« alphanumerischen Zuordnungsschemas zu ermöglichen eine Analogie zu den vom Zeichenleser verkannter Eigenschaften zu enthalten, wurde lineare Programmierung mit gemischten ganzen Zahlen vorgesehen. Jede; Verhältnis gemäß Gleichung (2) wird ausgedrückt al: ein Satz von Einschränkungen von der Form:

Z,„>0,

worin Ι_Λβ einen Satz von ganzzahligen Variabler darstellen, die auf die Werte 1 oder 0 eingeschränkt sind Ζ_Λβ ist die Variable, über welche die Optimierung dei objektiven Funktion der Form ΣΡ_ΧβΖ_χβ = mir durchgeführt wird. Ρ_Λβ ist das relative Gewicht, das dei betreffenden Einschränkung zugeordnet ist. Bei der hier beschriebenen Analyse wurde Ρ_Λβ gleichgesetzt mit dei kumulativen Erscheinungsfrequenz der entsprechender «J3-Zeichen. K ist die Entnahmeirrtum-Toleranz ir Größenordnungseinheiten.

Bis hierher haben die Optimierungsgleichunger lediglich Einschränkungen gemäß dem oben mit »a< bezeichneten Ziel in Betracht gezogen.

Das oben mit »b« bezeichnete Ziel, nämlich dif Vermeidung von regellosen Häufungen von Eintragun

bo gen im Diktionär innerhalb eines Bereiches vor Größenwerten, wird dadurch erreicht, daß zu der Gleichungen, welche die Fehlleistungen des Zeichenle sers beschreiben (Gleichung 3), eine Reihe vor Einschränkungen hinzugefügt wird, die eine in etwi

bi gleichförmige Verteilung von Eintragungen über all« Abschnitte des Diktionärs aufrechterhalten. Diesi letzteren Einschränkungen werden dadurch aufgestellt daß regelrechte Eintragungen in die Wörterliste dei

Diktionärs wahllos herausgegriffen werden und festgelegt wird, daß zwischen ihnen in der endgültigen Vektorstruktur des Diktionärs eine vorbestimmte Normdistanz eingehalten werden muß. Beispielsweise können die Eintragungen CORNWALL und SHERWOOD dazu benutzt werden, eine Infrastruktur-Einschränkung für den Vektor-Diktionär zu erstellen, welche die Form hat:

(.Υ,- + X₀ + X_H + X_x + X₁,- + X₄ + X₁, + X₁,)

- {X_s + X_n + X₁; + X_K + X₁₁. + X₀ + X₀ + X₀)
> D₁ *<■ + X,_v + X_A + 2X_L

- X_s - X₁₁ - X₁, - X₀ - X_n > D₁. (4)

Der Wert D\ repräsentiert die Normdistanz zwischen den Eintragungen SHERWOOD und CORNWALL in einem Diktionär, bei dem ein anfängliches Zuordnungsschema benutzt worden ist, welches eine gute Verteilung innerhalb der Wörterlisten des Diktionärs liefert, das jedoch nicht notwendigerweise allen Einschränkungen genügt, die durch Gleichung (3) vorgeschrieben sind. Die bei der Programmierung zu beachtenden Einschränkungen werden vervollständigt durch Hinzunahme der zusätzlichen Infrastruktur-Einschränkungen, die mit dem einfachen linearen Format gemäß dem SHERWOOD/CORNVALL-Beispiel übereinstimmen, das in der Gleichung (4) beschrieben ist.

Das ursprüngliche Zuordnungsschema, das zur Definition der Werte D der Gleichung (4) benutzt wurde, wurde durch Behandlung der Gleichung (1) als Vektorgrößenberechnung erhalten, nämlich

j'= Σ α.

W= I

wobei die Zahlen 1 bis 26 (L% = 1 ... 676) den Buchstaben des Alphabets zugeordnet sind.

Die Fig.2 und 3 zeigen, wie die numerische Zuordnung in Übereinstimmung mit den Einschränkungen erfolgt, die durch die Gleichung (3) verlangt werden. Bei einer numerischen Spanne von 1 bis 26 nehmen die Quadrate dieser Werte einen Bereich von 1 bis 676 ein. Fig.2 zeigt eine Matrix für diese Werte, ohne die Buchstabenzuordnung anzugeben. In vertikaler Richtung repräsentiert die Matrix die Eingabecharakteristik, die vom abgetasteten Dokument gewonnen wurden. Die Horizontale der Matrix repräsentiert die Entscheidung, die bei der optischen Zeichenlesung getroffen worden ist. Alle korrekten Erkennungen liegen auf der Diagonalen der Matrix. Alle Substitutionen oder Zurückweisungen liegen abseits der Diagonalen. Wenn beispielsweise H und M den Werten 10 bzw. 9 entsprechen, und Hals Mverlesen wird, ergibt sich eine Größendifferenz von 100 minus 31 gleich 19. Das stellt noch eine annehmbare Auswahl dar, da H- und M-Substitution häufig ist.

Mit der durch Verlesen bedingten Störung von plus oder minus 250 Einheiten (das ist der Normalwert des Faktors K auf der rechten Seite des Gleichungssystems, das sich aus der Gleichung [3] ergibt) ist es möglich, eine relativ einfache doch sinnvolle anfängliche Zuordnung von alphabetischen Zeichen zu den auf den Achsen der Matrix angegebenen Werten durchzufuhren, so daß eine große Zahl von üblichen Erkennungsfehlern innerhalb eines Fehlerintervalls von plus 250 bis minus 250 Einheiten liegt. Diese Grenzen sind in der Fig.2 angegeben. Die anfängliche numerische Zuordnung ist in F i g. 3 gezeigt, wo die schraffierten Teile diejeniger Verlesungen enthalten, die mit dem anfänglicher Schema nicht kompensiert werden können. Die innerhalb der Matrix angegebenen Zahlen entsprechen

^r> der relativen Häufigkeit der entsprechenden Fehlleistungen. Versuche mit diesem Schema haben gezeigt daß, obgleich nicht alle Einschränkungen der Gleichung (2) erfüllt waren, dieses Schema doch genügt hat, eine Wörterliste in einen Diktionär mit geeigneter Verteilung zu transformieren, bei dem sich keine regellosen Häufungen von Eintragungen ergaben. Aus diesem Grund wurde dieses Schema benutzt, die Norm-Distanz zwischen wahllos herausgegriffenen Eintragungen zu bestimmen, um die durch die Gleichung (4) definierten

ι ο I nfrastruktur- Einschränkungen zu formulieren.

Die Lösung der obengenannten Gleichungen und die Optimierung gemäß linearer Programmierung unter Beachtung der gegebenen Einschränkungen hat zu dem folgenden, in Tabelle 1 dargestellten Zuordnungssche-

2(i ma geführt.

Tabelle I

A =200 B = 36 C = 256 D = 196 E = 144

F = 16 G = 289 H = 144 I = 64 J= 225

K = 441 L = 25 M = 175 N = 185 0 = 225

P = 361 Q = 289 R = 225 S = 324 T = 121

U = 169 V=IOO W = 49 X = 529 Y = 9

Z = 484 F* = 121

Wenn das verlesene Wort unter Benutzung dei alphanumerischen Zuordnung gemäß Tabelle 1 in einer Vektorbetrag transformiert worden ist, kann mar annehmen, daß sowohl die verstümmelte wie die korrekte Form des betreffenden Wortes ziemlich ähnliche Werte des Betrags annehmen. Wenn die korrekte Form eines jeden Wortes bezüglich seine; Betrags in einem Fehlerkorrektur-Diktionär gespeichert ist, dann liegt die durch die Gleichung (1) gelieferte Zugriffstelle in der Nachbarschaft der korrekter Worteintragung. Um den Entscheidungsprozeß erfolgreich durchführen zu können, ist es jedoch erforderlich die verlesene Form des Wortes in einem probabilistisehen Format mit der korrekten Form des Wortes zi vergleichen. Daraus ergibt sich, daß die Zugriffsstelle allein für die Beschaffung der in der letzterwähnter Phase der Fehlerkorrektur erforderlichen Daten nichi ausreicht. Die Nähe der Zugriffsstelle zur korrekter Eintragung macht sie zum natürlichen Angelpunkt füi die Konstruktion eines Fehlerintervalls Δ, das zui Begrenzung eines Diktionär-Entnahmebereiches heran gezogen werden kann. Bei Geeigneter Ausbildung gestattet das Fehlerintervall Δ, das einen Entnahmebe reich definiert, aus der Zugriffstelle benachbarter Stellen einen Satz von Adreßeintragungen zu gewinnen die, mit einer vorgegebenen Fehlertoleranz, die korrekte Version des verlesenen Eingabewortes enthalten. Wie im vorhergehenden Beispiel schließt da: Fehlerintervall Δ «= ± 250 eine Fehlertoleranz ein, d. h

Mi die Möglichkeit, daß die korrekte Version eines Eingabewortes außerhalb des Entnahmebereiches liegt. Die drei hauptsächlichen, bei der optischen Zeichenlesung auftretenden Verlesefehler, die bei der Bestimmung eines Diktionär-Entnahmebereiches kompensier!

bo werden müssen, sind zurückgewiesene Buchstaben Substitutionsfehler und Segmentalionsfehler. Die Entnahmemethode ist bei den Zurückweisungen und Substitutionsfehlern am wirksamsten. Segmentations-

fehler sind statistisch weniger gut voraussagbar und können deshalb auch nicht so leicht beseitigt werden. Ein verlesenes Wort kann mit der Vektorentnahme-Methode unauffindbar werden, wenn aufeinanderfolgende Verlesungen innerhalb des Wortes sich gegenseitig ■-, additiv verstärken, bis ein Δ von mehr als 250 erreicht ist. Diese Situation ist verhältnismäßig selten, da aufeinanderfolgende Verlesungen die Tendenz haben, die Größe der Abweichung, die jede von ihnen verursacht hat, zu einem gewissen Grad zufällig zu in beseitigen.

Zur Unterstützung des Zugriffs nach der Vektorentnahme-Methode wird der Diktionär nach ähnlichen Wortlängen organisiert.

F i g. 1 zeigt schematisch den Entnahmeprozeß für ein ι ^r> verkanntes Eingabewort. Die Größe des Eingabewortes wird nach der weiter unten angeführten Gleichung (9) berechnet. Für das in diesem Beispiel benutzte Wort ergibt sich eine Größe von 1087. Die Wortlänge wird auch benutzt, um die Anzahl der Speicherzugriffen zu reduzieren. Für Daten, die durch optische Zeichenerkennung gewonnen sind, kann die Wortlänge jedoch nicht als absolutes Unterscheidungsmerkmal herangezogen werden, da Segmentationsfehler die Wortlänge künstlich vergrößern oder verkleinern können. Ein Lösungsweg für diese Probleme besteht darin, daß nicht nur Wörter der gleichen Länge wie das Eingabewort in den Entnahmeprozeß eingeschaltet werden, sondern auch alle Wörter mit benachbarten Längen und sogar solche, deren Längen um zwei Stellen abweichen. Dies erfolgt in Übereinstimmung mit Regeln, die ihrerseits längenabhängig sind. Bei diesem Vorgehen ergibt sich jedoch das Problem, daß es zu unannehmbaren Entnahmezugriffen führt, die durchschnittlich etwa 20% des Diktionärs umfassen.

Es ist möglich, die bekannte Fehlerneigung optischer Zeichenleser dazu zu benutzen, die Unterscheidung nach Wortlängen zu verbessern. Da Änderungen der Wortlänge durch gewisse Segmentationsprobleme hervorgerufen werden, werden nur solche Wörter, die auf Grund ihrer Komposition zu fehlerhafter Segmentierung führen können, in mehr als eine Wortlängengruppe eingeführt. Daraus ergibt sich ein Konzept der Unterscheidung nach Wortgruppen. In einer Wortgruppe sind alle diejenigen Wörter enthalten, die eine bestimmte Länge aufweisen, sowie Wörter mit allen andern Längen, die eine signifikante Wahrscheinlichkeit aufweisen, fälschlich auf die betreffende Länge segmentiert zu werden.

Die Implementation des Zugriffs nach Wortgruppen hängt ab von der Feststellung objektiver Kriterien, auf Grund deren die Buchstabenzusammensetzung eines Wortes auf den Grad der Neigung zur Fehlsegmentierung untersucht werden kann, um die Notwendigkeit einer Zuweisung zu mehreren Wortgruppen festzustellen. Zu diesem Zweck wird die folgende Berechnung der Segmentierungsschwelle durchgeführt.

Die Wahrscheinlichkeit einer Wortsegmentierung wird funktionell durch die Gleichung (5) beschrieben.

auftreten, deren P(W_5Cg)größer als 0,6% ist. Es ist daher vernünftig, diejenigen Wörter als die Schwelle zu doppelter Worteintragung überschreitend anzusehen, deren kumulative Segmentierungs-Wahrscheinlichkeit diesen nominellen Wert überschreitet, nämlich

(5)

worin W für »Wort« steht, und P die Wahrscheinlichkeit, und die Überstreichung des Index das Komplement der Segmentierung andeutet, nämlich daß keine μ Segmentierung stattfindet. Aus empirischen Daten, die über alle Wortlängen gemittelt sind, ergibt sich, daß 80% aller Segmentierungen in solchen Wörtern P(W_s,._e)> 7=0,6%.

Diese Schwelle könnte natürlich gesenkt werden, aber das würde viele neue doppelte Eintragungen nach sich ziehen, ohne wesentlich mehr Wortsegmentierungen möglich zu machen. Das Verhältnis in Gleichung (5) wird übersichtlicher, wenn man es in Teile aufspaltet:

P(W_x,,,) = 1 - P(x_lejr) · P(x_25f)... Pi^sg). (7)

Durch Einsetzen von Gleichung (7) in Gleichung (6) ergibt sich

1 - P(A₁J₅) · P(A₂J₅)... Ρ!.*,«,) > 7\
P(^) ■ P(«_2i5) · · · P(W < I - Γ.

In logarithmischer Schreibweise ergibt sich daraus schließlich eine allgemeine Schwelle für Wortgruppen-Kandidaten:

|logP(*_Ii5)
+ ...logPfr»_w5i)|> Ilogd-T)!

Durch Zurückführen der Gleichung (8) auf das binomische Modell, das seiner Anwendung unterliegt, kann die Gleichung einfach für die Neigung (Wahrscheinlichkeit) zur Falschsegmentierung, die bewirkt, daß ein Wort Kandidat für mehrfache Eintragung in eine Wortgruppe, zwei Wortgruppen usw. ist, gelöst werden:

Schwelle für eine einzelne Segmentierung:

worin M die Anzahl der Buchstaben in einem Wort bedeutet.
Schwelle für zwei Segmentierungen:

M!

2!(M

worin P (oc&g) die durchschnittliche Neigung eines Wortes zur Falschsegmentierung darstellt.

Daraus folgt die Schwelle der Wort-Falschsegmentierung für einen Diktionäreintrag in zwei benachbarten Wortgruppen zu:

^il"^e(21'

(10)

Für die Wortlänge 8 (M = S) kann dies umgeschrieben werden als:

llogCl — fT(2!)(6!)(8!))|.

Durch ähnliche analytische Verfahren erhält man ein komplettes Spektrum der Wortgruppen-Schwellen, d. h. für einzelne Eintragung, doppelte Eintragung, dreifache

Eintragung usw. für jede gegebene Wortlänge.

Bei Benutzung der vorher beschriebenen Schwellen der Falschsegmentierungs-Neigung sind in einer Wortgruppe alle Wörter der betreffenden Länge enthalten, sowie alle Wörter mit anderen Längen, deren Wahrscheinlichkeit, fälschlich zu der betreffenden Menge segmentiert zu werden, genügend groß ist. Daher kann ein einzelnes Wort in mehreren Wortgruppen erscheinen, was von seiner Buchstabenkomposition abhängt. In F ig. 4 erscheint das Wort CORNWALL beispielsweise in der Wortgruppe 8, die seiner korrekten Länge entspricht. CORNWALL hat jedoch vier Buchstaben, die für Falschsegmentierung anfällig sind, wobei hier ein Buchstabe in zwei segmentiert wird. Diese sind C, O, N und W. Daraus ergibt sich, daß eine ziemlich große Wahrscheinlichkeit besteht, daß CORNWALL in ein Wort mit neun Buchstaben verlesen wird, wie beispielsweise CORNWALL, oder ein Wort mit zehn Buchstaben, wie CIJRNVVALL. Daher wird dieses V/ort auch in den Wortgruppen 9 und 10 geführt. Das Wort WHITEHALL ist ursprünglich in der Wortgruppe 9. Das Wort ist jedoch auch in der Wortgruppe 8 enthalten, da es zwei Buchstabenpaare aufweist, die beide zu einem einzelnen Buchstaben zusammengezogen werden können. Diese sind HI und LL.

Der zweite Gesichtspunkt, nach dem der Speicher organisiert sein kann sind autonome Wortgruppen, die auf der Buchstaben-Feldlänge basieren. Dabei werden alle N Eintragungen im Diktionär zusammen aufgeführt,

wenn /V= 1, 2, 3 ist, bis zum längsten Satz von in

Frage kommenden Diktionärwörtern. An jede dieser Gruppen von Wörtern im Diktionär werden Wörter anderer Längen angehängt, deren alphabetische Komposition bewirkt, daß ihre Neigung zur Falschsegmentierung eine Schwelle überschreitet, und die daher Kandidaten für das Verlesen bei der optischen Zeichenlesung sind.

Die Anzahl von Eintragungen die sich bei einer Entnahme ergibt, die auf Grund der Unterscheidung nach der berechneten Größe und den Wortlängengruppen durchgeführt wird, liegt zwischen 1 und 2% der Anzahl unterschiedlicher Eintragungen im gesamten Diktionär. Diese Reduktion in der Größe des Entnahmepaketes wird erreicht, obwohl nur eine kleine Einbuße an Entnahmegenauigkeit zu verzeichnen ist.

Die bei der Fehlerkorrektur im Zusammenhang mit der optischen Zeichenerkennung erfolgreich angewandten Techniken sind in ähnlicher Weise nützlich für jedes andere System, in dem Fehlermatrizen aufgestellt werden können. So sind beispielsweise die Fehlercharakteristiken von Schreibmaschinentastaturen eingehend studiert worden. Dabei wurden Daten über mehr als 6 000 000 Tastenanschläge gesammelt und analysiert. Die Tabelle 2 (Fig.8) zeigt eine Fehlermatrix, die auf der Auswertung von etwas über 1 000 000 Tastenanschlagen beruht. Die Untersuchung der Vorgänge in Tabelle 2 zeigt, daß die Fehlermuster bei zur Substitution führenden Fehlanschlägen in drei Kategorien eingeteilt werden können:

1. optisch verwechselbare Buchstaben,

2. benachbarte Tasten,

3. gleiche Fingerposition an der anderen Hand.
Dieser Fehlermechanismus unterliegt mehr als bei der

optischen Zeichenerkennung einem stabilen, zeitlich invarianten Prozeß, der sinnvoll in einer Fehlermatrix dargestellt werden kann. Beim Vergleich der Fehlerverteilung zwischen den einzelnen Zeichen ist es klar, daß bei der Bedienung der Tastatur auftretende Fehlermuster sich besser voraussagen lassen, d. h. ein kleineres Spektrum an Möglichkeiten aufweisen, als diejenigen bei der optischen Zeichenerkennung. Man kann zeigen, daß je kleiner die Verteilung der Fehler in einer -) Fehlermatrix, desto größer das Potential zur Fehlerkorrektur ist. Daraus folgt, da3 ein bei der optischen Zeichenerkennung erreichtes Niveau bei der Fehlerkorrektur auch bei Tastaturen erreicht, wenn nicht gar übertroffen werden kann.

κι Der Tastatur-Vektordiktionär dient dem gleichen Zweck bei der Tastatur-Fehlerkorrektur, wie der weiter unten im Zusammenhang mit Fig. 7 zu besprechende Häufungsspeicher 22 im Zusammenhang mit der Fehlerkorrektur bei der optischen Zeichenerkennung,

ι > indem er gestattet, ein verschriebenes Wort mit einem Teil des Fehlerkorrektur-Diktionärs, bzw. der darin enthaltenen Wörterliste, zu assoziieren, worin neben anderen Eintragungen die korrekte Version des verschriebenen Wortes enthalten ist. Während bei der

2(i optischen Zeichenerkennung durch das Vektorentnahmeverfahren etwa 1% der Wörterliste aufgesucht werden, kann damit gerechnet werden, daß wegen der relativen Seltenheit von Fehlern in der Fehlermatrix der F i g. 2 bezüglich der Tastaturfehler ein größeres

2> Unterscheidungsvermögen existiert.

Wegen der weitgehend analogen Natur der bei Tastaturen und der optischen Zeichenerkennung auftretenden Fehler ist die in F i g. 6 dargestellte Schaltung direkt anwendbar, wobei der Festwertspeicher 56 zur

jo Speicherung von Häufungen ähnlich verschriebener Wörter einzurichten ist. Dazu ist ein lineares Programm aufzustellen, das den Verwechslungen zwischen den Zeichen analog ist, auf denen die Aufstellung eines optimalen alphanumerischen Zuordnungsschemas beil ruht.

Die Fehlanschlag-Korrektur betrifft die Berichtigung der vier besonders häufigen Kategorien von Anschlagfehlern: Substitution, Transposition, Hinzufügung und Auslassung.

•to Die Substitution ist der häufigste Anschlagfehler. Wie bei der Korrektur der Substitutionsfehler bei der optischen Zeichenerkennung werden auch in diesem Fall die Daten eingegeben, die sich auf die Fehlerstatistik gründen.

•r> Die Zeichentransposition beruht auf der Umkehrung der korrekten Reihenfolge im übrigen richtiger Zeichen. Die Schreibweise »gehiem« ist ein Beispiel für einen Transpositionsfehler. Diese Art Fehler kommt bei der optischen Zeichenlesung nicht vor, die Korrektur von

ίο Transpositionsfehlern kann jedoch unter Benutzung der Vektorgröße als eine spezielle Eingabe bei dem Prozeß der Fehlerkorrektur gemäß der größten Wahrscheinlichkeit einer Tasten-Fehlbetätigung erfolgen. Die Vektorgröße eines durch Transposition verstümmelten

V) Wortes ist nämlich die gleiche wie die für die korrekte Form dieses V/ortes. Daher werden beim Aufsuchen des Diktionärs die Wörter mit dem gleichen Betrag wie das verstümmelte Wort Kandidaten für die Korrektur eines Transpositionsfehlers. Diese Technik zur Korrektur von

ω) Transpositionsfehlern (der Betrag des verstümmelten Wortes ist gleich dem Betrag des Wortes im Diktionär) bewirkt das Vertauschen benachbarter Zeichen, wenn unmögliche Diskrepanzen zwischen dem verstümmelten Wort und einem Wort im Diktionär mit der gleichen

bs Länge angetroffen werden.

Der Fehlermechanismus, der die Hinzufügung oder Auslassung von Zeichen beim Eintasten beherrscht, scheint eng mit dem zu schreibenden Digramm

zusammenzuhängen. Falls nämlich das Digramm normalerweise Teil eines sehr häufigen Trigramms ist, kann versehentlich das Trigramm eingetastet werden und zur Hinzufügung eines übe/flüssigen Zeichens führen. Beispielsweise kann das Eintasten des Digramm*. »de« -, oft zur Hinzufügung eines »r« führen, was »der« ergibt, wo nur »de« verlangt war. Umgekehrt scheint die Auslassung von Zeichen mit dem Eintasten seltener Trigramme zusammenzuhängen, die ein häufig vorkommendes Digramm enthalten. Daher kann ein Trigramm m unwillkürlich zu einem kürzeren, häufig vorkommenden Digramm verstümmelt werden.

Da die Hinzufügung und Auslassung von Zeichen mit der beschriebenen Digramm/Trigramm-Ähnlichkeit zusammenhängt, kann die Korrektur durch relativ r, einfache Änderungen an der weiter oben beschriebenen Segmentationsfehler-Korrekturlogik erzielt werden.

F i g. 7 zeigt ein Blockschaltbild einer Fehlerkorrektur-Vorrichtung, welche gestattet, aus einem alphabetischen Eingabewort, das durch eine Wortquelle 13 > <> verstümmelt worden ist, die höchstwahrscheinliche Form des ursprünglichen Eingabewortes wiederzugewinnen. Die Wortquelle 13 kann beispielsweise ein optischer Zeichenleser sein, oder eine Vorrichtung zum Analysieren von Sprache, die Phonem-Zeichen erzeugt, 2-> oder eine konventionelle Tastatur. Jede dieser Gruppen von Wortquellen hat ihre eigene Charakteristik bezüglich der Fehlerneigung, die als Zeichen-Übertragungsfunktion bezeichnet werden kann. In F i g. 7 ist ein optischer Zeichenleser 2 als spezielle Wortquelle w gewählt worden, er kann jedoch durch einen Sprachanalysator oder eine konventionelle Tastatur ersetzt werden.

In Verbindung mit dem optischen Zeichenleser 2 wird ein Diskriminator 8 verwandt, über den Einzelheiten aus j > der DT-OS 24 35 889 bekannt sind. Dem Diskriminator 8 werden über Leitungen 4 und 6 vom Zeichenleser 2 den als alphabetische bzw. numerische Zeichen erkannten Vorlagen entsprechende Daten zugeführt. Der Diskriminator 8 entwickelt daraus nach dem bayesschen Wahrscheinlichkeitstheorem (Wahrscheinlichkeit des Vorhandenseins eines von zwei sich gegenseitig ausschließenden Ereignissen, hier: numerische Zeichen bzw. alphabetische Zeichen) alphanumerische Zeichen, die über eine Leitung 10 einer binären Referenzmatrix 12 zugeführt werden. Die Leitung 10 ist ferner mit einer Torschaltung 16 verbunden, deren Steuereingang über eine Leitung 14 mit der Referenzmatrix 12 verbunden ist. Der vom Diskriminator 8 über die Leitung 10 gelieferte Datenstrom unterscheidet bereits numerische Zeichenfelder von alphabetischen Zeichenfeldern. Dieser Datenstrom wird der Referenzmatrix 12 zugeführt, die gültige und ungültige alphabetische Wörter erkennt. Die gültigen alphabetischen Wörter werden durch die Torschaltung 16 auf eine Leitung 18 ausgegeben; von der Refsrenzmatrix 12 als ungültig erkannte alphabetische Wörter werden über eine Leitung 20 einem sogenannten Häufungs-Speicher 22 zugeführt, der weiter unten beschrieben ist. Der Häufungs-Speicher 22 entnimmt aus einem in ihm to enthaltenen assoziativen Festwertspeicher eine Gruppe von korrekten alphabetischen Wörtern, die eine Wahrscheinlichkeit aufweisen, mit den zur Zeit interessierenden ungültigen alphabetischen Wörtern verwechselt worden zu sein, die auf der Leitung 20 einlaufen. b5 Diese Gruppe von potentiell richtigen alphabetischen Wörtern wird über eine Leitung 24 einer Korrekturvorrichtung 26 zugeführt, worin jedes ungültige Wort einer Analyse bezüglich der bedingten Wahrscheinlichkeit unterworfen wird, um festzustellen, welches der korrekten Wörter, die über die Leitung 24 eingegeben wurden, dem vom Zeichenleser gelieferten ungültigen Wort am besten entspricht. Das korrekte alphabetische Wort wird dann von der Korrekturvorrichtung 26 über eine Leitung 28 an einen Multiplexer 30 übertragen, der seinerseits das korrekte alphabetische Wort über eine Ausgabeleitung 32 abgibt, als beste Abschätzung für das vom Zeichenleser 2 gelieferte verstümmelte Wort.

Im folgenden wird der Häufungs-Speicher 22 näher beschrieben. Das fundamentale Konzept, das dem Häufungs-Speicher unterliegt, ist das zwischen den im Festwertspeicher gespeicherten Wörtern und der Zeichenübertragungsfunktion des Zeichenlesers oder der Tastatur, deren Ausgabedaten analysiert werden sollen, bestehende Verhältnis. Der Häufungs-Speicher ist als Assoziativspeicher ausgebildet, wobei das Suchargument für den Speicher durch die Eigenschaften des verstümmelten Eingabewortes selbst bestimmt wird. Diese Eigenschaften des Eingabewortes sind die Wortgruppe und der Indexwert.

Wie das Flußdiagramm der F i g. 5 zeigt, wird die Wortgruppe als A Adresse und der Indexwert als V-Adresse für den Festwertspeicher 56 benutzt. Die Wahl von Wortgruppe und Indexwert bewirkt die Übertragung eines Diktionärwortes als Wert auf der Z-Achse für jeden Wert von Y zwischen den Fehlerintervallen — Δ und +Δ. Diese Häufung von 2 Δ + 1 Diktionärwörtem stellt diejenige Wortgruppe dar, die zur Weiterbehandlung durch die Korrekturvorrichtung 26 über die Leitung 24 ausgegeben wird.

Das Flußdiagramm der F i g. 5 zeigt schematisch die Anordnung von Diktionärwörtem im Festwertspeicher. Die zwölf auf der X-Achse angeordneten Wortgruppen repräsentieren Wortlängen von zwei bis dreizehn Zeichen. Die Auswahl einer Wortgruppe wird durch die Länge des eingegebenen verstümmelten Wortes bestimmt. Wie bereits erwähnt, haben nicht alle Diktionärwörter in einer bestimmten Gruppe die gleiche Anzahl von Zeichen. Den Wörtern in der n-ten Gruppe ist das Merkmal gemeinsam, das der Zeichenleser diese Wörter mit einer gewissen Wahrscheinlichkeit mit η Zeichen ausgeben wird. Das schließt alle Wörter mit der Länge η ein und ferner diejenigen, die der Zeichenleser sehr wahrscheinlich in Wörter mit η Zeichen zerlegen wird. Dieses Konzept führt dazu, daß gewisse Wörter in mehreren Gruppen auftreten.

Jedes verstümmelte Eingabewort bewirkt den Zugriff zu 2 Δ + 1 Stellen im Festwertspeicher. Der Indexwert wird durch die Anzahl der Zeichen im Eingabewort bestimmt. Das Fehlerintervall Δ repräsentiert das Vertrauensintervall, innerhalb dessen eine hohe Wahrscheinlichkeit besteht, die korrekte Eintragung zu finden. Jedes vom Zeichenleser eingegebene alphabetische Wort resultiert in der Ausgabe eines Bereiches von 2 Δ Indexwerten, die den Wörtern der im Festwertspeicher 56 gespeicherten Wortgruppe entsprechen, welche Wörter über den Ausgabe-Puffer 58 zur Ausgabe gelangen.

Ein detailliertes Blockschaltbild des Häufungs-Speichers 22 ist in F i g. 6 dargestellt. Über die Leitung 2C wird vom Zeichenleser ein verlesenes alphabetisches Wort eingegeben. Ein Wortseparations-Detektor 34 stellt den Anfang und das Ende eines jeden Wortes fest Ein Buchstabenzähler 36, der mit dem Wortseparations-Detektor 34 verbunden ist, zählt die Anzahl der Buchstaben in einem alphabetischen Wort und gibt der

25 4ΐ

gezählten Wert N der Wortlänge über eine Leitung 38 als Wortgruppe und zweites Suchargument an den Festwertspeicher 56. Das über die Leitung 20 eingehende verlesene alphabetische Wort wird ferner einem Buchstabenwert-Speicher 40 zugeführt, in dem die in Tabelle 1 aufgeführten Buchstabenwerte L_n gespeichert sind. Jeder Buchstabe des Eingabewortes wird benutzt, um den entsprechenden Buchstabenwert Ln aufzusuchen, der an das Eingaberegister 42 ausgegeben werden soll. Das Eingaberegister 42, das Addierwerk 44 und das Register 46 dienen dazu, die Summe der Werte L_n für die Buchstaben des über die Leitung 20 eingegangenen Eingabewortes zu akkumulieren. Sobald der Wortseparations-Detektor 34 das Ende des Wortes festgestellt hat, wird vom Buchstabenzähler 36 ein Signal an das ι s Register 46 gegeben, welches die Endsumme der Werte Iw als den mittleren Indexwert an ein Subtrahierwerk 48 überträgt Das Delta-Register 50 enthält den Wert Δ des

Fehlerintervüls, der für die in der Tabelle 1 enthaltend Buchstabenwerte gleich 250 ist Der Wert Δ wird von Delta-Register 50 dem Subtrahierwerk 48 zugeführt unc von dem vom Register 46 gelieferten mittlerei Indexwert subtrahiert, was den minimalen Indexwer ergibt, der das erste Suchargument für den Festwert speicher 56 bildet Dieser minimale Indexwert wird ar das Addierwerk 52 ausgegeben um als Addend mit den Augenden vom zyklischen Zähler 54 eine Summe zi bilden, welche die erste Suchadresse für den Festwert speicher 56 darstellt Der zyklische Zähler 54 gib sequentiell ganzzahlige Werte von 0 bis 2 χ Δ an dai Addierwerk52 und veranlaßt dadurch 2Δ + \ Zugriffe zum Festwertspeicher 56. Die Anzahl von 2 Δ + 1 Wortkandidaten im Festwertspeicher 56 wird an der Ausgabepuffer 58 übertragen und über die Leitung 24 weiterer Verwendung zugeführt

Hierzu 6 Blatt Zeichnungen

Claims

Patentansprüche:

1. Einrichtung zur Fehlerkorrektur und zur korrekten Ausgabe von in Zeichengeneratoren wie, Zeichenlesern, Spracherkennern oder Eingabetastaturen falsch erzeugter Eingabewörter mit einem Verzeichnisspeicher gültiger Ausgabewörter und mit einer Einrichtung zur Bildung von Vektoren aus der Zeichenzahl und aus einem jedem Zeichen des ι ο Eingabewortes zugeordneten numerischen Wert, gekennzeichnet durch eine mitteis aus dem Eingabewort gebildeten Vektor adressierbare binäre Referenzmatrix (12; F i g. 7) zur Prüfung des Eingabewortes, die in Abhängigkeit von dem r, Prüfungsergebnis gültig oder ungültig ein Torsteuersignal erzeugt, durch eine Torschaltung (16), die von dem Torsteuersignal so steuerbar ist, daß bei einem ungültigen Eingabewort dieses sowohl zu einer Korrekturvorrichtung (26) als auch zu einem 2» Häufungsspeicher (22) übertragen wird, der durch den aus dem Eingabewort gebildeten Vektor adressierbar ist und an der adressierten Stelle ein oder mehrere potentiell gültige Ausgabewörter zur Korrekturvorrichtung überträgt, die von diesen nach den Grundsätzen der bedingten Wahrscheinlichkeit dasjenige als gültiges ausgibt, das dem ungültigen am besten entspricht.

2. Einrichtung nach Anspruch 1 mit einem Häufungsspeicher, bei dem die Adressenvektoren jo aus der Anzahl der Zeichen jedes Eingabewortes und aus den jedem Zeichen eines Eingabewortes zugeordneten numerischen Werten gebildet sind, dadurch gekennzeichnet, daß in dem zweidimensional adressierbaren Speicher (56; F i g. 5) Gruppen j5 von potentiell gültigen Ausgabewörtern gespeichert sind, derart, daß in benachbarten Speicherstellen Ausgabewörter mit ähnlichen Eigenschaften bezüglich ihrer Neigung zur Falscherkennung auf Grund der Übertragungsfunktion des verwendeten Zeichengenerators stehen.

3. Einrichtung nach Anspruch 2, dadurch gekennzeichnet, daß die Differenz bezüglich der Adressen bei der Speicherung von Wörtern mit ähnlicher Neigung zur Falscherkennung im Häufungsspeicher (56; F i g. 5) kleinstmöglich gewählt ist, indem die potentiell gültigen Ausgabewörter einer gegebenen Länge mit solchen anderer Längen gruppiert sind, denen eine eine Schwelle überschreitende Wahrscheinlichkeit eigen ist, in Wörter der gegebenen Länge vom Zeichengenerator segmentiert zu werden, daß die Neigung zur Falscherkennung vorgängig der Speicherung der Wörter durch empirische Bestimmung der Übertragungsfunktion des Zeichengenerators ermittelt und die Übertragungsfunktion als Gleichungssystem ausgedrückt ist, das die Wahrscheinlichkeit einer Falscherkennung eines jeden Zeichens beschreibt, daß die Gleichungen für einen optimalen Satz von Zeichenwerten gelöst werden, wobei zuverlässig erkennbaren und häufig vorkommenden Zeichen höhere numerische Werte zugeordnet sind als den übrigen Zeichen.

4. Einrichtung nach einem oder mehreren der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Wahrscheinlichkeit der fehlerhaften Segmentierung b5 durch die Übertragungsfunktion des Zeichengenerators bestimmt ist, welche Übertragungsfunktion als Gruppe von Werten dargestellt ist, die die jedem Zeichen eigene Wahrscheinlichkeit repräsentieren, failsch segmentiert zu werden, daß aus diesen Werten für jedes Eingabewort die diesem eigene Wahrscheinlichkeit falsch segmentiert zu werden berechnet ist und daß diese Wahrscheinlichkeit mit einem wählbaren Schwellenwert verglichen wird und Wörter, deren Wahrscheinlichkeit zur fehlerhaften Segmentierung diese Schwelle überschreitet, mit Wörter abweichender Längen gespeichert sind.

5. Einrichtung nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die im Häufungsspeicher (56; Fig.5) gespeicherten potentiell gültigen Ausgabewörter im Falle von Zeichenlesern und Eingabetastaturen als Zeichengenerator alphabetische Wörter und die Zeichen die Buchstaben sind, aus denen solche Wörter bestehen.

6. Einrichtung nach einem oder mehreren der Ansprüche 1 bis Φ, dadurch gekennzeichnet, daß die im Häufungsspeicher (56; F i g. 5) gespeicherten potentiell gültigen Ausgabewörter im Falle von Spracherkennern als Zeichengeneratoren Phonem-Wörter und die Zeichen Phoneme sind, aus denen diese Phonem-Wörter gebildet sind.