Zurück zur Startseite
 Startseite   Kontakt   Impressum   Datenschutz   Gästebuch   English  Zitat von Friedrich Jürgenson

Spracherkennung mit dem Computer

Was ist derzeit möglich und wie sind unsere Zukunftsaussichten?
Vortrag von Theo Bleitgen
gehalten auf der Jahrestagung 1998 des VTF in Fulda

Die rasante Entwicklung der Computertechnik brachte es fertig, daß innerhalb weniger Jahre fast in keinem Büro mehr eine der guten alten Schreibmaschinen anzutreffen war. Das laute Hämmern der Tasten in Schreibsälen ist nun einem leisen Geklapper der Computertastatur in modernen Großraumbüros gewichen. Dort, wo früher ein Fernschreiber so laut seinen Dienst versah, daß man ihn sogar unter einer Lärmschutzhaube verstecken mußte, steht nun ein kleines, unscheinbares Faxgerät, welches fast unhörbar die Nachricht auf einem Papierstreifen ausdruckt. Flüsterleise Thermodrucker, Tintenstrahldrucker und Laserdrucker haben ebenfalls die Schreibmaschine in der Rangordnung weit nach hinten verwiesen. Doch damit war die Entwicklung auf dem Bürosektor aber noch nicht zu Ende.

Eine neue Entwicklung, Sprache und Musik auf dem Computer ein- bzw. ausgeben zu können, führte vor einigen Jahren sogar zu der Möglichkeit, Schriftzeichen aus dem PC in Sprache umsetzen zu lassen. Man konnte sich damit vom Computer seine Briefe vorlesen lassen. Aber auch das war den Entwicklern noch nicht Fortschritt genug. Man wollte unbedingt weg von der zeitraubenden Eingabe über die Tastatur. Und tatsächlich schaffte man es, die äußerst kompliziert aufgebaute menschliche Sprache vom Computer sogar akustisch verstehen zu lassen, um sie dann auf einem Drucker wieder in Schriftzeichen umsetzen zu können. Wenn man heute in der Werbung zu lesen bekommt "Sie diktieren - Ihr Computer schreibt", dann sind das keine leeren Versprechungen. Auf einem modernen Computer wurde der Traum von der digitalen Stenotypistin schon in vielen Büros verwirklicht und mit Erfolg umgesetzt. Der Text wird nicht mehr mühevoll mit der Tastatur eingegeben, sondern man spricht ihn einfach in das Mikrofon. Das Schreiben übernimmt der PC. Bei einer Geschwindigkeit von bis zu 150 verstandenen Wörtern in der Minute ist er wahrscheinlich schneller als Sie jemals tippen können, und neue Technologien sorgen sogar für ein kontiunierliches Diktieren im natürlichen Sprachrhythmus, das heißt, es sind keine unnatürlichen Pausen zwischen den einzelnen Wörtern mehr nötig. Stimmliche Besonderheiten, wie unterschiedliche Stimmlage oder mundartliche Färbung, bereiten dem Computer, bei entsprechend intensiver Vorbereitung zur Erkennung, kaum noch Probleme. Selbst preisgünstige Programme verfügen über interne Wörterbücher mit bis zu 320.000 Wörtern und mehr und ein aktives Vokabular schon bis zu 64 000 Wörtern. Die eigentliche Worterkennungsrate, bei entsprechender Vorbereitung, beträgt heute schon mehr als 90 %. Die Lernfähigkeit der Programme, durch Anpassen an die Stimme des Sprechers, Anlegen von mehreren Stimmprofilen und einer neuartigen Kontext-Analyse, steigern die Erkennungsgenauigkeit schwieriger Wörter. Dieses Kontext-Lernen erlaubt es zum Beispiel, für bestimmte Zusammenhänge sogar abweichende Schreibweisen zu definieren. So schreibt das Programm das Wort Becker mit e, anstatt Bäcker mit ä, wenn zuvor das Wort Jürgen erkannt wurde.

Wer sich einmal die Mühe gemacht hat, die Entwicklungen im VTF zu beobachten, der wird festgestellt haben, daß man auch hier mittlerweile moderne Methoden zur Erforschung der Tonbandstimmen verwendet. Die Filterung von verrauschten Stimmenbeispielen, die Stimmenanalyse, oder die Stimmensynthese zur Erstellung von Einspielkonserven ist im VTF aber erst der Auftakt zu einer Entwicklung, die sich immer mehr auf den digitalen Sektor hinbewegt. Und so wäre die Spracherkennung, übrigens ein ganz neues Forschungsgebiet im VTF, ohne digitale Hochleistungs-Technologie und ohne den Computer überhaupt nicht möglich.

Daß uns bei der Spracherkennung in Verbindung mit unseren Tonbandstimmen allerdings noch einige Schwierigkeiten im Wege stehen, soll an dieser Stelle nicht verheimlicht werden. Unsere seit etwa einem Jahr laufenden Versuche zeigen uns nämlich sehr deutlich, daß bei einer Einspielung auf Mittelwelle oder Kurzwelle kaum eine Hoffnung besteht, von dem Computer auch nur ein Wort aus dem fürchterlichen Durcheinander von Stimmen und Geräuschen erkennen zu lassen. Und auch kommende, verbesserte Systeme werden das vermutlich nicht schaffen, da ihnen das intelligente Selektionsverfahren eines menschlichen Gehirns mit seinen unendlich vielen Erfahrungsmustern fehlt. Doch aus der Erkenntnis dieser Aussichtslosigkeit heraus, daß unsere von Störungen stark überlagerten Einspielungen vom Computer wohl nie direkt verstanden werden können, zeichnen sich zwei anderer gangbare Wege ab. Benutzen wir zur Spracherkennung nämlich einmal nicht unsere stark gestörten Einspielungen, sondern erinnern uns wieder an die relativ einfachen und leisen Mikrofonstimmen, dann ergibt sich, in Verbindung mit der leider vernachlässigten neuen Filtermethode, eine bestimmte Hoffnung auf Erfolg. Denn das Entfernen von Rauschanteilen in einer Tonaufnahme ist nämlich bei weitem einfacher und effektiver, als das Entfernen von komplexen Störungen. Professionelle Restaurationsprogramme entfernen bestimmte Störungen heutzutage so schonend aus dem Programm-Material, daß eine Beeinträchtigung desselben kaum noch hörbar ist. Und daß Mikrofoneinspielungen, mit nicht sprachähnlichem, sondern mehr neutralem Hintergrundgeräusch in der Vergangenheit zwar leise, aber hervorragende paranormale Aussagen ergeben haben, sollte nicht vergessen werden.

Auch ist es unbestritten einfacher, mit einer reinen Mikrofonaufnahme die Paranormalität einer Stimme beweisen zu können, wenn dabei als Voraussetzung alle Vorkehrungen gegen evtl. Hochfrequenz-Einstrahlungen gemacht wurden, als wenn man eine Mittelwelleneinspielung, z.B. auf der Jürgensonwelle, zum Vergleich heranzieht. Zugegeben - die Stimmen sind auf Mittelwelle lauter, und oft nehmen sie direkten Bezug auf die Frage bzw. nennen den Namen des Experimentators. Damit aber einen Echtheitsbeweis für eine Parnormalität bei einem wissenschaftlichen Institut führen zu wollen, hätte von vornherein keine Aussicht auf Erfolg.

Übrigens legt man heute immer noch keinen gesteigerten Wert auf eine notwendige Hochfrequenzentkopplung, wie die äußerlichen Konstruktions-Merkmale des Hannoverschen Mikrofons es beweisen, und man muß sich bezüglich der Beweisfähigkeit der Stimmen die Kritik der Fachleute in diesem Punkte gefallen lassen.

Heute haben wir die Möglichkeiten, leise Stimmen mittels neuartiger Techniken so gut ver-ständlich zu machen, so daß es bedauerlich ist, daß man von den alten Einspielmethoden so wenig Gebrauch macht. Damit wäre ein Weg aufgezeigt, wie mit der ältesten Einspielmethode eine Spracherkennung mit dem Computer zu realisieren wäre.

Ein anderer Weg wäre es, die Möglichkeiten zukünftiger, verbesserter Spracherkennungs-Programme für die derzeit noch recht umständliche und ungenaue Sprechererkennung zu nutzen. Die Spektralanalyse bietet zwar die Möglichkeit, die Stimmbandgrundfrequenz mit ihren Oberwellen auf dem Bildschirm sichtbar zu machen und zu bestimmen, ob es sich um eine männliche oder weibliche Stimme handelt, doch ist dieses Verfahren zu wenig aussagekräftig. Die Selektion einzelner Vokale und die Sichtbarmachung bestimmter zum Vokal gehörender Formantfrequenzen sind weitere Möglichkeiten zur Identifikation einer Stimme. Denn jeder Vokal enthält eine Reihe bestimmter Formantfrequenzen, welche durch Resonanzen im Vokaltrakt entstehen, und von Sprecher zu Sprecher unterschiedlich sind, da jedes Sprechwerkzeug etwas anders geformt ist. Dieses Prinzip ist jedoch so störanfällig, daß zum Beispiel ein Schnupfen oder eine Halsentzündung die ganze Analyse zunichte machen kann.

Wie bereits angedeutet, werden die Programme in Ihrer Fähigkeit, sprecherspezifische Erkennung zu gewährleisten immer weiter verbessert, und man wird sie in absehbarer Zeit auch im Sicherheitsbereich vernünftig einsetzen können. Für uns ergibt sich daraus ebenfalls eine Verwendungsmöglichkeit für unsere Stimmenbeispiele. Sollte es nämlich in den nächsten Jahren gelingen, unsere Einspielungen, wie auch immer, klar und ohne Störungen auf unsere Tonträger zu bringen, dann hätte man in Verbindung mit einem guten Spracherkennungs-Programm ein ideales Werkzeug für die Stimmenforschung.

Die zu Lebzeiten aufgezeichneten Sprachproben einer Person, die vom Programm trainiert und mit den entsprechenden Stimmprofilen abgespeichert werden, wären die Grundlage für eine Stimmendatenbank. Die Voraussetzung für das Funktionieren eines solchen Projektes wäre allerdings die Richtigkeit unserer Annahme, daß wir im Jenseits, wenn auch in anderer Weise, unseren Stimmcharakter behalten würden.

Bestimmt werden Sie erkannt haben, daß der eingangs erwähnte Satz "Sie diktieren - Ihr Computer schreibt" für das Erkennen von Tonbandstimmen-Beispielen vorläufig nur eine bedingte Gültigkeit haben kann. Wenn wir aber die Bereiche Spracherkennung und Sprecheridentifikation voneinander trennen, so bleibt uns, in Verbindung mit unseren Filterprogrammen, doch ein gewisser Spielraum, den wir derzeit nutzen können. Die Schwierigkeiten die dazu noch zu bewältigen sind, liegen nämlich weniger am Computer oder den Spracherkennungs-Programmen selbst, sondern vielmehr an der Qualität unserer Einspielungen. So wären zum Beispiel Worte aus einer Einspielung, die mit einer Konserve aus zerhacktem Fremdsprachentext entstanden sind, unter Umständen zu erkennen, eine Sprechererkennung könnte damit allerdings niemals funktionieren. Diese bestimmt nicht schlechten Aussichten bei der Spracherkennung, könnten aber der Tonbandstimmenforschung für die Zukunft ein Ansporn sein, sich wieder etwas mehr um eine verbesserte Einspielqualität zu bemühen.