Bi-/ Trigramme


[Informatik Seminar] ... [Übersicht] ... [Beispielhafter Erkennungsprozess]

Bi- und Trigrammstatistiken (BTS) sind neben HMM ein weiteres statistisches Verfahren, das mit den HMM zusammen eine noch höhere Erkennungsgenauigkeit erlaubt.

Die BTS führt für jedes Wort eine Kontextprüfung durch. Dazu werden im System Zwei-/ Drei-Wort-Paare gespeichert. Für jedes diktierte Wort wird dann die Wahrscheinlichkeit im Kontext geprüft. Dadurch kann die Wahrscheinlichkeit eines erkannten Wortes weiter erhöht bzw. erniedrigt werden. Wird bspw. das Wort "absprechen" in direkter Folge zum Wort "Termin" diktiert, so wird die Wahrscheinlichkeit erhöht, da im System die Wortkombination "Termin absprechen" als eine sehr wahrscheinliche Folge bekannt ist. Das zu erkennende Wort wird also wahrscheinlicher als zum Beispiel "abspecken", weil "Termin abspecken" im System nicht als mögliche Wortfolge gespeichert wurde.

BTS erlauben dadurch die Unterscheindung von Homophonen (Groß-/Kleinschreibung), weil die Wahrscheinlichkeiten der erkannten Worte im Kontext unterschiedlich sind. Dadurch wird "Ich will mehr Geld !" wahrscheinlicher als "Ich will Meer-Geld". Die Kombination "mehr"/ "Geld" ist im System als wahrscheinlicher abgelegt als "Meer"/ "Geld"

Die BTS passt sich dem Sprecher beim Diktieren an, d.h. jede diktierte Wortkette geht neu in die Statistik ein. Dadurch kann sich das System dem Diktier- und Sprachstil des Anwenders anpassen.

Learnout&Hauspie, Dragon Systems und Philips arbeiten mit einer Bigrammstatistik, IBM mit einer Trigrammstatistik.

Die Trigrammstatistik bietet bessere Möglichkeit des Vergleichens, da die Wortfolgen noch besser differenziert werden können, ist dafür aber rechenaufwendiger.

Die Wahrscheinlichkeiten der Trigrammstatistik wurde aus einem Textkorpus mit mehreren Millionen Worten, der aus Publikationen von verschiedenen Verlagen und Institutionen abgeleitet wurde, gewonnen.


[Informatik Seminar] ... [Übersicht] ... [Bi-/ Trigramme] ... [Beispielhafter Erkennungsprozess]