Linguistische Problemstellung


[Informatik Seminar] ... [Übersicht] ... [Phonetische Problemstellung]

Aktiver Wortschatz

Der Wortschatz einer englischsprechenden Person beträgt etwa 800 Worte. Der einer deutschsprechenden etwa 4.000 Worte. Von Goethe sagt man, er habe einen Wortschatz von etwa 24.000 Worten gehabt.

Da vom System auf die Lautform untersucht wird, ist jede Flexion eines Wortes ein neuer Eintrag im Wörterbuch.

Im Englischen hat jedes Verb etwa vier Flexionsformen, im Deutschen weit über zehn. Im Englischen gibt es je Wort etwa 2,2 Flexionen, im Deutschen fünf, im Französischen sieben.

Insgesamt gibt es damit im Deutschen rund eine Million Wortformen. Zur Vereinfachung wird von Worten gesprochen.


Homophone

Unter Homophonen versteht man gleichklingende, aber unterschiedlich geschriebene Worte ("Mehr"/ "Meer", "viel"/ "fiel", "wieder"/ "wider"). Einige Sätze mit Homophonen bereiten sogar Menschen Schwierigkeiten ("Der junge Junge fiel viel und fällt immer noch viel auf dem Feld." "Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen hinterher").

Bei Umstellungen dieser Sätze können neue Schwierigkeiten auftreten, da die Kontextprüfung die neue Umgebung nicht abdeckt.


Groß-/ Kleinschreibung

Groß- und kleingeschriebene Worte sind Sonderform von Homophonen. Sie klingen identisch und werden unterschiedlich geschrieben. Eine Erkennung ist daher auch nur über eine Kontextprüfung möglich ("Der gefangene Floh" - "Der Gefangene floh").


Komposita

Komposita sind aus zwei oder mehr Worten zusammengesetzte Worte. Sie sind typisch für die deutsche Sprache. Beliebig viele Varianten sind möglich. Jede Kombination zweier beliebiger Substantive ergibt ein neues Wort. Auch wenn die Worte "Öko" und "Steuer" bekannt sind, kann das Wort "Ökosteuer" nicht erkannt werden.


Derivationen

Von verschiedenen Verben gibt es fast beliebig viele Derivationen, dabei wird einem Stammverb durch Anhängen oder Vorstellen von anderen Silben ein neuer Sinn verliehen ("hingehen", "mitgehen", "umgehen"). Derivationen können nur erkannt werden, wenn alle Formen als eigenes Muster im Wörterbuch sind.


Steigende Informationsflut

Durch die immens gestiegene Anzahl von Publikationen gibt es immer mehr Worte, immer mehr Informationen. Als Beispiel sei genannt: Die Zehn Gebote umfassen 278 Worte, die Amerikanische Unabhängigkeitserklärung etwa 3.000 Worte. Die EU-Verordnung zur Einfuhr von Karamellbonbons umfasst dagegen 25.911 Worte.

Ein Spracherkennungs-System muss daher immer mehr Worte verwalten und sich dynamisch anpassen lassen.


[Informatik Seminar] ... [Übersicht] ... [Linguistische Problemstellung] ... [Phonetische Problemstellung]