Der Wortschatz einer englischsprechenden Person beträgt etwa 800 Worte. Der einer deutschsprechenden etwa 4.000 Worte. Von Goethe sagt man, er habe einen Wortschatz von etwa 24.000 Worten gehabt.
Da vom System auf die Lautform untersucht wird, ist jede Flexion eines Wortes ein neuer Eintrag im Wörterbuch.
Im Englischen hat jedes Verb etwa vier Flexionsformen, im Deutschen weit über zehn. Im Englischen gibt es je Wort etwa 2,2 Flexionen, im Deutschen fünf, im Französischen sieben.
Insgesamt gibt es damit im Deutschen rund eine Million Wortformen. Zur Vereinfachung wird von Worten gesprochen.
Unter Homophonen versteht man gleichklingende, aber unterschiedlich geschriebene Worte ("Mehr"/ "Meer", "viel"/ "fiel", "wieder"/ "wider"). Einige Sätze mit Homophonen bereiten sogar Menschen Schwierigkeiten ("Der junge Junge fiel viel und fällt immer noch viel auf dem Feld." "Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen hinterher").
Bei Umstellungen dieser Sätze können neue Schwierigkeiten auftreten, da die Kontextprüfung die neue Umgebung nicht abdeckt.
Groß- und kleingeschriebene Worte sind Sonderform von Homophonen. Sie klingen identisch und werden unterschiedlich geschrieben. Eine Erkennung ist daher auch nur über eine Kontextprüfung möglich ("Der gefangene Floh" - "Der Gefangene floh").
Komposita sind aus zwei oder mehr Worten zusammengesetzte Worte. Sie sind typisch für die deutsche Sprache. Beliebig viele Varianten sind möglich. Jede Kombination zweier beliebiger Substantive ergibt ein neues Wort. Auch wenn die Worte "Öko" und "Steuer" bekannt sind, kann das Wort "Ökosteuer" nicht erkannt werden.
Von verschiedenen Verben gibt es fast beliebig viele Derivationen, dabei wird einem Stammverb durch Anhängen oder Vorstellen von anderen Silben ein neuer Sinn verliehen ("hingehen", "mitgehen", "umgehen"). Derivationen können nur erkannt werden, wenn alle Formen als eigenes Muster im Wörterbuch sind.
Durch die immens gestiegene Anzahl von Publikationen gibt es immer mehr Worte, immer mehr Informationen. Als Beispiel sei genannt: Die Zehn Gebote umfassen 278 Worte, die Amerikanische Unabhängigkeitserklärung etwa 3.000 Worte. Die EU-Verordnung zur Einfuhr von Karamellbonbons umfasst dagegen 25.911 Worte.
Ein Spracherkennungs-System muss daher immer mehr Worte verwalten und sich dynamisch anpassen lassen.