Die kleinste Einheit bei der Spracherkennung heißt Phonem. Es ist die "kleinste, bedeutungsentscheidende, aber nicht selbst bedeutungstragende, lautsprachliche Einheit". Phoneme sind ähnlich den einzelnen Elementen der Lautschrift. Bei normaler Sprechgeschwindigkeit beträgt die Dauer eines Phonems ungefähr 10 - 40 Millisekunden. Ein ganzes Wort besteht aus mehreren Phonemen.
Die Abbildung zeigt die DARPA-Liste, eine Liste der englischen Phoneme.
Im Deutschen gibt es etwa 40 verschiedene Phoneme.
Kontextabhängige Phonemmodelle erlauben es darüber hinaus, Koartikulationen zu berücksichtigen.
Bei großem Vokabular organisiert man das Aussprachelexikon als Baum, bei dem die Worte an den Blättern liegen. Dadurch erreicht man eine Reduktion des Suchaufwand um das anderthalb- bis sechsfache.