HTML Foundation Class |
Erstellung einer Klassenbibliothek zum Scannen, Parsen, Überprüfen und
Transformieren von HTML Dokumenten. Diese Bibliothek soll allgemeine
wiederverwendbare Funktionen zur Verarbeitung von HTML bereitstellen.
Dabei soll ein HTML Text in eine interne hierarchische Struktur
transformiert werden - scannen und parsen von HTML - und es sollen Zugriffs-
und Traversierungs-Funktionen erstellt werden, zum Beispiel zum
einfachen Zugriff auf bestimmte Dokumententeile, wie Titel, Überschriften,
Autor, ..., zur Extraktion des reinen Textes, zum Suchen und zum
Überprüfen des verwendeten tags.
|