Benutzung und Aufruf |
Das Programm soll über ein XML-Dokument konfigurierbar sein.
In der Konfiguration soll angegeben
werden können, für welche Dokumente ein Index aufgebaut werden soll.
Die Auswahl dieser URLs soll mit regulären Ausdrücken flexibel
gestaltet werden können.
Außedem soll konfiguriert werden können, welche Teile einer Seite
für den Index relevant sind. Dieses kann über XPath Ausdrücke
geschehen.
Außderdem soll über diese Konfigurationsdatei die Menge der
Stichwörter konfiguriert werden können.
Weiter sollen
Wörter mit gleichem Wortstamm nur einmal in den Index aufgenommen werden.
Für diese Aufgaben kann die Website Snowball hilfreich sein.
Die Ausgabe soll eine einzige XML-Datei sein, in der der Index abgespeichert
ist. Hierzu ist eine einfache geeignete DTD zu entwickeln.
Außerdem soll eine einfache HTML-Ausgabe möglich sein.
|