URL Check |
Ein Web-Crawler, der die Hyperlinks eines
HTML-Dokuments oder eines gesamten Dokumentenbaums überprüft.
|
|
|
Modularisieung
|
Das System soll in zwei weitgehend unabhängige Module
gegliedert werden, eine Crawler-Komponente, die ein Dokument
besorgt und die aus diesem Dokument weiter zu verfolgenden
Dokument-URLs extrahiert und eine Komponente, die die eigentliche
Verarbeitung übernimmt, die Überprüfung aller Verweise auf weitere Dokumente
und das Sammeln und Aufbereiten der Daten.
|
|
|
Programmiersprache |
100% Java, JDK 1.5 oder neuer
|
|
|
Umgebung |
|
Benutzung und Aufruf |
Das Programm soll als Kommandozeilen-Anwendung
aufrufbar sein. Über die Kommandozeile soll angegeben
werden können, welche Dokumente überprüft werden sollen,
welche links weiterverfolgt werden sollen, welche auf Existenz
überprüft werden sollen und welche
ignoriert werden können.
Die Auswahl dieser URLs soll mit regulären Ausdrücken flexibel
gestaltet werden können.
Die Ausgabe soll eine HTML-Datei sein, in der die Überprüfung
protokolliert wird. Dort sollen alle
gefundenen Dokumente (URLs) aufgelistet
werden und deren Status.
|
|
|
Beispiel |
Eine Beispiel-Lösung
und ein Beispiel-Resultat. Das vorhandene .jar Archiv sollte bitte nur
zum Testen der Funktionalität und nicht zum Generieren der Java-Quellen genutzt werden.
Der Prototyp ist nicht vollständig: Es fehlt zum Beispiel der Umgang mit Proxies und die Ausgabe enthält zwar alle wichtigen
Informationen, diese können aber sicher noch ansprechender aufbereitet werden und unter Verwendung von XHTML und CSS erzeugt werden.
Es sollte aber die gute Eigenschaft beibehalten werden, dass das Ergebnis eine einzige Datei ist, die nur absolute URLs enthält,
und so leicht kopiert oder per post versendet werden kann.
|
Werkzeuge
|
JDK 1.5 oder neuer, geeignete Parser
für auch nicht valides und nicht
wohlgeformtes HTML
|
|