URL Check

Überprüfung der Hyperlinks in einem HTML-Dokument

URL Check
Ein Web-Crawler, der die Hyperlinks eines HTML-Dokuments oder eines gesamten Dokumentenbaums überprüft.
Modularisieung
Das System soll in zwei weitgehend unabhängige Module gegliedert werden, eine Crawler-Komponente, die ein Dokument besorgt und die aus diesem Dokument weiter zu verfolgenden Dokument-URLs extrahiert und eine Komponente, die die eigentliche Verarbeitung übernimmt, die Überprüfung aller Verweise auf weitere Dokumente und das Sammeln und Aufbereiten der Daten.
Programmiersprache
100% Java, JDK 1.5 oder neuer
Umgebung
Benutzung und Aufruf
Das Programm soll als Kommandozeilen-Anwendung aufrufbar sein. Über die Kommandozeile soll angegeben werden können, welche Dokumente überprüft werden sollen, welche links weiterverfolgt werden sollen, welche auf Existenz überprüft werden sollen und welche ignoriert werden können. Die Auswahl dieser URLs soll mit regulären Ausdrücken flexibel gestaltet werden können.

Die Ausgabe soll eine HTML-Datei sein, in der die Überprüfung protokolliert wird. Dort sollen alle gefundenen Dokumente (URLs) aufgelistet werden und deren Status.

Beispiel
Eine Beispiel-Lösung und ein Beispiel-Resultat. Das vorhandene .jar Archiv sollte bitte nur zum Testen der Funktionalität und nicht zum Generieren der Java-Quellen genutzt werden. Der Prototyp ist nicht vollständig: Es fehlt zum Beispiel der Umgang mit Proxies und die Ausgabe enthält zwar alle wichtigen Informationen, diese können aber sicher noch ansprechender aufbereitet werden und unter Verwendung von XHTML und CSS erzeugt werden. Es sollte aber die gute Eigenschaft beibehalten werden, dass das Ergebnis eine einzige Datei ist, die nur absolute URLs enthält, und so leicht kopiert oder per post versendet werden kann.
Werkzeuge
JDK 1.5 oder neuer, geeignete Parser für auch nicht valides und nicht wohlgeformtes HTML

Hauptnavigation