Web-Roboter zum Analysieren von HTML-Dokumenten
|
Entwurf für ein Programm, das ein oder mehrere HTML-Dokument auf Größe,
Anzahl der Bilder, Umfang des Textes und Größe der Bilder
und Übertragungsanforderungen analysiert.
|
Informationsgehalt |
Es soll in einem HTML-Dokument festgestellt werden,
wieviel signifikate Information darin enthalten ist,
wie das Verhältnis Information zu Formatierungsanweisungen ist,
wieviele (verschiedene) Bilder darin enthalten sind,
wie groß die Bilddateien sind,
welche Dateien zum Darstellen der Seite zusätzlich
benötigt werden, zum Beispiel Applets, Style-Dateien,
Audio-Dateien, JavaScript.
Aus diesen Rohdaten können dann Abschätzungen über
die Übertragungsdauer und Zugriffszeit gemacht werden,
z.B. die Ladedauer für Modem, ISDN, ...
|
Kennzahlen |
Diese Statistik ist nicht nur für eine Seite, z.B. eine Heimatseite
sinnvoll, sondern auch für ganze Dokumentenbäume,
in diesen Fällen können sich die Übertragungszeiten durch caching
verbessern.
|