02.04.2008

Masterarbeiten

Am Mittwoch, 28. Mai, 17 Uhr, werden Timo Hübel und Sebastian Schlatt in Hörsaal 5 ihre Masterarbeiten zum Thema "Das Holumbus Framework - Entwicklung von schnellen, flexiblen und hochgradig konfigurierbaren Suchmaschien mit Haskell" vorstellen.

Das "Holumbus Framework" ist ein Baukasten für die einfache Konstruktion
von effektiven und effizienten Spezialsuchmaschinen. Es
ist vollständig in der funktionalen Sprache Haskell programmiert.

Der Kern des System besteht aus einem konfigurierbaren Index, der es ermöglicht, nicht nur in Freitext, sondern auch in strukturierten Datenbeständen gezielt zu suchen. Um diesen Kern gibt es zwei Hauptkomponenten, den "Indexierer" oder "Crawler" und die Anfragebearbeitung, die Suche.

Beim Aufbau des Indexes berücksichtigt der "Indexierer" durch einfache Anpassungen die Struktur der Dokumente, die untersucht werden. So ist es möglich, aus Webseiten einer bestimmten Domäne nur die wesentlichen Teile zu extrahieren. Außerdem kann man gezielt in Buchbeständen nach Titeln oder Autoren suchen.

Die Suche kann ebenfalls auf einfache Weise an die Struktur der
Dokumente angepasst werden. Möglich ist eine effiziente Suche mit "find as you type"-Techniken und Suchvorschlägen mittels so genannter "Tag-Wolken".

Als weiterer Vorzug dieses Systems darf gewertet werden, dass es ein verteiltes Indexieren und eine verteilte Suche in einem Cluster von Rechnern ermöglicht.

Ein Prototyp für eine Spezialsuchmaschine ist "Hayoo!", http://holumbus.fh-wedel.de/hayoo/hayoo.html. Es handelt sich dabei um
eine API-Suchmaschine für die Standard-Haskell-Bibliotheken.