Entwicklung und Nutzen von XML


[Informatik- u. Master-Seminar SS04]   [Inhaltsverzeichnis]   [zurück]   [weiter] Nach unten

Einführung




Auszeichnungssprachen

Sobald der Begriff Auszeichnungssprache irgendwo fällt, wird im allgemeinen häufig an HTML gedacht, der bekanntesten Auszeichnungssprache, die das World Wide Web in den 90er Jahren revolutioniert hat. Das Konzept der Auszeichnungen ist jedoch wesentlich älter und existiert seit der Erfindung des Buchdruckes. Autoren ergänzten ihre Artikel mit Notizen und Anweisungen für den Drucker oder den Setzer. Diese Anmerkungen, in der Regel Auszeichnungen oder Markup genannt, sind Informationen, die einem Text hinzugefügt werden, um dessen Bedeutungsgehalt zu erweitern und den Text zu gliedern. Eine Auszeichnungssprache, im weiteren als Markup-Sprache bezeichnet, ist eine Menge von Symbolen, die im Text eines Dokumentes plaziert werden können, um die einzelnen Teile des Dokuments voneinander abzugrenzen oder sie zu benennen. Diese Symbole, in Markup-Sprachen Literale oder Tags genannt, dienen also zur Beschreibung von Meta-Daten, unabhängig vom eigentlichen Inhalt eines Dokuments.


Generische Codierung

Die ersten elektronischen Formate konzentrierten sich im wesentlichen auf die Beschreibung des Aussehens, nicht auf den Sinn oder die Struktur der Dokumente. Zwei der ersten Formatierungssprachen waren troff und TEX. Beide konnten Dokumente hervorragend für den Druck oder die Ansicht am Monitor aufbereiten, hatten jedoch den Nachteil, dass sie weder systematisch durchsucht, noch wiederverwendet werden konnten. Ebenso fehlte die Möglichkeit elektronische Querverweise anzugeben. Diese Probleme konnten schließlich mit der generischen Codierung gelöst werden. Anstelle von Formatierungscodes verwendete man nun deskriptive Tags. Mit dem GenCode-Projekt eröffnete die Graphic Communication Association (GCA) Ende der 60er Jahre die Möglichkeit beliebige Dokumente mit generischen Auszeichnungen zu versehen.


GML, SGML und HTML

GML (Generalized Markup Language), ein IBM-Projekt, war eine bedeutende Weiterentwicklung des GenCode-Projektes. Ziel des Projektes war es, eine Sprache zur Auszeichung von Dokumenten für die Benutzung auf mehreren Informationssubsystemen zu schaffen. Dokumente, die mit GML kodiert wurden, konnten nun aufgrund der inhaltsorientierten Tags von verschiedenen Programmen bearbeitet, durchsucht und formatiert werden. IBM machte reichlichen Gebrauch von GML und stellte damit die Leistungstärke der generischen Codierung unter Beweis.

Angetrieben durch den Erfolg von GML gründete das American National Standards Institute (ANSI) zusammen mit der GCA eine Arbeitsgruppe, die auf Basis von GML eine Standard-Textbeschreibungssprache entwickeln sollte. Zu Beginn er 80er Jahre kam dann letztendlich mit SGML (Standard Generalized Markup Languae) ein Kandidat für einen Industriestandard hervor, welcher durch das Verteidigungsministerium und die Bundesteuerbehörde der USA übernommen wurde. Durch die Association of American Publishers (AAP), welche SGML zur Kodierung von Allzweck-Dokumenten wie etwa Zeitschriften und Büchern verwendete, bekam SGML einen noch größeren Geltungsbereich. So fanden ab 1985 in Großbritannien die Treffen der International SGML User's Group statt, was die Verbreitung von SGML nach Europa zur Folge hatte. 1986 folgte dann schließlich durch die ISO (International Organization for Standardization) die Verabschiedung eines Standards für SGML (ISO 8879:1986). SGML sollte als Werkzeug zur Entwicklung von speziellen Auszeichnungssprachen dienen und war vom Sprachumfang sehr komplex mit vielen abstrusen Parametern. Profitieren konnten von SGML nur grosse Unternehmen, die sich die Anschaffung und Wartung der komplexen Software zur Verarbeitung von SGML konnten.

Anfang der 90er Jahre kam dann der öffentliche Durchbruch für die generische Codierung mit der Entwicklung von HTML, der HyperText Markup Language, durch das Europäische Forschungsinstitut für Teilchenphysik (CERN). Mit HTML wurde ein SGML-Dokumenttyp für Dokumente geschaffen, der kompakt, aber dennoch effizient war. Es bereitete nunmehr keine Probleme Software für diese einfache Markup-Sprache zu entwicklen oder Dokumente zu kodieren. HTML war ein riesen Schritt für das Web und Auszeichnungssprachen, denn plötzlich interessierte sich jeder für elektronische Dokumente, da HTML aus einem festen überschaubaren Satz von Tags bestand und einfach zu erlernen war.


[Informatik- u. Master-Seminar SS04]   [Inhaltsverzeichnis]   [zurück]   [weiter] Inhaltsverzeichnis Nach oben