Standardisierte Auszeichnung

Entscheidend für die langfristige Verfügbarkeit und Benutzbarkeit digitaler Daten ist ihre inhaltlich-strukturelle Erschließung. Das Kompetenzzentrum setzt hier auf die international anerkannten Standards XML. Der Grundgedanke dieser Markupsprachen besteht darin, die logische Struktur eines Textes und seiner Textelemente durch explizite Kennungen zu markieren.

    Eine XML-codierte Datenbasis

    • steht langfristig und plattformunabhängig zur Verfügung
    • erlaubt den gezielten Zugriff auf alle explizit gekennzeichneten Textelemente
    • ermöglicht die Anreicherung eines Textes mit zusätzlichen Informationen
    • birgt durch die Internationalisierung ein hohes Ver­netzungspotenzial
    • ist Ausgangsplattform für die unterschiedlichen Publikationsmedien Buch, Internet und CD-ROM.
    schematischer Aufbau der TEI-GuidelinesOpen

    schematischer Aufbau der TEI-Guidelines

    Standardmethoden

     

    Standardanwendungen

    Codierung in XML Entwicklung von textspezifischen DTD-Anwendungen
    Zeichencodierung auf Basis von UNICODE Baseline Encoding
    Einsatz von standardisierten DTDs und XML-Schema (TEI, CALS, CEI, MathML) TEI-SIG „Correspondence Markup“

    Das XML-Markup wird mit automatischen und semiautomatischen Verfahren in die Textdaten eingefügt. Zur Programmierung dieser Verfahren werden die erfassten Codierungen für typografische und strukturelle Eigenschaften ausgenutzt. Unter Berücksichtigung der Regeln, die von der eingesetzten DTD vorgegeben werden, lassen sich diese Markierungen den Textabschnitten zuweisen.

    Artikel „Marienkäfer“ im Deutschen Wörterbuch

    xx    |$1_[[<><%]]#F+><<><0<><5><,#F-|
    xx    |<=(1-8)<<form type=„lemma“>><=(6-5)<</form>><=04|

    TUSTEP-Anweisung zur Auszeichnung des Lemmas

    <form type="lemma">Marienkäfer</form>

    XML-codierte Ausgabe

    Artikel „Marienkäfer“ im digitalen Deutschen Wörterbuch

     

    Stichwörter im Deutschen Wörterbuch sind nach rechts eingerückt, halbfett und um einen Schriftgrad größer gesetzt als die Grundschrift. Diese bei der Erfassung berücksichtigten Merkmale werden genutzt, um eine TUSTEP-Routine zu entwickeln, mit der sie in die XML-Codierung <form type="lemma">Stichwort</form> überführt werden.

    Einsatz der TEI-Guidelines am Beispiel der Mittelhochdeutschen Wörterbücher im Verbund

    Mit TEI-Tags ausgezeichnet sind

    Artikelanfang und -ende

    Verweise in weitere Wörterbücher

    Stichwort

    grammatische Angabe

    Bedeutungserläuterung

    Belegliste mit Vernetzung zum Quellenverzeichnis

    Autor

    Titel

    Stellenangabe

    XML-QuelltextOpen

    XML-Quelltext

    CD-ROM-Oberfläche der Mittelhochdeutschen Wörterbücher im VerbundOpen

    CD-ROM-Oberfläche der Mittelhochdeutschen Wörterbücher im Verbund

     

     

    Digitalisierungsvorlage Mittelhochdeutsches Wörterbuch von Matthias LexerOpen

    Digitalisierungsvorlage Mittelhochdeutsches Wörterbuch von Matthias Lexer

     
    CD-ROM-Version der Mittelhochdeutschen Wörterbücher im Verbund: Suche nach mittelhochdeutschen Entsprechungen des neuhochdeutschen Wortes ‚Buch‘, die in Rechtstexten belegt sind.Open

    CD-ROM-Version der Mittelhochdeutschen Wörterbücher im Verbund: Suche nach mittelhochdeutschen Entsprechungen des neuhochdeutschen Wortes ‚Buch‘, die in Rechtstexten belegt sind.

    Strukturierte Datencodierung

    Die strukturierte Datencodierung ermöglicht unter anderem

    • die Einschränkung der Suche auf separat markierte Informationspositionen
    • die Ausnutzung von Verweisen, Beziehungen und Meta-Informationen zwischen Dokumenten
    • die logische Verknüpfung von Teilanfragen
    • wörterbuchübergreifende Suchanfragen aufgrund einheitlicher Datencodierung

    zur Projektseite der Mittelhochdeutschen Wörterbücher im Verbund