
Entscheidend für die langfristige Verfügbarkeit und Benutzbarkeit digitaler Daten ist ihre inhaltlich-strukturelle Erschließung. Das Kompetenzzentrum setzt hier auf die international anerkannten Standards XML. Der Grundgedanke dieser Markupsprachen besteht darin, die logische Struktur eines Textes und seiner Textelemente durch explizite Kennungen zu markieren.
Eine XML-codierte Datenbasis
Standardmethoden | Standardanwendungen | |
|---|---|---|
| Codierung in XML | Entwicklung von textspezifischen DTD-Anwendungen | |
| Zeichencodierung auf Basis von UNICODE | Baseline Encoding | |
| Einsatz von standardisierten DTDs und XML-Schema (TEI, CALS, CEI, MathML) | TEI-SIG „Correspondence Markup“ |
Das XML-Markup wird mit automatischen und semiautomatischen Verfahren in die Textdaten eingefügt. Zur Programmierung dieser Verfahren werden die erfassten Codierungen für typografische und strukturelle Eigenschaften ausgenutzt. Unter Berücksichtigung der Regeln, die von der eingesetzten DTD vorgegeben werden, lassen sich diese Markierungen den Textabschnitten zuweisen.

Artikel „Marienkäfer“ im Deutschen Wörterbuch
xx |$1_[[<><%]]#F+><<><0<><5><,#F-|
xx |<=(1-8)<<form type=„lemma“>><=(6-5)<</form>><=04|
TUSTEP-Anweisung zur Auszeichnung des Lemmas
<form type="lemma">Marienkäfer</form>
XML-codierte Ausgabe

Artikel „Marienkäfer“ im digitalen Deutschen Wörterbuch
Stichwörter im Deutschen Wörterbuch sind nach rechts eingerückt, halbfett und um einen Schriftgrad größer gesetzt als die Grundschrift. Diese bei der Erfassung berücksichtigten Merkmale werden genutzt, um eine TUSTEP-Routine zu entwickeln, mit der sie in die XML-Codierung <form type="lemma">Stichwort</form> überführt werden.
■ Artikelanfang und -ende
■ Verweise in weitere Wörterbücher
■ Stichwort
■ grammatische Angabe
■ Bedeutungserläuterung
■ Belegliste mit Vernetzung zum Quellenverzeichnis
■ Autor
■ Titel
■ Stellenangabe


CD-ROM-Version der Mittelhochdeutschen Wörterbücher im Verbund: Suche nach mittelhochdeutschen Entsprechungen des neuhochdeutschen Wortes ‚Buch‘, die in Rechtstexten belegt sind.

CD-ROM-Version der Mittelhochdeutschen Wörterbücher im Verbund: Suche nach mittelhochdeutschen Entsprechungen des neuhochdeutschen Wortes ‚Buch‘, die in Rechtstexten belegt sind.
Die strukturierte Datencodierung ermöglicht unter anderem
zur Projektseite der Mittelhochdeutschen Wörterbücher im Verbund