Volltextdigitalisierung

Für die Digitalisierung von Grundlagenwerken ist die qualitätvolle und fehlerfreie Erfassung unerlässlich. Das Kompetenzzentrum verfolgt vornehmlich den Weg der Volltext­digitalisierung, da

  • Volltextdigitalisate den Zugriff auf jedes einzelne Zeichen eines Textes ermöglichen
  • die Menge an zu verwaltenden Daten geringer ist als bei Imagedigitalisaten
  • der Aufbau von Indizes oder Metadaten in vielen Fällen automatisch durchführbar ist
  • nur Textdigitalisate ein barrierefreies Internet ermöglichen

Das Kompetenzzentrum kooperiert mit dem chinesischen Erfassungsbüro TQY DoubleKey in Nanjing, da die chinesischen Datentypistinnen und -typisten aufgrund der Komple­xität und Feingliedrigkeit ihrer eigenen Schrift auch feinste Schrift- und Zeichenunterschiede erfassen und als Nicht­muttersprachler keine ungewollt korrigierenden „Verbesserungen“ der Vorlage vornehmen.

Der Weg zur digitalen Volltextversion in drei Schritten

1. Dokumentenanalyse

Layout, Schriftart und Schriftgröße liefern Informationen über die inhaltliche Struktur eines Textes, die für die elektronische Auswertung wichtig sind. In differenzierten Erfassungsanweisungen wird daher anhand von Beispielen aufgeführt, wie die verwendeten Alphabete und Sonderzeichen sowie die verschiedenen bedeutungstragenden typografischen Besonderheiten und Layoutmerkmale bereits bei der Erfassung zu kennzeichnen sind. Um Informationsverluste zu vermeiden, wird dieses Regelwerk ins Chinesische übertragen.

Erfassungsbeispiel mit chinesischen AnmerkungenOpen

Erfassungsbeispiel mit chinesischen Anmerkungen

Open

2. Double-Keying

In zwei unabhängig voneinander arbeitenden Teams fertigen die chinesischen Datentypistinnen jeweils eine vollständige elektronische Abschrift der Texte an. Dabei werden die typografischen Merkmale wie Kursivierung, Sperrung, Hoch- und Tiefstellung und Schriftgrößenwechsel gemäß den Erfassungsanweisungen durch eindeutige Codierungen gekennzeichnet. Ebenso werden Zeilen-, Spalten- und Seitenumbruch markiert. Dieses sogenannte Character und Page Encoding führt zu einer ausgabendiplomatischen Abschrift der Vorlage.

3. Korrektur

Nach der Erfassung werden die beiden Eingabeversionen automatisch miteinander verglichen. Wie bei vielen anderen Arbeitsschritten auch kommt dabei die speziell für EDV-philologische Zwecke entwickelte Tübinger Software TUSTEP zum Einsatz. Mittels eines TUSTEP-Programmmoduls wird ein Vergleichsprotokoll generiert, das im Kompetenzzentrum von geschulten Hilfskräften, in besonders schwierigen Fällen auch von Fachwissenschaftlern kontrolliert wird. Ergebnis ist eine Textversion mit einer Genauigkeit von bis zu 99,997%, d.h. auf 100.000 Zeichen sind nicht mehr als 3 Fehler zu erwarten.

Open

Beispiele für die Volltextdigitalisierung komplexer Vorlagen

Oekonomische Encyklopädie von Johann Georg Krünitz

Datenvolumen242 Bände mit ca. 240.000.000 Zeichen, davon 90% in Fraktur
Erfassungskosten0,65 Euro pro 1.000 Zeichen; ca. 150.000 Euro
Erfassungszeitca. 12 Monate

In der Frakturschrift sind beispielsweise „langes s“ und „f“ sowie „u“ und „n“ nicht leicht zu unterscheiden. Daher wurde die Vorlage teilweise im Triple-Keying-Verfahren erfasst. Außerdem waren umfangreiche Prüf- und Korrekturarbeiten erforderlich. Um Fehllesungen aufzuspüren, wurde ein kombinatorischer Buchstabenvergleich durchgeführt. Dabei wurden auch zahlreiche Verschreibungen des Originals gefunden, deren Korrekturen als zusätzliche Angaben in den digitalisierten Text einfließen konnten.

zur Projektseite

Erfassungsvorlage der Oekonomischen Encyklopädie von Johann Georg KrünitzOpen

Erfassungsvorlage der Oekonomischen Encyklopädie von Johann Georg Krünitz

Erfassungsvorlage der Bernoulli-BriefeOpen

Erfassungsvorlage der Bernoulli-Briefe

Briefkorrespondenz von Johann I. Bernoulli

Datenvolumen5.000 Seiten maschinenschriftliche Transkriptionen der Originalbriefe, ca. 10% mathematische Formeln
Erfassungskosten0,65 Euro pro 1.000 Zeichen; ca. 9.200 Euro
Erfassungszeitca. 2 Monate
CodierungSonderzeichen in UNICODE, mathematische Formeln mit Hilfe von LaTeX, Transformation in TEI-XML mit eingebettetem MathML

zur Projektseite

Uigurisches Wörterbuch

Datenvolumen6 Lieferungen mit ca. 2.630.000 Zeichen
Erfassungskosten0,60 Euro pro 1000 Zeichen; ca. 1.800 Euro
Erfassungszeit2 Monate
Codierungchinesische Schriftzeichen in UNICODE, zahlreiche Sonderzeichen aus den wissenschaftlichen Transkriptionen und Transliterationen sind noch nicht standardisiert

zur Projektseite

Erfassungsvorlage des Uigurischen WörterbuchsOpen

Erfassungsvorlage des Uigurischen Wörterbuchs