Sub Navigation

Seite drucken. Seite weiterempfehlen.

HRA10 Turkologischer Anzeiger Online

Turkologischer Anzeiger Online

Koordination: Christian Roth, Matthias Arnold, Peter Gietz, Anette Frank, Michael Ursinus

Zusammenfassung

Beispieleintrag

Beispieleintrag

Der „Turkologische Anzeiger/Turkology Annual“ (TA), begründet von Andreas Tietze (†) und György Hazai, ist eine unverzichtbare systematische Bibliographie für die Turkologie und die Osmanistik. Fachleute aus aller Welt sind an seiner Zusammenstellung beteiligt, die von mehreren Institutionen, einschließlich der UNESCO, finanziell unterstützt wird. Die vom Institut für Orientalistik der Universität Wien herausgegebenen Bände liegen bislang nur in gedruckter Form vor. Ziel unseres Projekts ist es, die bis zum Projektbeginn erschienenen ersten 26 Bände zu digitalisieren und die Einträge in einer Online-Datenbank mit neuen effizienten Suchoptionen bereitzustellen. Eine Bearbeitungsumgebung zur Vorbereitung der Folgebände soll ebenfalls zur Verfügung gestellt werden.

Das Problem

Der TA umfasst Einträge in vielen verschiedenen Sprachen, einschließlich Transkriptionen aus dem Arabischen und aus Sprachen mit kyrillischem Alphabet. Bereits einzelne Einträge können aus Abschnitten in verschiedenen Sprachen bestehen. Wir erwarteten, dass dies ein ernsthaftes Problem bei der Digitalisierung mit Hilfe der am KJC verfügbaren Optical Character Recognition (OCR)-Software darstellen würde: Auch sehr gute OCR-Ergebnisse können noch keine akzeptable Grundlage für den Aufbau einer Datenbank liefern, denn Einträge mit Erkennungsfehlern lassen sich bei der Suche nicht zuverlässig abfragen. Es stellte sich jedoch heraus, dass nach entsprechender Feinjustierung die OCR Ergebnisse von so guter Qualität lieferte, dass die wenigen verbleibenden Fehler überwiegend irrelevant für typische Suchanfragen waren. Während dies bedeutete, dass für unser Projekt der Aufwand der Entwicklung automatischer Software zur Korrektur der OCR-Ergebnisse nicht gerechtfertigt schien, stießen wir auf andere Probleme: Die Syntaxanalyse der TA-Einträge erwies sich als weitaus schwieriger als erwartet, da die verschiedenen Eintrags-Typen und ihre Datenstrukturen oft nur implizit gekennzeichnet sind und sich einige von ihnen von Band zu Band ändern. Außerdem musste die Syntaxanalyse (Parsing) mit Fehlern in der Struktur von Einträgen zurechtkommen - Fehler, die menschliche Bearbeiter gemacht haben und die menschliche Leser kaum wahrnehmen würden, und dennoch Fehler, die ernsthafte Probleme für das Parsing darstellen können. Unsere Parsing-Software musste entsprechend auf die Daten zugeschnitten werden, um sowohl umfassend als auch robust zu sein.
 

Partner

Institut für Orientalistik, Universität Wien

Research Institute for Linguistics, Ungarische Akademie der Wissenschaften, Budapest  

Seminar für Computerlinguistik, Universität Heidelberg

Seminar für Sprachen und Kulturen des Vorderen Orients (Islamwissenschaft), Universität Heidelberg

Wichtiger Hinweis:

Wir sind nicht beteiligt an der Redaktion des TA selbst. Bitte kontaktieren Sie für Anfragen die Herausgeber oder die Universität Wien.

« HRA9 Satellites of Networks HRA11 Chinesische Unterhaltungspresse »