das Marburger. Modernes Erschließungs-Tool für alte Texte

Studium Generale zur Geschichte der Marburger Universität ab 30. April

16.04.20225 (pm/red) Im Sommersemester 2025 bringt das Studium Generale der Philipps-Universitä unter dem Titel „Universität – wozu?“ als Leitfrage eine Vortragsreihe als Zeitreise durch die Geschichte der Marburger Universität. In 2027 kann die Philipps-Universität ihr …

Lesen Sie den gesamten Beitrag »

Kultur

Hessische Geschichten

Kassel

Hessen Kassel Heritage

Kunst

Home » Forschung, Kultur, Very Interesting

Modernes Erschließungs-Tool für alte Texte

Seite aus einer französischen Version des „Narrenschiffs“. Solche alten Schriften lassen sich mit OCR4all zuverlässig in computerlesbaren Text umwandeln.Reproduktion: Staats- und Universitätsbibliothek Dresden, CC BY-SA 4.0

Marburg 24.04.2019 (pm/red) Historische Druckschriften in computerlesbaren Text umwandeln: Dafür sorgt das Werkzeug OCR4all, das sehr zuverlässig arbeitet, leicht zu bedienen und frei verfügbar ist. Wissenschaftler der Uni Würzburg haben es entwickelt, wie die Universität mitteilt.
Historiker, Germanisten und andere Geisteswissenschaftler haben es oft mit schwierigen Forschungsobjekten zu tun: mit jahrhundertealten Druckwerken, die sich nicht leicht entziffern lassen und die oft schlecht erhalten sind. Viele dieser Dokumente sind inzwischen digitalisiert – in der Regel abfotografiert oder eingescannt – und stehen weltweit online zur Verfügung. Für die Forschung ist das schon einmal ein Fortschritt.

Es gibt aber immer noch eine Herausforderung zu meistern: die digitalisierten alten Schriften mit Texterkennungs-Software in eine moderne Form zu bringen, die auch für Nicht-Fachleute und für Computer lesbar ist. Auf diesem Gebiet haben Wissenschaftler vom Zentrum für Philologie und Digitalität der Julius-Maximilians-Universität Würzburg (JMU) für eine deutliche Weiterentwicklung gesorgt.

Mit OCR4all stellt das JMU-Forschungsteam der Fachwelt ein neues Werkzeug zur Verfügung. Es setzt digitalisierte historische Drucke mit einer Fehlerquote von weniger als einem Prozent in computerlesbaren Text um. Und es bietet eine grafische Benutzeroberfläche, für deren Bedienung kein Informatik-Fachwissen nötig ist. Bei bisherigen Tools dieser Art war die Nutzerfreundlichkeit nicht sonderlich ausgeprägt, meist musste mit Programmierbefehlen hantiert werden.

Entwickelt in Kooperation mit Geisteswissenschaften
Das neue Werkzeug OCR4all wurde unter der Leitung von Christian Reul mit seinen Informatik-Fachkollegen Professor Frank Puppe (Lehrstuhl für Künstliche Intelligenz und angewandte Informatik) und Christoph Wick sowie mit Uwe Springmann, Fachmann für Digital Humanities, und zahlreichen Studierenden und Hilfskräften entwickelt.

Seine Wurzeln hat OCR4all im Kallimachos-Verbundprojekt der JMU, das vom Bundesministerium für Bildung und Forschung gefördert wird. Diese Kooperation zwischen Geisteswissenschaften und Informatik wird im neu gegründeten Zentrum für Philologie und Digitalität (ZPD) weitergeführt und institutionalisiert.

Bei der Entwicklung von OCR4all haben die Informatiker eng mit geisteswissenschaftlichen Disziplinen der JMU zusammengearbeitet – unter anderem mit der Germanistik und der Romanistik im Projekt „Narragonien digital“. Dort ging es darum, das „Narrenschiff“ digital aufzubereiten – eine Moralsatire von Sebastian Brant, ein Bestseller des 15. Jahrhunderts, der in viele Sprachen übersetzt wurde. Auch im Kolleg „Mittelalter und frühe Neuzeit“ der JMU wurde und wird OCR4all angewendet.

OCR4all steht der Öffentlichkeit auf der Plattform GitHub (mit Anleitungen und Anschauungsbeispielen) frei zur Verfügung.

Jede Druckerei hatte ihre eigene Schrift
Christian Reul erklärt, worin eine Herausforderung bei der Entwicklung von OCR4all lag: Die automatische Texterkennung (OCR = Optical Character Recognition = optische Zeichenerkennung) funktioniere für moderne Schrifttypen seit längerer Zeit sehr gut. Für historische Schriften habe das bislang aber noch nicht gegolten.

„Eines der größten Probleme war die Typographie“, sagt Reul. Das liege unter anderem daran, dass die ersten Druckereien des 15. Jahrhundert keine einheitlichen Schriften verwendeten. „Ihre Druckstempel waren alle selbst geschnitzt, jede Druckerei hatte praktisch ihre jeweils eigenen Buchstaben und Zeichen.“

Fehlerrate unter ein Prozent gedrückt
Ob e oder c, ob v oder r – das ist in alten Drucken oft nicht einfach zu unterscheiden. Eine Software kann aber lernen, solche Feinheiten zu erkennen. Doch dafür muss sie zuerst an Beispielmaterial trainiert werden. In seiner Arbeit hat Reul Methoden entwickelt, um dieses Training effizienter zu machen. In einer Fallstudie mit sechs historischen Drucken aus den Jahren von 1476 bis 1572 konnte dadurch die Fehlerquote bei der automatischen Texterkennung im Schnitt von 3,9 auf 1,7 Prozent gesenkt werden.

Aber nicht nur die Methodik wurde verbessert. JMU-Informatiker Christoph Wick hat durch die Entwicklung des ebenfalls frei verfügbaren OCR-Tools Calamari, das mittlerweile vollständig in OCR4all integriert wurde, auch die technische Komponente entscheidend weiterentwickelt. Alles in allem ergaben sich daraus noch bessere Ergebnisse: Mittlerweile können selbst für die ältesten gedruckten Werke meistens Fehlerraten von weniger als einem Prozent erreicht werden.

Lexikalische Projekte
Reul hat auch uni-externe Partner von der Qualität der Würzburger OCR-Forschung überzeugt. Gemeinsam mit dem „Zentrum für digitale Lexikographie der deutschen Sprache“ (Berlin) wurde Daniel Sanders‘ „Wörterbuch der deutschen Sprache“ digital erschlossen; eine Publikation hierzu ist auf dem Weg. Dieses Werk enthält pro Textzeile oft verschiedene Schrifttypen, die für jeweils andere semantische Informationen stehen. Hier wurde der bestehende Ansatz zur Zeichenerkennung so erweitert, dass sich neben dem Text auch die Typographie und damit die komplexe inhaltliche Struktur des Lexikons sehr exakt abbilden lassen.

Seine Doktorarbeit wird der Würzburger Informatiker demnächst abschließen, aber mit OCR will er auch künftig arbeiten: „Die Informatik, die dahinter steht, ist extrem spannend“, sagt er. Ein mögliches Projekt der näheren Zukunft: Die Macher des „Idiotikon“, eines Wörterbuchs der schweizerdeutschen Sprache, haben ihm signalisiert, dass sie das Würzburger Fachwissen gut brauchen könnten.

Zentrum für Philologie und Digitalität
Das Zentrum für Philologie und Digitalität der Universität Würzburg ist das Ergebnis einer Initiative, die von den Professoren Dag Nikolaus Hasse, Fotis Jannidis und Ulrich Konrad ausging. Es schlägt einen Bogen zwischen Geisteswissenschaften, Informatik und Digital Humanities. Es stellt den ersten Baustein für ein neues Geisteswissenschaftliches Zentrum auf dem Campus Nord dar.

Dort soll ein Neubau für das ZPD entstehen, nahe bei der Mensateria und dem Gebäude der Graduate School. Voraussichtlich ab dem Jahr 2022 sollen im ZPD-Neubau rund 100 Personen auf insgesamt 2.700 Quadratmetern arbeiten. In der Planung sind für das Gebäude Gesamtkosten von 15 Millionen Euro angesetzt. Im Erdgeschoss des ZPD sind ein Digital Lab, Forschungsräume und Vortragssäle geplant. In den oberen Geschossen sollen vor allem Büros und Kommunikationsräume entstehen.

Diesen Artikel drucken

Suchen

Gegenlicht

Marburg im Gegenlicht Sternbald-Foto

Neueste Beiträge in das Marburger.

Marburg ist offiziell foodsharing-Stadt geworden 16. April 2025
Bewerbung bis 30. Juni für MarBiNa Förderpreis 2025 16. April 2025
„Osterspaziergang“ 2025 in Marburg: Friedensfähigkeit statt „Kriegstüchtigkeit“ 15. April 2025
Studium Generale zur Geschichte der Marburger Universität ab 30. April 15. April 2025
Ein Jahr Servicestelle für Soziales in der Stadthalle 15. April 2025
Am 29. Juni Tag der Landwirtschaft in Amöneburg – Bewerbungen für Aussteller möglich 14. April 2025
Fotos aus Marburg und der Welt im VielRAUM 10. April 2025
Film Fluchtgeschichten im Katholischen Regionalhaus Marburg 10. April 2025
Für neue Studierende der Uni Marburg Orientierungswoche ab 14. April 10. April 2025
Lehmbau-Workshop am 11. und 12. April im Botanischen Garten 10. April 2025
Bewerbung für Hessischen Preis für Nachhaltiges Kino 2025 10. April 2025
Einzelhandel und Stadtentwicklung – In Marburg startet Online-Befragung 9. April 2025
Konstantin Wecker mit „Lieder meines Lebens“ am 2. Mai in Marburg 8. April 2025
Zwei Tage Marburger Frühling mit Markttreiben 8. April 2025
Am 29. April werden Fund-Fahrräder verkauft 8. April 2025

Hinweis Deutsche Sprache

Texte sollen und wollen gelesen werden und müssen dafür flüssig lesbar sein. Besonders zu Gunsten der Lesbarkeit wird im Online-Magazin das Marburger. auf sprachliche Darstellungen zu männlich, weiblich und divers verzichtet. Mit Personenbezeichnungen sind grundsätzlich alle Geschlechter adressiert, ebenso wie Angehörige ethnischer oder sich nach individuellen Kriterien verortende Menschen. Der Gleichheitsgrundsatz gilt immer, zudem das Diskriminierungsverbot.

Durchwachsen

Angesagt »

Film Fluchtgeschichten im Katholischen Regionalhaus Marburg

10.04.2025 (pm/red) Der Film „Fluchtgeschichten“ wird am 25. April im Katholischen Regionalhaus KA.RE. in der Biegenstraße 18 gezeigt. Der Eintritt ist frei. Ihre Flucht aus Aserbaidschan, dem Irak und Afghanistan hat Shamed, Amir und Sidra …

Mehr Artikel »

Bildung »

Studium Generale zur Geschichte der Marburger Universität ab 30. April

16.04.20225 (pm/red) Im Sommersemester 2025 bringt das Studium Generale der Philipps-Universitä unter dem Titel „Universität – wozu?“ als Leitfrage eine Vortragsreihe als Zeitreise durch die Geschichte der Marburger Universität. In 2027 kann die Philipps-Universität ihr …

Mehr Artikel »

Empfehlung der Redaktion »

Nichts heizt sauberer als Holzpellets – Bauen und Heizen mit Holz sind keine Gegensätze

09.10.2023 | Gastbeitrag von Roland Irslinger Der enorme Anstieg der Preise für Heizöl und Gas lässt viele Menschen wieder auf altbewährte Holzheizungen setzen. Insbesondere Holz-Pellets sind weiterhin eine kostengünstige Art zu heizen. Heizen mit Pellets …

Mehr Artikel »

Gastbeitrag »

Drohende Verschandelung unserer Wohnidylle – Verlärmung von Naherholung und Kliniken

09.03.2024 Gastbeitrag von Andreas Matusch | Seit dem 26. Februar 2024 wird Marburg von einer Serie Negativnachrichten heimgesucht. Man kann den investigativen Journalisten der Lokalpresse nur danken, dies ans Tageslicht gebracht zu haben. Die Stadtverwaltung …

Mehr Artikel »

Kassel »

Baufortschritt bei der Interimsspielstätte für Staatstheater Kassel

06.04.2025 (pm/red) Mit Hochdruck wird an dem Bauwerk für das Staatstheater Kassel als modulares, vollständig rück‐ sowie wiederaufbaubare Interimsspielstätte auf einem ehemaligen Kasernengrundstück gearbeitet. Für Oper, Schauspiel, Tanz und Konzert entsteht ein neues temporäres Bühnenbauwerk.

Mehr Artikel »

Verkehr »

Möglichst viele Fahrrad-Kilometer beim Stadtradeln 2025 in Mittelhessen

03.04.2025 (pm/red) Zur beginnenden Fahrradsaison laden mehrere Landkreise und die Stadt Marburg vom 24. Mai bis zum 13. Juni Fahrradbegeisterte erneut zum STADTRADELN ein. Anliegen ist möglichst viele Kilometer klimafreundlich mit dem Fahrrad zurückzulegen und …

Mehr Artikel »

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Rezension von Hartwig Bambey
Marburg 16.02.2016 „Die Universitätsgebäude in Marburg, die mit dem Marburger Bausystem errichtet wurden, sind akut in ihrem Bestand bedroht. Obwohl sie unter Denkmalschutz stehen, plant die Universität den Abriss des größten von …

Mehr Artikel »

Artikel per RSS

Impressum

Modernes Erschließungs-Tool für alte Texte

Suchen

Gegenlicht

Neueste Beiträge in das Marburger.

Hinweis Deutsche Sprache

Durchwachsen

Angesagt »

Film Fluchtgeschichten im Katholischen Regionalhaus Marburg

Bildung »

Studium Generale zur Geschichte der Marburger Universität ab 30. April

Empfehlung der Redaktion »

Nichts heizt sauberer als Holzpellets – Bauen und Heizen mit Holz sind keine Gegensätze

Gastbeitrag »

Drohende Verschandelung unserer Wohnidylle – Verlärmung von Naherholung und Kliniken

Kassel »

Baufortschritt bei der Interimsspielstätte für Staatstheater Kassel

Verkehr »

Möglichst viele Fahrrad-Kilometer beim Stadtradeln 2025 in Mittelhessen

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Kategorien der Beiträge in das Marburger. Online-Magazin

Contact Us