das Marburger. Historische Schriften mit OCR4all digital erkennen

Bildarchiv Foto Marburg: Eine Million Kunstbilder zur kostenfreien Nutzung

18.01.2025 (pm/red) Das Deutsche Dokumentationszentrum für Kunstgeschichte – Bildarchiv Foto Marburg (DDK) macht ab Januar seine umfangreiche Sammlung mit Millionen von Fotografien zur europäischen Kunst und Architektur für die gebührenfreie Nutzung zugänglich.

Lesen Sie den gesamten Beitrag »

Kultur

Hessische Geschichten

Kassel

Hessen Kassel Heritage

Kunst

Home » Forschung

Historische Schriften mit OCR4all digital erkennen

Ohne das originale Stadtbuch anzufassen und zu belasten können die Texte ab sofort kostenlos online gelesen werden – „sofern man die Schrift lesen kann und die altertümliche deutsche Sprache auch inhaltlich versteht“, so Archivleiterin Sandra Baumgarten. Hier kann zukünftige dieTexterkennungssoftware OCR4all neue Möglichkeiten eröffnen. Foto Patricia Grähling

20.01.2022 (pm) Die Texterkennungssoftware OCR4all kommt bei historischen Drucken mit sehr gutem Erfolg zum Einsatz. Jetzt wird sie auf alte Handschriften trainiert. Heutige Standardschriften wie Calibri oder Times New Roman einzulesen, ist für moderne Texterkennungssoftware, kurz OCR, kein Problem. Schwieriger wird es bei historischen Drucken. Denn je weiter man in die Geschichte zurückblickt, desto variantenreicher werden die Schriften – bis hinein in eine Zeit, in der jeder Drucker seine eigenen Schriftsets schnitzte.Darum gibt es eine gute Nachricht für alle, die mit derartigem historischem Material arbeiten: Das Programm OCR4all ist eine Texterkennungssoftware, die historische Druckschriften erkennt und in computerlesbaren Text umwandelt. Um es zu bedienen, sind keinerlei Programmierkenntnisse nötig.

OCR4all steht seit 2019 im Web weltweit kostenlos zur Verfügung. Rund 5.000 Mal wurde es inzwischen heruntergeladen; ein vergleichbares Angebot im Open-Source-Bereich gab es bis dato nicht. Entwickelt wurde das Tool von einem interdisziplinären Team um Dr. Christian Reul, Leiter der Digitalisierungseinheit am Zentrum für Philologie und Digitalität „Kallimachos“ (ZPD) der Julius-Maximilians-Universität (JMU).

OCR4all ging aus dem vom Bundesforschungsministerium geförderten Kallimachos-Verbundprojekt der JMU hervor. Dieses Projekt schlug Brücken zwischen den Geisteswissenschaften, der Informatik und den Digital Humanities. Anfangs ging es bei OCR4all darum, im Teilprojekt Narragonien digital Sebastian Brants Narrenschiff digital aufzubereiten, eine Moralsatire aus dem 15. Jahrhundert.

Werkspezifische Modelle sind sehr genau

Seither ist das Projekt deutlich gewachsen und auch im Ausland in Fachkreisen bekannt. „Das Schöne an Open-Source-Projekten: Es ist immer ein Geben und Nehmen“, sagt Reul. Damit die Software bestimmte Schrifttypen später möglichst genau erkennt, werden Modelle trainiert. Dafür braucht es möglichst viel Trainingsmaterial, bestehend aus Zeilenbildern und der korrekten Transkription des darauf zu sehenden Texts, und das wird häufig von den Software-Nutzerinnen und -Nutzern selbst zur Verfügung gestellt.

Diese Form der Kooperation trägt Früchte, wie Reul erklärt: So lassen sich bei so genannten werkspezifischen Modellen inzwischen sehr genaue Erkennungsergebnisse erzielen, selbst auf den ältesten existierenden Drucken aus der Inkunabelzeit (vor 1500). Dies sind Modelle, die wie im Falle des Narrenschiffs speziell für die Erkennung einer Drucktype trainiert werden.

Das ZPD arbeitet nun verstärkt daran, gemischte Modelle weiterzuentwickeln, die im Idealfall auf möglichst viele Drucktypen angewendet werden können. Während es zum Beispiel für deutschsprachige Frakturschriften des 19. Jahrhunderts bereits sehr gute Modelle gab, fehlte es bislang an einem noch breiter aufgestellten Modell, das guten Gewissens auf Drucke aus mehreren Jahrhunderten angewendet werden kann. Dafür brauchte es laut Reul vor allem weitere Trainingsdaten.

Auszeichnung mit Best Paper Award

Bei der Fachkonferenz HIP‘21 (6th International Workshop on Historical Document Imaging and Processing) im September 2021 in Lausanne (Schweiz) präsentierte Reul erstmals eine Publikation zu einem gemischten Modell, das lateinische Schrift aus der Zeit von 1450 bis 1900 abdeckt.

„Wir waren seinerzeit bei einer Zeichengenauigkeit von mehr als 98 Prozent gelandet, das übertraf den bisherigen State-of-the-Art deutlich“, sagt der JMU-Informatiker. Kaum erstaunlich also, dass die Veröffentlichung von der HIP-Konferenz mit dem Best Paper Award ausgezeichnet wurde.

Das Hauptziel des DFG-geförderten OCR-D-Projekts ist die konzeptionelle und technische Vorbereitung der Volltexttransformation der im deutschen Sprachraum erschienenen Drucke des 16. bis 18. Jahrhunderts. Dazu wird die automatische Volltexterkennung in einzelne Prozessschritte zerlegt, die dann jeweils mit unterschiedlichen Werkzeugen bearbeiten werden können. Dies zielt darauf ab, optimale Workflows für die zu prozessierenden alten Drucke zu erstellen und damit wissenschaftlich verwertbare Volltexte zu generieren.

Ein Zusatznutzen der Software aus Würzburg im Zuge der Volltexterkennung der historischen Sammlung: OCR4all ermöglicht die Anwendung durch technisch weniger versierte Nutzenden und dient weiterhin auch erfahreneren Nutzenden als Handwerkszeug, um den Workflow zu analysieren und zu optimieren.

Reul hofft im Zuge des Projekts OCR4all-libraries auf eine umfassende Weiterentwicklung der Software, speziell durch die stark wachsende Anzahl der verfügbaren Werkzeuge.

Historische Handschriften: eine Herausforderung

Texterkennungssoftware für alte Drucke ist das eine. Doch wie steht es um historische Handschriften?
„Vom Prinzip her ist die Herangehensweise ähnlich, aber wegen der Unregelmäßigkeit der Schriften meist deutlich anspruchsvoller“, sagt Reul. Außerdem können Handschriften erheblich älter sein als Drucke, decken somit eine noch größere Zeitspanne ab und sind häufiger schlecht erhalten.

Kein Grund für das ZPD, sich nicht auch dieser Herausforderung zu stellen. „Der Bedarf bei Handschriften ist riesig – hier findet man wie gedruckt wirkende Buchschriften bis hin zu Texten, die nahezu unlesbar sind.“, weiß Reul.

Diesen Artikel drucken

Suchen

Gegenlicht

Marburg im Gegenlicht Sternbald-Foto

Neueste Beiträge in das Marburger.

Fotos aus Marburg und der Welt im VielRAUM 10. April 2025
Film Fluchtgeschichten im Katholischen Regionalhaus Marburg 10. April 2025
Für neue Studierende der Uni Marburg Orientierungswoche ab 14. April 10. April 2025
Lehmbau-Workshop am 11. und 12. April im Botanischen Garten 10. April 2025
Bewerbung für Hessischen Preis für Nachhaltiges Kino 2025 10. April 2025
Einzelhandel und Stadtentwicklung – In Marburg startet Online-Befragung 9. April 2025
Konstantin Wecker mit „Lieder meines Lebens“ am 2. Mai in Marburg 8. April 2025
Zwei Tage Marburger Frühling mit Markttreiben 8. April 2025
Am 29. April werden Fund-Fahrräder verkauft 8. April 2025
Digitale Formulare statt Bauakten auf Papier im Landkreis Marburg-Biedenkopf 7. April 2025
In Partnerstadt Eisenach den Sommergewinn gefeiert 7. April 2025
Als Rotwelsch-Dialekt gelistet: Gießener Manisch wird Immaterielles Kulturerbe 7. April 2025
Promotionspreis an Marburger Biologen Daniel Stukenberg 7. April 2025
Baufortschritt bei der Interimsspielstätte für Staatstheater Kassel 6. April 2025
5 Anzeichen, die die nächste Krypto-Rallye ankündigen 4. April 2025

Hinweis Deutsche Sprache

Texte sollen und wollen gelesen werden und müssen dafür flüssig lesbar sein. Besonders zu Gunsten der Lesbarkeit wird im Online-Magazin das Marburger. auf sprachliche Darstellungen zu männlich, weiblich und divers verzichtet. Mit Personenbezeichnungen sind grundsätzlich alle Geschlechter adressiert, ebenso wie Angehörige ethnischer oder sich nach individuellen Kriterien verortende Menschen. Der Gleichheitsgrundsatz gilt immer, zudem das Diskriminierungsverbot.

Durchwachsen

Angesagt »

Film Fluchtgeschichten im Katholischen Regionalhaus Marburg

10.04.2025 (pm/red) Der Film „Fluchtgeschichten“ wird am 25. April im Katholischen Regionalhaus KA.RE. in der Biegenstraße 18 gezeigt. Der Eintritt ist frei. Ihre Flucht aus Aserbaidschan, dem Irak und Afghanistan hat Shamed, Amir und Sidra …

Mehr Artikel »

Bildung »

Info zum Gast- und Seniorenstudium im Sommersemester 2025

10.03.2025 (pm/red) Im Sommersemester 2025 können Interessierte wieder Lehrveranstaltungen der Philipps-Universität Marburg als Gasthörer mit vielfältigen und umfangreichen Lehrveranstaltungen besuchen. Am Freitag, 28. März von 09.30 bis 11.00 Uhr, können sich Interessierte unverbindlich in der …

Mehr Artikel »

Empfehlung der Redaktion »

Nichts heizt sauberer als Holzpellets – Bauen und Heizen mit Holz sind keine Gegensätze

09.10.2023 | Gastbeitrag von Roland Irslinger Der enorme Anstieg der Preise für Heizöl und Gas lässt viele Menschen wieder auf altbewährte Holzheizungen setzen. Insbesondere Holz-Pellets sind weiterhin eine kostengünstige Art zu heizen. Heizen mit Pellets …

Mehr Artikel »

Gastbeitrag »

Drohende Verschandelung unserer Wohnidylle – Verlärmung von Naherholung und Kliniken

09.03.2024 Gastbeitrag von Andreas Matusch | Seit dem 26. Februar 2024 wird Marburg von einer Serie Negativnachrichten heimgesucht. Man kann den investigativen Journalisten der Lokalpresse nur danken, dies ans Tageslicht gebracht zu haben. Die Stadtverwaltung …

Mehr Artikel »

Kassel »

Baufortschritt bei der Interimsspielstätte für Staatstheater Kassel

06.04.2025 (pm/red) Mit Hochdruck wird an dem Bauwerk für das Staatstheater Kassel als modulares, vollständig rück‐ sowie wiederaufbaubare Interimsspielstätte auf einem ehemaligen Kasernengrundstück gearbeitet. Für Oper, Schauspiel, Tanz und Konzert entsteht ein neues temporäres Bühnenbauwerk.

Mehr Artikel »

Verkehr »

Möglichst viele Fahrrad-Kilometer beim Stadtradeln 2025 in Mittelhessen

03.04.2025 (pm/red) Zur beginnenden Fahrradsaison laden mehrere Landkreise und die Stadt Marburg vom 24. Mai bis zum 13. Juni Fahrradbegeisterte erneut zum STADTRADELN ein. Anliegen ist möglichst viele Kilometer klimafreundlich mit dem Fahrrad zurückzulegen und …

Mehr Artikel »

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Rezension von Hartwig Bambey
Marburg 16.02.2016 „Die Universitätsgebäude in Marburg, die mit dem Marburger Bausystem errichtet wurden, sind akut in ihrem Bestand bedroht. Obwohl sie unter Denkmalschutz stehen, plant die Universität den Abriss des größten von …

Mehr Artikel »

Artikel per RSS

Impressum

Historische Schriften mit OCR4all digital erkennen

Werkspezifische Modelle sind sehr genau

Auszeichnung mit Best Paper Award

Historische Handschriften: eine Herausforderung

Suchen

Gegenlicht

Neueste Beiträge in das Marburger.

Hinweis Deutsche Sprache

Durchwachsen

Angesagt »

Film Fluchtgeschichten im Katholischen Regionalhaus Marburg

Bildung »

Info zum Gast- und Seniorenstudium im Sommersemester 2025

Empfehlung der Redaktion »

Nichts heizt sauberer als Holzpellets – Bauen und Heizen mit Holz sind keine Gegensätze

Gastbeitrag »

Drohende Verschandelung unserer Wohnidylle – Verlärmung von Naherholung und Kliniken

Kassel »

Baufortschritt bei der Interimsspielstätte für Staatstheater Kassel

Verkehr »

Möglichst viele Fahrrad-Kilometer beim Stadtradeln 2025 in Mittelhessen

Zum Wiederlesen »

Marburger Bausystem in herausragendem Architekturbuch gewürdigt – Offenheit als Prinzip

Kategorien der Beiträge in das Marburger. Online-Magazin

Contact Us