Feedback: Texterkennung/Kopierbarkeit aus hochgeladenen Dateien

DR1 · 26. August 2019 um 19:27

Ich möchte mein Lob dafür aussprechen, dass die Texterkennung bei hochgeladenen PDFs so gut funktioniert! Wenn man das veröffentlichte Dokument erneut herunterlädt, ist der Text ganz einfach kopierbar; aus dem eingebetteten Dokument funktioniert es hingegen nicht so gut.

Mir sind nahezu keine Fehler aufgefallen. Gelegentlich werden Leerzeichen und Absätze verschluckt und manchmal wird ein Paragraphen-Zeichen zu einer Acht oder einem Dollar-Zeichen. Einmal habe ich bemerkt, dass mitten im Satz ein Punkt eingefügt wurde.

Das soll auch ein Appell an die Nutzer sein, Dokumente nicht nur hochzuladen, sondern auch den Text rauszukopieren. Natürlich ist es schon vergleichsweise gut, wenn Behördenpost überhaupt hochgeladen wird. Aber insbesondere für den Leser mit schlechtem mobilen Internet ist es deutlich praktischer, wenn die hochgeladenen Dokumente als Text lesbar sind, weil dann nicht jedes einzelne PDF angeklickt und runtergeladen werden muss.

stefan · 2. September 2019 um 12:41

Online werden die PDFs mit PDF.js (bekannt aus dem Firefox-Browser) dargestellt. Das funktioniert nicht immer gut, gerade bei großen oder kaputten PDFs leider nicht. Viel daran ändern können wir in diesem Zusammenhang nicht. Wird ein Anhangs-PDF als “Ergebnis” markiert und damit in ein Dokument umgewandelt, haben wir auch andere Möglichkeiten der Darstellung, das dauert aber noch etwas.

Grundsätzlich ist die fehlerfreie Wiederherstellung von Texten aus PDFs leider meist nicht möglich, bei eingescannten PDFs schon mal gar nicht. Daran können wir leider nicht viel ändern: Garbage in, garbage out.

vitushsl · 6. September 2019 um 04:14

Mal eine Anmerkung dazu: ich versuche tatsächlich, immer den Dokumenttext auch tatsächlich in das Feld zu kopieren - ich glaube nämlich nicht, dass es für die PDFs eine Volltextsuche gibt, für die Textfelder ja aber schon. Das Problem ist nur: wenn man ein paar Anfragen zusammengesammelt hat für die Stückchenweise dann Eingangsbestätigung, Bescheid, Ergebnis eintrudeln die alle ein paar Seiten lang sind dann wird das kopieren teilweise sehr mühselig.

Ich hab zwar keine richtige Lösung dafür, aber grundsätzlich hielte ich es zum einen für eine gute Idee, die ohnehin OCRten PDFs zu durchsuchen. Automatisiert eine Reintext-Version einer PDF anzuzeigen ist glaube ich programmiertechnisch sehr sehr heavy, daher wäre vllt. ersteres auch ein Fortschritt .

filter · 7. September 2019 um 15:25

Zur Kopierbarkeit noch ein Hinweis.

Der Text auf dem PDF wird von jedem PDF-Renderer (also Programm wie z.B. Adobe Acrobat Reader oder Preview (Mac), oder eben PDF.js) unterschiedlich “zusammenhängend” dargestellt. Im PDF sind nur die Wörter mit ihrer Position vermerkt. Zeilen müssen daher von dem darstellendem Programm erkannt werden. Generell empfiehlt es sich das PDF herunterzuladen und lokal zu öffnen. Und falls es nicht funktioniert, ruhig mal mit einem anderen Programm versuchen.