Bilder aus PDF-Dateien extrahieren

Die Konvertierung von PDF-Dateien in einzelne Bilder und die Generierung von Volltext fördern ihre Nutzung auf der Plattform

Während Bilder hochgeladen und auf der Plattform betrachtet werden können, werden andere Dateien hauptsächlich hochgeladen, um sie zu speichern. Um den Inhalt einer Datei zu betrachten, muss sie znächst heruntergeladen werden. Das Extrahieren von Bildern aus PDF-Dateien ist eine gute Möglichkeit, deren Inhalt besser zu nutzen. Die Umwandlung des Bildtextes in echten Text während des Extraktionsprozesses ermöglicht darüber hinaus ausgefeilte Volltextsuchfunktionen mit automatischer Erkennung des eingebetteten Textes.

PDFs können mit der PDF-Extraktionsfunktion in Bilddateien umgewandelt werden. Zunächst müssen Sie eine PDF-Datei in den zugehörigen File Bereich einer Ressource hochladen. Dann können Sie den Extraktionsprozess einleiten, der im Hintergrund abläuft. Nachdem die Extraktion abgeschlossen ist, stehen die neuen Bilder im Bereich Media zur Verfügung und können verwendet werden!

Führen Sie die folgenden Schritte aus, um Bilder aus PDF-Dateien zu extrahieren.

Hochladen einer PDF-Datei

  1. Klicken Sie im Bereich Files auf die Schaltfläche Add+. Ihr Datei-Explorer wird geöffnet. Wählen Sie die PDF-Datei aus, die Sie von Ihrem Computer hochladen möchten.
    Bildschirmfoto 2022-06-16 um 15-24-13-png
  2. Wählen Sie die Datei aus, die Sie von Ihrem Computer hochladen möchten. Ein Fortschrittsbalken zeigt an, dass die Datei gerade hochgeladen wird.
  3. Sobald der Upload abgeschlossen ist, wird die Datei in der Liste mit dem Upload-Datum, dem Dateinamen, dem Dateityp und den Optionen zum Extrahieren von Medien, Herunterladen oder Löschen der Datei angezeigt.

Extrahieren von Bildern mit OCR aus einer PDF-Datei

  1. Starten Sie die Extraktion: Klicken Sie in der Zeile der Datei, aus der Sie Bilder extrahieren möchten, auf Extract media.
    Bildschirmfoto 2022-06-16 um 15-25-09-png
  2. Aktivieren der Textgenerierung: Nachdem Sie auf Extract media geklickt haben, wird ein Feld angezeigt, in dem Sie wählen können, ob nur die Medien extrahiert werden sollen oder ob die Medien mit OCR (Optical Character Recognition) extrahiert werden sollen, um sie von Bildtext in echten Text umzuwandeln.
    Wenn Sie auf No, just extract media klicken, werden nur die Seiten als solche extrahiert.
    Wenn Sie auf Yes, extract media with OCR klicken, werden die Seiten extrahiert und in Scans konvertiert, die als Volltext lesbar sind.



  3. Die Extraktion läuft: Je nach Dateigröße und Seitenzahl kann die Extraktion mehrere Minuten dauern. All dies geschieht im Hintergrund. Während Sie warten, können Sie also diese Seite verlassen und die Plattform weiter nutzen. Sie werden per E-Mail benachrichtigt, sobald die Extraktion abgeschlossen ist.

    succes notification: extraction in progress
  4. Extraktion abgeschlossen: Sie haben erfolgreich Bilder aus einer PDF-Datei extrahiert und konvertiert, herzlichen Glückwunsch! Jede Seite der PDF-Datei ist nun als separates Bild im Bereich File verfügbar. Wenn Sie auf die einzelnen Elemente zugreifen, sehen Sie auf der linken Seite das Symbol für die Volltextlesbarkeit, welches anzeigt, dass die Medien konvertiert wurden und nun als Text vorliegen. So können Sie die Volltextsuche durchführen.

    Wenn die Medien nicht sichtbar sind, ist der Extraktionsprozess möglicherweise noch im Gange. Laden Sie die Seite neu und überprüfen Sie den Medienbereich erneut.

    extracted images in media section

Ähnliche Artikel