Entwickler-Ecke

Dateizugriff - Text aus PDF extrahieren


cartridge - Sa 23.04.05 21:13
Titel: Text aus PDF extrahieren
Hallo Leute!

Weiß jemand, wie man Text aus einer PDF- Datei extrahiert? Leider enthält diese Datei auch eine Tabelle, so dass nicht nur einfacher Text sich in der Datei befindet. Ich habe auch nicht verstanden, warum in einer einfachen PDF- Datei der Text in Klartext lesbar ist und in einer aufwändigeren nicht. Habe nur irgendwo gelesen, dass es sich bei dem Text in einer PDF_ Datei um Postscript handeln soll. Hilft mir aber auch nicht weiter...

Vielleicht hat ja jemand ne Kompo...

Gruß
Ingo


fvolk - So 24.04.05 09:37

Hier [http://www.convertzone.com/pdf2txt_s/help.htm] gibt es ein (externes) Programm, das Text aus PDFs extrahieren kann. Je nachdem, was du vorhast, kannst du entweder dieses in dein Programm einbinden oder die "große" PDFLib [http://www.pdflib.com/de/] benutzen (die kann natürlich auch viel mehr, als du eigentlich brauchst).


Silberwolf - So 24.04.05 10:12

Ich hatte mal so ein Plugin, aber habe leider vergessen wie es heißt, aber ich schau nochmal nach.
War irgendwo auf ner c't CD.

@fvolk:

Da in der Überschrift der Seite
Zitat:
CZ-Pdf2Txt Simple For Acrobat V1.1
steht, denke ich mal, es ist für den Reader 1.1, oder irre ich mich da :?:
Ich benutze den reader 7.0, aber ich habs nicht ausprobiert, es könnte auch funktionieren, versuchs halt...


fvolk - So 24.04.05 10:46

@Silberwolf: Ich denke eher, dass es

Zitat:
CZ-Pdf2Txt Simple For Acrobat V1.1


heißt.


Silberwolf - So 24.04.05 11:10

So kann man es auch sehen :D :wink:


fvolk - So 24.04.05 12:26

Ja :lol: , war aber eines der genialsten Missverständnisse in der letzten Zeit.