Text aus einer PDF Datei extrahieren

Post by Jens-Erich Lange
Stream := copy(Source, 1, i - 1);
delete(Source, 1, i + 8);

^^^^^^

Soll das nicht eher "Stream" sein?
Du könntest auch gleich die acht Bytes weniger kopieren, dann musst du sie
nicht löschen :-)

--
Wolfgang Fellger

Jens-Erich Lange

2008-04-08 17:55:07 UTC

Post by Wolfgang Fellger

Post by Jens-Erich Lange
Stream := copy(Source, 1, i - 1);
delete(Source, 1, i + 8);

^^^^^^
Soll das nicht eher "Stream" sein?

Nein, "Source" stimmt schon. "Stream" ist ein Teilstring
aus "Source" (eben der PDF Object-Stream) und die delete-
Orgien kürzen den Quellstring so dass ich in der Schleife
wiederholt nach den Markern "stream" und "endstream" per
Pos() suchen kann.

Post by Wolfgang Fellger
Du könntest auch gleich die acht Bytes weniger kopieren,
dann musst du sie nicht löschen :-)

delete(Source, 1, i+8) kürzt den Quellstring so, dass das
"endstream" verschwindet und ich somit im nächten Schleifen-
durchlauf den nächsten Block suchen kann.

Dies ist zwar alles andere als elegant, aber an dieser
Baustelle kann ich später noch rumhübschen.

Die Blockentnahme funktioniert auch insofern, dass bei
meinem 3-seitigen PDF Dokument die drei dazugehörigen
Object-Streams in der Stringvariable "Stream" landen.

Nur das entpacken funktioniert nicht...

Jens

Ulrich Kobsa

2008-04-12 19:25:23 UTC

Hallo,

mit diesem Ansatz wirst Du wahrscheinlich nicht viel Gluck haben. Das
Problem bei Textextraktion aus PDF Dateien ist die Art und Weise, wie
Text in PDFs gespeichert wird:
In ganz einfachen Fallen steht der Text plain drinnen. Dann gibt es
noch die Variante, wo der Text als einfacher Stream drinnen steht (was
Du gerade machen willst), Dann noch die Variante, wo Text als
zeichenweiser Unicode-Wert drinnen steht. Oder auch die Variante, wo
das Textobject selbst wieder Teil eines gro?eren Streams ist.
Schau mal in die Spec von Adobe rein damit Du einen Uberblick kriegst,
was es so alles an Moglichkeiten gibt.

Wenn Du genau vorhersagen kannst, in welcher Art Text in den von Dir zu
verarbeitenden PDFs vorkommt, dann kannst Du eine Eigenentwicklung
versuchen. Ansonsten kauf Dir externe Komponenten und teste vorher, ob
sie die Textextraktion auch wirklich gut konnen!
QuickPDf ist zum Beispiel nicht wirklich schlecht, kann aber auch nicht
alle Arten von Texte extrahieren.
Das SDK von PDFXChange ist sehr gut. Ich verwende das beruflich und
bisher hab ich noch keine Probleme mit Dokumenten gehabt (Allerdings
geht die Software mit dieser Textextraktion gerade erst in die
Beta-Phase so da? noch nicht wirklich viele Kunden damit gearbeitet
haben).

Gru?e,
Uli

Hans-Peter Diettrich

2008-04-12 23:10:53 UTC

Post by Ulrich Kobsa
Du gerade machen willst), Dann noch die Variante, wo Text als
zeichenweiser Unicode-Wert drinnen steht.

Die übelste Variante, die ich erlebt habe, war ein zweispaltiges
Dokument im Blocksatz. Gespeichert als Buchstabensuppe, mit Makros für
Positionsangaben für Kerning, Leeraum, Spalten- und Zeilenwechsel. Ich
habe mir ein paar Makros angeschaut, und es dann aufgegeben, den Text
ohne Nachbau eines kompletten Automaten aus den Zeichen rekonstruieren
zu wollen.

DoDi

Jens-Erich Lange

2008-04-14 07:01:55 UTC

Post by Ulrich Kobsa
Du gerade machen willst), Dann noch die Variante, wo Text als
zeichenweiser Unicode-Wert drinnen steht.

Die übelste Variante, die ich erlebt habe, war ein zweispaltiges Dokument im Blocksatz. Gespeichert
als Buchstabensuppe, mit Makros für Positionsangaben für Kerning, Leeraum, Spalten- und
Zeilenwechsel. Ich habe mir ein paar Makros angeschaut, und es dann aufgegeben, den Text ohne
Nachbau eines kompletten Automaten aus den Zeichen rekonstruieren zu wollen.

Danke für die Hinweise. Ich möchte fest definierte Dokumente
verarbeiten, nämlich Kontoauszüge.

Ich mache meine Bankgeschäfte ohne Banking-Software sondern mit
dem Internet Browser. Auszüge bekomme ich als PDF Datei. Jetzt
möchte ich eine kleine Mini-Kontenverwaltungssoftware schreiben,
die mir im Grunde genommen nur die Buchungszeilen der Konten
speichert.

Den PDF-Import möchte ich als Plug-In gestalten, so dass sich
bei einem Formatwechsel (oder gar Bankwechsel) hier nur das
Plug-In anpassen muss.

Jens

Lesen Sie weiter auf narkive:

Suchergebnisse für 'Text aus einer PDF Datei extrahieren' (Fragen und Antworten)

kennt jemand ein gutes OCR-prog...?

gestartet 2008-11-09 07:21:24 UTC

gestartet 2006-09-04 02:28:31 UTC

PDF (Fraktur) in Text umwandeln?

gestartet 2010-08-30 00:42:19 UTC

Wie kann man aus einer PDF-Datei etwas herauskopieren?

Mit welchem Programm kann man pdf-Dateien im Korrekturmodus bearbeiten?

gestartet 2011-12-21 02:09:04 UTC