Hallo,
da mir bei meinem letzten Problem so gut geholfen wurde (danke nochmal dafür), versuch ich es einfach gleich noch einmal. Ich hab von meinem Prakikumsbetreuer die Aufgabe erhalten, ein Programm zu schreiben, welches im PDF-Format vorliegende Dateien verändert und in html / pdf konvertiert. Folgendes Problem hab ich dabei: So sieht zum Beispiel ein Teilausschnitt der Datei aus (es gibt über 100 Dokumente, weshalb mein Betreuer nicht will, dass irgendetwas manuell gemacht wird, alles soll programmtechnisch automatisch erfolgen!):
Zitat: |
I met Lynne BERRY in 1968 and married her two years later. I knew her n-\te mother Irene TURNER for the best part of thirty years.
At about 3.40pm on Thursday 11th April, 1996 I was at home when I received a telephone call from Michael WOODRUFF who at the time was a family friend. He is now my brother-in-law having later married Lynne's sister Carol. Michael informed me of Irene TURNERS death. I waited for my wife to return home a short time after the call when I gave her the bad news about her mother. |
Ich soll jetzt Carriage Returns (programmiertechnisch) entfernen, sobald es sich um einen zusammenhängenden Satz handelt (bzw. ein Absatzblock), und die Absätze an sich soll ich lassen. Soweit, so gut, vieles habe ich ausprobiert, das Problem: Es kommen entweder immer wieder verschiedene CRs, oder nur eines, egal ob es ein Absatz ist oder ein zusammenhängender Satz. So in etwa sah es bei vielen Open Source Libraries aus:
Zitat: |
I met Lynne BERRY in 1968 and married her two years later. I knew her \nn-\te mother Irene TURNER for the best part of thirty years. \nAt about 3.40pm on Thursday 11th April, 1996 I was at home when I \nreceived a telephone call from Michael WOODRUFF who at the time was a \nfamily friend. He is now my brother-in-law having later married \nLynne's sister Carol. Michael informed me of Irene TURNERS death. I \nwaited for my wife to return home a short time after the call when I \ngave her the bad news about her mother. |
Ich hoffe, ihr seht, welches Problem ich habe: Wenn nur ein CR dort steht oder immer wieder verschieden viele (Absätze haben verschieden viele, zusammenhängende Texte haben verschieden viele...), wie soll ich entscheiden können, ob es sich um einen zusammenhängenden Text oder einen Absatz handelt?! Folgende Open-Source Libraries hab ich ausprobiert: iTextsharp, pdflib, PDF Clown, PDFBox, PDFsharp. Ich komm einfach nicht mehr weiter... muss sich die Firma jetzt kostenpflichtige Libraries / Programme holen oder kennt ihr andere kostenlose Libraries bzw. habt ihr mit den mir vorhandenen Libraries Ideen, wie ich es schaffe?
So soll es ungefähr aussehen:
Zitat: |
I met Lynne BERRY in 1968 and married her two years later. I knew her (kein \n !!!)n-\te mother Irene TURNER for the best part of thirty years.\n
\n (Absatz)
\n
At about 3.40pm on Thursday 11th April, 1996 I was at home when I received a telephone call from Michael WOODRUFF who at the time was a family friend. He is now my brother-in-law having later married Lynne's sister Carol. Michael informed me of Irene TURNERS death. I waited for my wife to return home a short time after the call when I gave her the bad news about her mother. |
Für jede sinnvolle Antwort bin ich dankbar
Gruß
P.S. Zeile für Zeile lesen habe ich in keiner Librarie gefunden, leider ging nur Seite zu Seite... Ansonsten hätte ich das Problem nicht.
P.P.S. Dem Betreuer fällt auch nichts weiter mehr ein, ausser kostenpflichtige

Und die sind teuer ... Aber gemeinsam sind wir stark, also vielleicht habt ihr noch eine Idee, wie das Problem zu lösen ist
P.P.P.S. Kann man mit dem Befehl "TextLineMatrix" vielleicht irgendetwas erreichen, was nützlich wäre? Hab bis jetzt nicht geschafft, den Befehl nutzen zu können .. immer kommt irgendein Fehler in der Parameterangabe..
/ UPDATE
Mit dem "PDF Grabber" konnte ich das PDF-Dokument in .doc konvertieren und hatte dann die benötigten leeren Zeilen dabei. Nur für die, denen es interessiert
