Entwickler-Ecke

IO, XML und Registry - Plaintext aus RTF-Dokument extrahieren


UC-Chewie - Fr 21.07.06 19:44
Titel: Plaintext aus RTF-Dokument extrahieren
Hallo zusammen!

Ich habe einige RTF-Dateien, deren Inhalt ich analysiere und später in einer Webanwendung anzeige. Dazu gehört auch, dass ich den Text der Datei zwecks Darstellung als Klartext extrahieren muss. Nur: Wie mache ich das? Ok, ich könnte eine unsichtbare RichTextBox erzeugen und dort per Zuweisung an die Property RTF und Lesen der Property Text den Klartext erhalten, aber geht das nicht sauberer? Vor allem müsste ich dann noch das Assembly für System.Windows.Forms einbinden, was ich gerne vermeiden möchte.

Kennt da jemand eine kleine Klasse, die das bewerkstelligt? Ist ja prinzipiell nichts allzu großartiges, aber doch lästig, selberzumachen.

Ach ja, klar gehts hier um ASP.NET, aber die Frage ist ja allgemeiner Natur, deswegn denke ich, dass sie hier richtig ist.


Danke schon mal.


Kha - Fr 21.07.06 19:55

Der Plaintext ist doch einfach der Dateiinhalt :gruebel: . Du kannst ihn also wie eine normale Textdatei einlesen.


UC-Chewie - So 23.07.06 15:46

Nein, die Datei enthält ja sämtliche Formatierungen und Sonderzeichen-Ersatzzeichen. Ich will aber nur den Text, ohne Formatierungen und ohne Header-Informationen, aber mit korrekten Sonderzeichen.


Kha - So 23.07.06 19:28

Dann wird es wohl doch das Einfachste sein, eine RichTextBox zu erstellen.


UC-Chewie - So 23.07.06 20:09

Ja, ist halt aber keine saubere Lösung, dass ich ein unsichtbares Control brauch. Vor allem ist es nicht sauber, den System.Windows-Namespace bei einer ASP.NET-Anwendung einzubinden.

Aber vorläufig bau ich mir den Text manuell zusammen, klappt zwar nicht für alle Arten von Dateien, aber für die, die ich hab, funktioniert es.

An einem generischen Weg wär ich dennoch aber interessiert.