Entwickler-Ecke

Internet / Netzwerk - HTML-Datei nach Bildern oder IMG-Tags parsen


Windwalker - Fr 05.06.09 10:57
Titel: HTML-Datei nach Bildern oder IMG-Tags parsen
Hallo!

Ich lade mir mit der Indy-Komponente IdHttp eine HTML-Datei herunter, die ich lokal für späteren Offline-Zugriff mittels des Webbrowser-Objektes speichere.
Da die HTML-Datei Bilder enthält, muss ich zusätzlich alle Bilder herunterladen und speichern.

Hierzu muss ich natürlich den HTML-Code nach Image-Tags parsen.
Hier im Forum habe ich unter
http://www.delphi-forum.de/viewtopic.php?t=44565
http://www.delphi-forum.de/viewtopic.php?t=79930
zwei Threads gefunden, die demonstrieren, wie das Auslesen der Bilder über das WebBrowser-Objekt recht einfach funktioniert.

Meine Frage:
Geht das Auslesen der Bilder auch, ohne die Website mit Navigate() vorher anzuzeigen, also im Hintergrund?
Schließlich will ich erst zur HTML-Datei die Bilder herunterladen und dann die Seite offline anzeigen.

Danke!


Tropby - Fr 05.06.09 11:51

Was hälst du davon das Webbrowser-Objekt für diese Zeinfach unsichtbar zu machen dann kannst du mit Navigate() arebiten und der benutzer sieht die Seite nicht.


jaenicke - Fr 05.06.09 12:00

Die Kanone für das Spätzchen (aber gut geeignet) wären Regular Expressions. ;-)

Ansonsten gibt es auch diverse HTML Parser, wozu ich auch schon mehrfach etwas geschrieben habe.
user profile iconjaenicke hat folgendes geschrieben Zum zitierten Posting springen:
Es gibt sehr viele Parser. Selbst benutzt habe ich schon den in einem größeren Projekt:
http://delphi.icm.edu.pl/ftp/d30free/htmlprsr.zip
(Wegen der äh... äußerst ungünstigen Konstruktion der Seite, kann ich nur einen direkten Dateilink posten. Um den Eintrag zu finden kannst du hier nach htmlparser suchen: http://dsp.href.com/)

Der Beschreibung nach ist dieser recht gut:
http://sourceforge.net/projects/htmlp
Oder hier habe ich mal Tabellentags mit einem kleinen Quelltext ausgewertet, das könnte man so auch mit Bildtags machen:
http://www.delphi-forum.de/viewtopic.php?p=559880