Entwickler-Ecke

Delphi Language (Object-Pascal) / CLX - UTF-8 String erkennen oder andere Encodingtypen


NOS1971 - Sa 20.04.13 18:48
Titel: UTF-8 String erkennen oder andere Encodingtypen
Hi,

ich lade mir im moment per URLDownloadToStream den Source einer URL in einen Stream. nun möchte ich feststellen welches Encoding genutzt wird um auch die Links etc. nach der Ausfilterung und die Title Tags der Links korrekt anzuzeigen.

Wie mache ich das ?

Ich habe schon versucht MultiByteToWideChar zu nutzen und UTF-8 als Basis angegeben und auf INVALID-CHARS abgefragt aber das hilft auch nicht.

Gibt es eine Routine oder Compo die mir das Encoding eines Strings ausgibt oder anzeigt ?

Grüße und Danke,
Andreas


MSCH - Do 02.05.13 20:56

Imho findest du die codierung in den meta tags der html seite. Ansonsten schau dir mal tstringlist und tencoding an. Vielleicht findest du da passendes.
Cheers mathias

P.s. Wenn xhmtl dann einfach in einen ms-dom document laden und parsen lassen. Funktioniert aber nicht mit 08/15 html.


jaenicke - Do 02.05.13 22:47

Benutze einfach Indy und TIdHttp, das sollte dies automatisch machen. Damit bekommst du auch die entsprechenden Informationen zum Header, der mit der Seite geliefert wurde.