Hallo liebe Foren-Gänger,
ich bin noch relativ neu im Programmier-Universum. Neben meinem Info-Studium,
bildet mich mein Teilzeit-Arbeitgeber sozusagen mit aus.
Meine aktuelle Aufgabe ist es einen Webscraper zu bauen, der den Source-Code der Mainpage
und die aller Tochter-/Unter-Seiten der Website zwischenspeichert und am Ende in der Textbox anzeigt.
Während den Regex-Überlegungen fiel mir ein Problem auf, die Tochter-/Unterseiten werden im HTML-Source auf verschiedene Weisen deklariert.
Ich kenne Leider nicht alle Formen, wie man die Seiten noch erkennt, bisher gesehen:
1. Als kompletter Pfad - bsp.: Mainpage =
www.YXZ.de ; Tochterseite:
www.XYZ/ersteTochterSeite.de
2. Als Teilpfad - bsp.: Mainpage =
www.XYZ.de ; Tochterseite = /ersteTochterSeite/
Nun zu meiner Frage, sind das die einzigen zwei Möglichkeiten oder gibt es unter C# noch mehr Möglichkeiten?
In Hoffnung, dass meine Fragestellung verständlich ist, verabschiede ich mich schonmal im voraus dankend!
Der C#-Quereinsteiger