Entwickler-Ecke

Dateizugriff - Dateien auf Ähnlichkeitsgrad untersuchen


andras - So 20.04.08 20:12
Titel: Dateien auf Ähnlichkeitsgrad untersuchen
Hallo!
Wie der Titel schon sagt: ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist.
Bei den Dateien handelt es sich entweder um .doc oder um .pdf, aber ideal wäre natürlich eine dateiunabhängige Lösung.
Mein Problem ist, dass ich keinen Plan hab, wie an diese Programm herangehen soll.
Hat jemand brauchbare Tipps für mich?


FinnO - So 20.04.08 21:19

möchtest du Ähnlichkeiten im Text oder allgemeine Ähnlichkeiten(Dateigröße, Änderungsdatum, etc.) auswerten?


Narses - So 20.04.08 22:19
Titel: Re: Dateien auf Ähnlichkeitsgrad untersuchen
Moin!

user profile iconandras hat folgendes geschrieben:
ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist.
Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"? :nixweiss:

cu
Narses


andras - Mo 21.04.08 14:44

Um die Frage von user profile iconFinnO zu beantworten, mir gehts dabei um den Text, wobei dieser auch Grafiken/Bilder enthalten kann.
user profile iconNarses hat folgendes geschrieben:

user profile iconandras hat folgendes geschrieben:
ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist.
Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"? :nixweiss:

Ok, da ist was dran...
Ich hab etwas drüber nachgedacht und bin zu folgendem Schluss gekommen: Ich will überprüfen ob aus Datei A Inhalte nach Datei B kopiert worden sind. Ich fang also mit möglichst kleinen Textteilen von Datei A an und überprüf ob die in Datei B enthalten sind. Schrittweise verändere ich die Größe der Textteile die überprüft werden. Das Ganze muss dann noch in ein Punktesystem eingepackt werden, wobei die Übereinstimmungen bei kleinen Textteilen eher weniger zählen sollten (auf Worteben z.B. gibt es wohl schnell Übereinstimmungen :wink: )...


BenBE - Do 24.04.08 19:41

Das Stichwort könnte für diesen Fall "Longest Common Sequence" sein ... Ist eine Familie von Algorithmen die zum Untersuchen von Dateiunterschieden benutzt werden, ähnlich wie es z.B. diff unter Unix macht.


andras - Do 24.04.08 20:31

Alles klar, Longest Common Sequnence war das Stichwort, das ich gesucht hab.
Werd einmal anfangen, mich etwas einzulesen, google spuckt ja eine ganze Reihe von Seiten aus....
Einstweilen Danke!!