Entwickler-Ecke
Dateizugriff - Dateien auf Ähnlichkeitsgrad untersuchen
andras - So 20.04.08 20:12
Titel: Dateien auf Ähnlichkeitsgrad untersuchen
Hallo!
Wie der Titel schon sagt: ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist.
Bei den Dateien handelt es sich entweder um .doc oder um .pdf, aber ideal wäre natürlich eine dateiunabhängige Lösung.
Mein Problem ist, dass ich keinen Plan hab, wie an diese Programm herangehen soll.
Hat jemand brauchbare Tipps für mich?
FinnO - So 20.04.08 21:19
möchtest du Ähnlichkeiten im Text oder allgemeine Ähnlichkeiten(Dateigröße, Änderungsdatum, etc.) auswerten?
Narses - So 20.04.08 22:19
Titel: Re: Dateien auf Ähnlichkeitsgrad untersuchen
Moin!
andras hat folgendes geschrieben: |
ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist. |
Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"? :nixweiss:
cu
Narses
andras - Mo 21.04.08 14:44
Um die Frage von
FinnO zu beantworten, mir gehts dabei um den Text, wobei dieser auch Grafiken/Bilder enthalten kann.
Narses hat folgendes geschrieben: |
andras hat folgendes geschrieben: | ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist. | Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"? :nixweiss:
|
Ok, da ist was dran...
Ich hab etwas drüber nachgedacht und bin zu folgendem Schluss gekommen: Ich will überprüfen ob aus Datei A Inhalte nach Datei B kopiert worden sind. Ich fang also mit möglichst kleinen Textteilen von Datei A an und überprüf ob die in Datei B enthalten sind. Schrittweise verändere ich die Größe der Textteile die überprüft werden. Das Ganze muss dann noch in ein Punktesystem eingepackt werden, wobei die Übereinstimmungen bei kleinen Textteilen eher weniger zählen sollten (auf Worteben z.B. gibt es wohl schnell Übereinstimmungen :wink: )...
BenBE - Do 24.04.08 19:41
Das Stichwort könnte für diesen Fall "Longest Common Sequence" sein ... Ist eine Familie von Algorithmen die zum Untersuchen von Dateiunterschieden benutzt werden, ähnlich wie es z.B. diff unter Unix macht.
andras - Do 24.04.08 20:31
Alles klar, Longest Common Sequnence war das Stichwort, das ich gesucht hab.
Werd einmal anfangen, mich etwas einzulesen, google spuckt ja eine ganze Reihe von Seiten aus....
Einstweilen Danke!!
Entwickler-Ecke.de based on phpBB
Copyright 2002 - 2011 by Tino Teuber, Copyright 2011 - 2025 by Christian Stelzmann Alle Rechte vorbehalten.
Alle Beiträge stammen von dritten Personen und dürfen geltendes Recht nicht verletzen.
Entwickler-Ecke und die zugehörigen Webseiten distanzieren sich ausdrücklich von Fremdinhalten jeglicher Art!