Autor |
Beitrag |
andras
      
Beiträge: 460
Win XP, Win Vista Home Premium, Ubuntu Dapper Drake
Delphi 2005 Pers
|
Verfasst: So 20.04.08 20:12
Hallo!
Wie der Titel schon sagt: ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist.
Bei den Dateien handelt es sich entweder um .doc oder um .pdf, aber ideal wäre natürlich eine dateiunabhängige Lösung.
Mein Problem ist, dass ich keinen Plan hab, wie an diese Programm herangehen soll.
Hat jemand brauchbare Tipps für mich?
|
|
FinnO
      
Beiträge: 1331
Erhaltene Danke: 123
Mac OSX, Arch
TypeScript (Webstorm), Kotlin, Clojure (IDEA), Golang (VSCode)
|
Verfasst: So 20.04.08 21:19
möchtest du Ähnlichkeiten im Text oder allgemeine Ähnlichkeiten(Dateigröße, Änderungsdatum, etc.) auswerten?
|
|
Narses
      

Beiträge: 10183
Erhaltene Danke: 1256
W10ent
TP3 .. D7pro .. D10.2CE
|
Verfasst: So 20.04.08 22:19
Moin!
andras hat folgendes geschrieben: | ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist. |
Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"?
cu
Narses
_________________ There are 10 types of people - those who understand binary and those who don´t.
|
|
andras 
      
Beiträge: 460
Win XP, Win Vista Home Premium, Ubuntu Dapper Drake
Delphi 2005 Pers
|
Verfasst: Mo 21.04.08 14:44
Um die Frage von FinnO zu beantworten, mir gehts dabei um den Text, wobei dieser auch Grafiken/Bilder enthalten kann.
Narses hat folgendes geschrieben: |
andras hat folgendes geschrieben: | ich möchte überprüfen, in wie weit eine Datei Ähnlichkeiten mit einer anderen Datei aufweist. | Dann sag doch mal, wann eine Datei A ähnlich einer Datei B ist? Was ist für dich "Ähnlichkeit"?
|
Ok, da ist was dran...
Ich hab etwas drüber nachgedacht und bin zu folgendem Schluss gekommen: Ich will überprüfen ob aus Datei A Inhalte nach Datei B kopiert worden sind. Ich fang also mit möglichst kleinen Textteilen von Datei A an und überprüf ob die in Datei B enthalten sind. Schrittweise verändere ich die Größe der Textteile die überprüft werden. Das Ganze muss dann noch in ein Punktesystem eingepackt werden, wobei die Übereinstimmungen bei kleinen Textteilen eher weniger zählen sollten (auf Worteben z.B. gibt es wohl schnell Übereinstimmungen  )...
|
|
BenBE
      
Beiträge: 8721
Erhaltene Danke: 191
Win95, Win98SE, Win2K, WinXP
D1S, D3S, D4S, D5E, D6E, D7E, D9PE, D10E, D12P, DXEP, L0.9\FPC2.0
|
Verfasst: Do 24.04.08 19:41
Das Stichwort könnte für diesen Fall "Longest Common Sequence" sein ... Ist eine Familie von Algorithmen die zum Untersuchen von Dateiunterschieden benutzt werden, ähnlich wie es z.B. diff unter Unix macht.
_________________ Anyone who is capable of being elected president should on no account be allowed to do the job.
Ich code EdgeMonkey - In dubio pro Setting.
|
|
andras 
      
Beiträge: 460
Win XP, Win Vista Home Premium, Ubuntu Dapper Drake
Delphi 2005 Pers
|
Verfasst: Do 24.04.08 20:31
Alles klar, Longest Common Sequnence war das Stichwort, das ich gesucht hab.
Werd einmal anfangen, mich etwas einzulesen, google spuckt ja eine ganze Reihe von Seiten aus....
Einstweilen Danke!!
|
|
|