Entwickler-Ecke :: Thema anzeigen - Geschwindigkeitsoptimierung StringList

Bergmann89 - Mi 20.10.10 22:05
Titel: Geschwindigkeitsoptimierung StringList

Hey,

ich hab zur Zeit ein Problem wo ich nicht so richtig weiter weiß. Es geht darum, das ich Strings in eine StringList schreiben will. Die Strings sind alle genau 13-Zeichen lang. Jetzt gibt es aber die Bedingung, das ein neuer String der in die Liste eingetragen werden soll mind. x unterscheidliche Zeichen zu allen anderen in der Liste gespeicherten Strings haben muss. Da aber ca. 1Mio Strings eingetragen werden müssen dauert das Ganze auch entsprechend lange. Jetzt hab ich mir überlegt, wie man das alles optimieren könnte und da scheiter ich grad dran. Mir ist die Idee gekommen eine Hashmap zu nutzen, aber ich bin mir nicht ganz sicher ob das mein Problem löst, und ich bin auch noch nicht so bewandert in der Benutzung von Hashmaps. Aus diesem Grund wollt ich hier erstmal fragen ob das der richtige Weg ist, oder ob es noch effektivere Möglichkeiten gibt.

MfG & Thx Bergmann

Gausi - Mi 20.10.10 22:49

Ich sehe jetzt nicht, wie da eine Hashmap helfen könnte :gruebel:

Was bedeutet denn genau "mind. x unterscheidliche Zeichen"? Meine Idee wäre, die eingefügten Strings zusätzlich in einer Art DAWG (directed acyclic word graph) zu speichern. Da sind die Knoten des Graphen Buchstaben, und Wege von der Wurzel des Graphen/Baumes naach unten bilden die Strings, die schon eingefügt sind. Bei einem neuen String kann man dann relativ schnell feststellen, ob das neue Wort schon drin ist oder nicht.
Aber wie das mit den unterschiedlichen Zeichen genau zu modifizieren ist, weiß ich auch noch nicht so genau...

Bergmann89 - Mi 20.10.10 23:17

Hey,

so ne ähnliche Idee hatte ich auch, aber mein Gedankengang endete wie deiner dabei das ganze auf mein Problem zuzuschneidern. Hier nochma n kleines Beispiel (stark vereinfacht).
Strings die eingefügt werden sollen: (List1)
aaaaaa
aaaabb
abaabb
der unterschied muss mindestens 2 Zeichen betragen (also x = 2)

Quelltext

1:
2:
3:
4:
5:

für alle Einträge in List1 (Schleife1)
  für alle Einträge in List2 (Schleife2)
    wenn unterschiedliche Zeichen < x, dann...
      beende Schleife2 und starte mit nächstem Eintrag in Schleife 1
  übernimm Eintrag in List2

List2 wäre dann wie folgt:
aaaaaa
aaaabb

als 1. kommt aaaaaa in die List2, is ja klar weil es keine Strings zum vergleich in der Liste gibt. Dann kommt auch aaaabb in List2, weil es mind. 2 Zeichen Unterscheid zu aaaaaa hat (nämlich die 2 b). Dann wird abaabb geprüft, hat mehr als 2 unterschiedliche Buchstaben zu aaaaaa also weiter. Beim Vergleich von abaabb mit aaaabb ist aber nur ein Zeichen anders, somit erfüllt abaabb die Bedingung nicht und kommt nicht in die List2...

ich schlaf erstma ne Runde dadrüber.

gn8 Bergmann

Gausi - Do 21.10.10 10:38

Um mal bei der Idee zu bleiben: Du könntest den Dawg beim Einfügen aufbauen. Beim Einfügen des nächsten Strings startest du in dem Baum eine Tiefensuche. Dabei zählst du einen Zähler hoch, wenn du eine "falsche Kante" entlangläufst. Wenn der Zähler bei 2 ist, kannst du den Tiefensuchdurchlauf in diesem Teilbaum abbrechen - die Strings in diesem Teil des Baumes sind alle um mindestens 2 Zeichen verschieden. Dann gehst du in der Rekursion einen Schritt nach oben, verringerst dabei ggf. wieder den Zähler und machst in dem nächsten Ast weiter. Wenn du an einem Blatt in dem DAWG ankommst, und der Zähler ist kleiner als 2, dann hast du bereits ein ähnliches Wort in deiner Liste. Die Suche kann dann abgebrochen und das Wort verworfen werden.

Gausi - Do 21.10.10 13:50

So ganz sicher bin ich mir da auch noch nicht, für meine Idee bin ich einfach mal von der Hamming-Distanz [http://de.wikipedia.org/wiki/Hamming-Distanz] ausgegangen. Wenn also an der x-ten Position in den beiden Strings zwei unterschiedliche Zeichen stehen, dann ist das "ein Unterschied".

Also

Quelltext

1:
2:
3:
4:
5:
6:
7:

abcdef
bcdefa
 Unterschied = 6

abcdef
abcfff
  Unterschied = 2

Lemmy - Do 21.10.10 14:06

Hi,

bevor du jetzt die Tastatur quälst: Delphi F1 und THashedStringList eingeben:

Zitat:

Beschreibung

Ein THashedStringList-Objekt ist eine Stringliste, die intern eine Hash-Tabelle verwendet, um die Suche nach Strings zu beschleunigen. Es wird intern von TMemIniFile verwendet, um die Strings in einer INI-Datei zu verwalten. Das Objekt kann jedoch wie jede andere Stringliste genutzt werden. Insbesondere bei Listen mit einer großen Anzahl von Strings kann die Leistung durch die Verwendung der Klasse THashedStringList anstelle von TStringList optimiert werden.

sprich tausch mal TStringList durch THashedStringlist aus und schau ob dir die Performance ausreicht....

cu

Bergmann89 - Sa 23.10.10 03:14

Hey,

habs soweit fertig und der Unterschied zur normalen Liste ist seeeehr groß^^
Das neue läuft mit x = 4 (mind. 4 Zeichen Unterschied) mit knapp 19sec, das alte hat mehr als 100sec gebraucht!!!
Hier der Code, wenn sich jmd dafür interessiert:

Delphi-Quelltext

1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
16:
17:
18:
19:
20:
21:
22:
23:
24:
25:
26:
27:
28:
29:
30:
31:
32:
33:
34:
35:
36:
37:
38:
39:
40:
41:
42:
43:
44:
45:
46:
47:
48:
49:
50:
51:
52:

////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
//püft ob der String mind x unterschiednliche Zeichen zu allen anderen Strings im Baum hat
//x = fMinCharDif --> property MinCharDif
//@p: Zeiger auf den String, der geprüft werden soll;
//@result: TRUE, wenn Sring gültig ist und die Bedingungen erfüllt; 
function TStringTree.CheckCharCountDif(p: PAnsiString): Boolean;

  function Check(d, Count: Integer; Item: PStringTreeItem): Boolean;
  var
    c: Byte;
  begin
    result := True;
    if (d > 13) or not Assigned(Item) then begin
      if d > 13 then
        result := False;
      exit;
    end;

    if (p^[d] <> Item^.Value) and (d > 0) then
      inc(Count);

    if Count >= fMinCharDif then
      exit;

    if d = 0 then
      c := Ord(p^[d+1]) - $30
    else
      c := Ord(p^[d]) - $30;
    case c of
      1: begin
        result := Check(d+1, Count, Item^.Children[0]);
        if result then
          result := Check(d+1, Count, Item^.Children[2]);
      end;
      0: begin
        result := Check(d+1, Count, Item^.Children[1]);
        if result then
          result := Check(d+1, Count, Item^.Children[2]);
      end;
      2: begin
        result := Check(d+1, Count, Item^.Children[0]);
        if result then
          result := Check(d+1, Count, Item^.Children[1]);
      end;
    end;
    if result then
      result := Check(d+1, Count, Item^.Children[c]);
  end;

begin
  result := Check(0, 0, fValues);
end;

Das ist jetz natürlich auf mein Problem zugeschnitten (Stringlänge 13 Zeichen; Zeichen nur '1', '0' und '2'), sollte aber nich so schwer sein, das auch auf allgemeine Sachen zu übertragen.
Ich überleg auch schon die ganze Zeit, wie man das evtl auf mehrere Thread verteilen könnte, aber das wird wohl nich gehen, weil er ja dauernt auf den Baum zugreift. Oder hat jmd ne Idee dazu (so großartig hab ich mit Threads noch nich gearbeitet).

MfG & gn8 Bergmann.

Kha - Sa 23.10.10 15:40

Bergmann89 hat folgendes geschrieben :

Ich überleg auch schon die ganze Zeit, wie man das evtl auf mehrere Thread verteilen könnte, aber das wird wohl nich gehen, weil er ja dauernt auf den Baum zugreift.

Gleichzeitiges Suchen im und Ändern des Graphen (kein Baum, falls du wirklich einen DAWG und keinen Trie benutzt ;) ) wird natürlich nicht funktionieren, das stimmt. Aber deine Check-Methode selbst lässt sich als Divide-and-Conquer-Algorithmus wunderbar parallelisieren [http://en.wikipedia.org/wiki/Divide_and_conquer_algorithm#Parallelism], such einfach mal nach einem parallelen Quicksort als Beispiel.
Sollte sich herausstellen, dass dabei die einzelnen Aufgaben zu "fine-grained" sind, also der Thread-Overhead überwiegt, kannst du auch mehrere einzufügende Strings erst einmal in einem Batch sammeln. Für jeden String suchst du im alten DAWG, überprüfst dann noch die Ähnlichkeit zu den restlichen Strings im Batch und fügst am Ende alle (die den Test bestanden haben) auf einmal in den Graph ein. Die ersten beiden Schritte lassen sich dabei problemlos parallelisieren.

BenBE - So 31.10.10 02:36

Die Sache bzgl. Sammeln mehrerer Strings dürfte sogar recht vorteilhaft sein, weil man dann wirklich schon mal vorfiltern kann und dadurch die wirklichen Schreiboperationen im DAWG/Trie stark verringern kann. Also in parallel X String vorfiltern und danach single-threaded die verbliebenen Kandidaten gegen die vorhandene Liste filtern und einfügen.

Die generalisierte Variante könnte für Multithread-Filtering auch einfach mit nem Task-Stack (oder Prio-Queue) arbeiten, bei dem die Rekursionsschritte auf dem Stack abgelegt werden. Hilfreich könnten hier theoretisch auch Fibers sein, weil dann das Switching zwischen den einzelnen Aufgaben um einiges beschleunigt wird. (Kleinerer Context Switch Overhead).

Tranx - So 31.10.10 04:23

BenBE hat folgendes geschrieben :

Ist doch nett, was ich hier lesen kann, doch allein, mir fehlt der Sinn dessen, was der Autor mir sagen will.

Entwickler-Ecke.de based on phpBB
Copyright 2002 - 2011 by Tino Teuber, Copyright 2011 - 2026 by Christian Stelzmann Alle Rechte vorbehalten.
Alle Beiträge stammen von dritten Personen und dürfen geltendes Recht nicht verletzen.
Entwickler-Ecke und die zugehörigen Webseiten distanzieren sich ausdrücklich von Fremdinhalten jeglicher Art!