mich würde mal interessieren, wie so eure Ausführungszeiten sind.
Einmal natürlich, um wie viel eure SSE Implementation schneller ist, als eure C Implementation (sie ist es doch hoffe ich?

Außerdem, wie lange eure Programme auf den Poolrechnern (direkt oder per SSH?) so brauchen, wüsste gern mal, wie sich mein Programm im Vergleich schlägt.
Interessant wäre es auch zu wissen, wie schnell die Musterlösung ist?
Ich fang einfach mal an:
Im großen Schnitt ist die SSE Lösung auf das apples.pgm Bild angewendet ca. doppelt so schnell wie die C Lösung.
Ein Beispiel:
Ticks needed for the unoptimized C-Implementation 249592075
Ticks needed for the optimized SSE-Implementation 121514522
Einer unter vielen Werten, die sind halt doch ganz gut gestreut....
Grüße
Nils
PS: Die SSE Implementation nutzt nicht die Transponierung und implementiert den vertikalen sowie den horizontalen Filter.