mw1039 hat geschrieben:
Bzgl. des Testats und der Geschwindigkeit mag das egal sein aber nicht bzgl. der Korrektheit. Vielleicht kann man darueber feststellen, ob test.fasta irgendwie besonders boesartig ist, deine Loesung aber vielleicht mit anderen Files funktioniert.
Probiers am besten einfach mal. So lange dauert es ja nicht.
Ich nehme an, dass Sie mit "500 Sequenzen gekuerzt" meinen, dass ich die Anzahl von Sequenzen von 45161 in 500 reduzieren (einfach Zeilen wegschmeißen) soll. Das würde aber kein Sinn machen, da onePointProbs die Länge sequenceLength * NUMPROTEINCHARS hat. Das heisst, die Länge ist unabhängig von Anzahl von Sequenzen.
Deshalb habe ich angenommen dass Sie die Sequenzlänge von 1443 bis 500 reduzieren wollte, so dass es genug Speicher gibt. 500*22 chars *2 bytes = 22000 bytes. 22000 bytes < 49K bytes. Um nicht so viel Daten zu verlieren, habe ich es aber nur bis 1020 reduziert. 1020*22*2 = 44880.
Ich habe die Sequenzlänge so gekürzt (17 * 60 (Zielenlänge) = 1020):
Code: Alles auswählen
grep -E '^>' -A 17 < speciality.fasta | grep -vE '^--$' > newspeciality.fasta
Ich habe Quelldaten und Ergebnisse in diese Archiv gepackt: /home_export/LABACCOUNTS/gdi3user174/janus/localmem/prak5/build/pack.tar.bz2
Online hier:
http://clientssh1.rbg.informatik.tu-dar ... ck.tar.bz2
Excerpt:
Code: Alles auswählen
line ['x=285 y=1019: 0.000118874', 'x=285 y=1019: 0.000355921'] differs by 199.410299981 %
[...]
line ['x=1012 y=1019: 0.00902593', 'x=1012 y=1019: 0.00920905'] differs by 2.02882140677 %
line ['x=1013 y=1019: 0.00850136', 'x=1013 y=1019: 0.00869023'] differs by 2.22164453687 %
line ['x=1014 y=1019: 0.0125235', 'x=1014 y=1019: 0.0127581'] differs by 1.87327823691 %
line ['x=1015 y=1019: 0.0149186', 'x=1015 y=1019: 0.0151561'] differs by 1.59197243709 %
line ['x=1016 y=1019: 0.014326', 'x=1016 y=1019: 0.0145536'] differs by 1.58871981014 %
comparison of 520710 entries finished
maximum relative deviation was 505666.561514 %, average relative deviation was 270.026753712 %