A tömörítőteszt harmadik részében nagy fájlokat zsugorítottam minél kisebbekre, persze úgy hogy az eredeti is visszaállítható legyen. :-) Bár kiderült, hogy a véletlenszerű karakterekkel, valamint a nullákkal feltöltött fájlok nem igazán alkalmasak a tesztelésre, mégis kitartottam emellett a módszer mellett, hogy egységes legyek a kisfájl teszttel. Most éppen létrehoztam 50-100-200-400 és 800 Mb-os fájlokat (összesen 1550Mb), és ezeket teszteltem szintén fokozatosan emelve a tétet: 50M-150M-350M-750M-1550M. A "hétköznapi" fájlokhoz kétféle módszert alkalmaztam; ugyanis úgy gondolom, ekkora fájlokat csak akkor tömörít valaki, ha van is értelme, tehát mondjuk ha ezek ISO-k. Kiterveltem hogy letöltök a netről véletlenszerűen ISO fájlokat, amelyek körülbelül megfeleltek a szükséges (előbb megadott) méreteknek.
Itt jegyezném meg, hogy elsőnek azt gondoltam, milyen egyszerű lesz letölteni majd különféle méretű ISO fájlokat, hiszen rengeteg Linux/BSD terjesztés, illetve egyéb ingyenes cucc van a neten. Súlyos tévedés volt - lényegében csak és kizárólag rapidshare-es és torrent-es warez ISO-kat találtam tömött sorokban. A végén saját magam generáltam a 400 és 800 megás ISO-kat, a "szokásos módon", a Dokumentumok mappámból. Hülye internet. :-(
Ezek után még megpróbáltam, mi történik ha AVI vagy pl. WAV fájlokat nyomunk össze, csak az íze kedvéért.
Így tehát van egy zerofill (nullákkal feltöltött fájlos), egy véletlenszerű adatokkal feltöltött, egy ISO-s és egy multimédia fájlos teszt. Mindegyik összesen 5 menetből áll. Mivel egy meneten belül 4 mérést tettem, összesen tehát 80 mérést végeztem el. Ha ezt hozzáadjuk a kisfájl-teszt 120 méréséhez, akkor kijön, hogy nem vagyok normális. :-)
A fájlok generálását, illetve a kiértékelést igen hasonló módszerrel végeztem, mint ahogy első alkalommal leírtam - most inkább koncentrálnék azokra, akiket az érdekel, vajon a BZIP2, a GZIP vagy a ZIP-e a jobb nagy fájlok tömörítésekor?
Mint kiderült, nem nagy a különbség a kis fájl teszthez képest - legyen ez bármilyen meglepő. Úgyhogy csak egyetlen képpel illusztrálom, amin dolgoztam két napot. :-) Ez bemutatja a jellegzetes eloszlásokat, amelyekből azt a következtetést tudom csak levonni, amit eddig is:
A BZIP2-t nem fogom használni, kicsi a nyereség méretben és időben elég jelentős ennek az ára. A GZIP és a ZIP ismét elég hasonlóan teljesített, ami azért is meglepő, mert a GZIP-et most is terhelte a tar-ral való "kényszerházasság". Mégis, lényegében mindegy, melyiket használjuk a hétköznapokban.
Úgy tűnhet, hogy a tömörítő teszt végét kicsit összecsaptam, de az az igazság, hogy kicsit sok kínlódás volt, már alig vártam, hogy vége legyen. :-) Mivel kérdeztétek, itt van a gép pár paramétere, amin futtattam a tesztet:
Pentium4 M 2,2Ghz
768 Mb RAM
Fujitsu 40Gb ATA winchester, jó lassú. :-)
Remélem, segített valamit ez a kis teszt - én választ kaptam a kérdésemre, ráadásul készítettem hasznos kis szkripteket is, amik jók lesznek máskorra is.