HTML

Bagoj úr blogja

Kíváncsi Bagoj befigyel a Linux belsejébe, illetve különféle Linux terjesztéseket próbál ki. Ha jó napja van, scriptet ír Neked.

Friss topikok

Nagy tömörítőteszt (3): ZIP vs .tar.gz vs .tar.bz2

2009.01.11. 20:29 bagoj ur

A tömörítőteszt harmadik részében nagy fájlokat zsugorítottam minél kisebbekre, persze úgy hogy az eredeti is visszaállítható legyen. :-) Bár kiderült, hogy a véletlenszerű karakterekkel, valamint a nullákkal feltöltött fájlok nem igazán alkalmasak a tesztelésre, mégis kitartottam emellett a módszer mellett, hogy egységes legyek a kisfájl teszttel. Most éppen létrehoztam 50-100-200-400 és 800 Mb-os fájlokat (összesen 1550Mb), és ezeket teszteltem szintén fokozatosan emelve a tétet: 50M-150M-350M-750M-1550M. A "hétköznapi" fájlokhoz kétféle módszert alkalmaztam; ugyanis úgy gondolom, ekkora fájlokat csak akkor tömörít valaki, ha van is értelme, tehát mondjuk ha ezek ISO-k. Kiterveltem hogy letöltök a netről véletlenszerűen ISO fájlokat, amelyek körülbelül megfeleltek a szükséges (előbb megadott) méreteknek.

Itt jegyezném meg, hogy elsőnek azt gondoltam, milyen egyszerű lesz letölteni majd különféle méretű ISO fájlokat, hiszen rengeteg Linux/BSD terjesztés, illetve egyéb ingyenes cucc van a neten. Súlyos tévedés volt - lényegében csak és kizárólag rapidshare-es és torrent-es warez ISO-kat találtam tömött sorokban. A végén saját magam generáltam a 400 és 800 megás ISO-kat, a "szokásos módon", a Dokumentumok mappámból. Hülye internet. :-(

Ezek után még megpróbáltam, mi történik ha AVI vagy pl. WAV fájlokat nyomunk össze, csak az íze kedvéért.

Így tehát van egy zerofill (nullákkal feltöltött fájlos), egy véletlenszerű adatokkal feltöltött, egy ISO-s és egy multimédia fájlos teszt. Mindegyik összesen 5 menetből áll. Mivel egy meneten belül 4 mérést tettem, összesen tehát 80 mérést végeztem el. Ha ezt hozzáadjuk a kisfájl-teszt 120 méréséhez, akkor kijön, hogy nem vagyok normális. :-)

A fájlok generálását, illetve a kiértékelést igen hasonló módszerrel végeztem, mint ahogy első alkalommal leírtam - most inkább koncentrálnék azokra, akiket az érdekel, vajon a BZIP2, a GZIP vagy a ZIP-e a jobb nagy fájlok tömörítésekor?

Mint kiderült, nem nagy a különbség a kis fájl teszthez képest - legyen ez bármilyen meglepő. Úgyhogy csak egyetlen képpel illusztrálom, amin dolgoztam két napot. :-) Ez bemutatja a jellegzetes eloszlásokat, amelyekből azt a következtetést tudom csak levonni, amit eddig is:

Nagy fájlok tömörítési arányának eloszlása, 50 - 1550Mb-ig

A BZIP2-t nem fogom használni, kicsi a nyereség méretben és időben elég jelentős ennek az ára. A GZIP és a ZIP ismét elég hasonlóan teljesített, ami azért is meglepő, mert a GZIP-et most is terhelte a tar-ral való "kényszerházasság". Mégis, lényegében mindegy, melyiket használjuk a hétköznapokban.

Úgy tűnhet, hogy a tömörítő teszt végét kicsit összecsaptam, de az az igazság, hogy kicsit sok kínlódás volt, már alig vártam, hogy vége legyen. :-) Mivel kérdeztétek, itt van a gép pár paramétere, amin futtattam a tesztet:

Pentium4 M  2,2Ghz
768 Mb RAM
Fujitsu 40Gb ATA winchester, jó lassú. :-)

Remélem, segített valamit ez a kis teszt - én választ kaptam a kérdésemre, ráadásul készítettem hasznos kis szkripteket is, amik jók lesznek máskorra is.

2 komment

Címkék: linux teszt tömörítő zip parancssor gzip bzip2

A bejegyzés trackback címe:

https://bagojur.blog.hu/api/trackback/id/tr69862513

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

nevergone 2009.01.11. 21:49:55

Te meg tudtad oldani, hogy a ZIP eltárolja a szabványos UNIX fájl-attributumokat, mint pl. tulajdonos- és csoportnév, jogosultságok?

bagoj ur 2009.01.11. 23:03:41

@nevergone: Az elején tettem egy gyors próbát, és akkor úgy tűnt, minden rendben a zip-pel, de akkor csak a jogokat néztem. Mivel gondoltam, nem véletlenül kérded, most megnéztem újra és látom hogy a tulajdonos- és csoportnév nem marad meg, csak a jogosultságok. Ez már csak azért is érdekes, mert a man oldalában is ott van a zipnek ez:

"-X Do not save extra file attributes (Extended Attributes on OS/2, uid/gid and file times on Unix)."

Tehát van egy külön kapcsoló a kikapcsolásra, akkor az alapértelmezésnek a bekapcsolt állapot kell legyen. Vagyis nem értem teljesen... egészen eddig abban a boldog tudatban éltem hogy ez frankó. :-( Majd megkérdem a fejlesztőket. Addig meg ott a gzip...