Ronda, de hatékony - awk

2009.01.21. 23:32 bagoj ur

Ma a kissé szerencsétlen nevű awk parancsról szeretnék írni (és arról is fogok), azaz folytatnám az "Elfelejtett világ" sorozat első részét. Hogy miért szerencsétlen a név? Az awkward ugyebár ügyetlent, szerencsétlent jelent angolul. Ráadásul az awk-t vezérló kód nagyban hasonlít egy véletlenszerű karaktersorozatra, aki rátekint annak biztosan citrommá szűkül a feje. Mégis, az awk-t minimális tudással is lehet kezelni és egész sok apró-cseprő napi teendőben képes másodpercek alatt segíteni.

Kis keretes bekezdésemben néhány alapvető dolog: Az awk a neki megadott fájlokon soronként halad végig, és az általunk most használt kis egysoros parancsokat minden egyes sorra érvényesíti. Minden egyes parancsblokkot kapcsos zárójelek közé kell tenni (ez C programozóknak nyilván ismerős), és ha csak egy print parancsot adunk ki, az is egy blokk, tehát { print } -et kell írnunk.

Az első okosság, hogy az awk feldarabolja, pontosabban fel tudja darabolni az adott sort szakaszokra. Egy olyan szövegben tehát, amire valamilyen szabály érvényes (pl. Excel/CSV fájl tartalma, ahol az oszlopszám ugyanaz minden sorban), nagyszerűen tudunk manipulálni. A feldarabolt szakaszokat a $1, $2, $3 ... stb változókba pakolja, a $0 pedig a teljes sort jelenti. Azt, hogy mi mentén darabolja a sort, mi adjuk meg neki; tehát például a /etc/passwd fájlban kettőspontokkal vannak elválasztva a felhasználói adatok. (Ha valaki nem tudja, hogy néz ez ki, egy cat /etc/passwd paranccsal mindenekelőtt nézze meg!) Ha szeretnénk listázni a felhasználók login id-jét és hozzá a nevét, akkor tudjuk ezt tenni:

$ awk -F ":" '{print $1 $5}' /etc/passwd rootroot daemondaemon ...(A sor elején lévő dollárjelet nehogy begépelje valaki!!! Azzal csak egy új sort jelzek a terminálban. Ha esetleg valakinek ez új lenne.) A -F paramétere természetesen az elválasztójelet jelenti, alapban a szóközt veszi annak. Fel lehet egymás mögé sorolni többet is. Nade ez csúnya, egybeírja, meg minden...

$ awk -F ":" '{print $1 "," $5}' /etc/passwd root,root daemon,daemon ... bagoj,Bagoj úrMindjárt jobb. Még szebb lenne, ha tudnánk feltételeket írni és ahol megegyezik a két mező (tehát pl. mindkettő "root"), azt a sort nem írjuk ki.

$ awk -F ":" '( $1 != $5 ) {print $1 "," $5}' /etc/passwd list,Mailing List Manager irc,ircd ... bagoj,Bagoj úrHoppá, ez ilyen egyszerű? Mi lenne, ha csak azokat a sorokat írnánk ki, amelyek nem technikai felhasználók, hanem valódi userek? Megtehetjük, hiszen az Ubuntu a technikai felhasználók uid-ját, azaz számszerű egyedi azonosítóját 0-999-ig osztja ki, az emberi felhasználóké pedig 1000 vagy afeletti. A uid a harmadik oszlop a /etc/passwd fájlban. Akkor ezt most próbáljuk is ki:

$ awk -F ":" '( $3 >= 1000 ) {print $1 "," $5}' /etc/passwd nobody,nobody bagoj,Bagoj úrNocsak, máris megdőlt az állításom: hiszen a nobody user azonosítója 65534! De az biztos, hogy remekül működik a parancs. :) A játék lényege, hogy ha mondjuk abbahagyjuk szerencsétlen passwd fájl abajgatását és mondjuk egy CSV-t kezdünk bántani, máris látszik hogy alapvető szűréseket milyen egyszerű elvégezni. Elkészítettem a következő fájlt, proba.csv néven:

Fizetés,2009.01.12,+,71500 Benzin,2009.01.12,-,7255 Kaja a boltbol,2009.01.15,-,8290 Ebedpenz,2009.01.16,-,3500 Béla megadta a kölcsönt,2009.01.20,+,20000 Kocsma,2009.01.20,-,12500Asszem elég egyértelmű: A kiadások mínusszal, a bevételek plusszal számítanak.

$ awk -F "," '( $3 == "+" ) {print $1}' proba.txt Fizetés Béla megadta a kölcsönt $ awk -F "," '( $3 == "+" ) && ( $4 > 50000 ) {print $1}' proba.txt Fizetés $ awk -F "," '( $4 >= 5000 ) {print $3 $4 "\t" $1}' proba.txt +71500 Fizetés -7255 Benzin -8290 Kaja a boltbol +20000 Béla megadta a kölcsönt -12500 Kocsma

Azt hiszem, eddig érthető a játék. Ezek mellett az awk képes regexp, azaz reguláris kifejezésre is illeszteni; magyarul csak azokkal a sorokkal fog foglalkozni, amelyek illeszkednek. Ha Béla viselt dolgaira vagyunk kiváncsiak:

$ awk -F "," '/Béla/ {print $3 $4 "\t" $1}' proba.txt +20000 Béla megadta a kölcsöntAz awk remekül tud számolni is:

$ awk -F "," '{print $3 ($4+300) "\t" $1}' proba.txt +71800 Fizetés -7555 Benzin -8590 Kaja a boltbol -3800 Ebédpénz +20300 Béla megadta a kölcsönt -12800 KocsmaHozzáadott minden összeghez 300 Ft-ot. Persze ha négyzetre akarjuk emelni, az is megy, akkor $4^2-t kellene írnunk. Mielőtt teljesen bedurvulnánk, elmagyarázom, hogy a fő kódblokk (ami most a kapcsos zárójelek között van) mellett az awk tud kezelni egy úgynevezett BEGIN és egy END blokkot. Ezek arra szolgálnak, hogy a fő blokk előtt és után inicializálásokat, illetve végső kalkulációkat tudjunk végrehajtani. Ennek demonstrálására készítünk egy görgetett összeget, azaz kimutatjuk, hogy hány forint volt a zsebünkben az adott kiadás vagy bevétel után. Ehhez már kell egy inicializálás blokk, ahol nullára állítjuk az összegző változónk értékét. Mivel így már nem tudom szépen és átláthatóan megírni egy sorba, ezért elárulom, hogy az awk parancsok szöveges fájlba is írhatók, és -f paraméterrel végrehajtathatók az awk-val, pl. így: awk -f szumma.awk proba.txt. A következő kódblokkot a szumma.awk fájlba írom:

BEGIN { szumma=0 FS = "," } { if ($3 == "+") { szumma=szumma+$4 } else { szumma=szumma-$4 } print $3 $4 "\t" szumma "\t" $1 }

Aki picit is tanult programozni, annak egyértelmű: Az elején a szumma nevű változót nullázzuk, és mivel itt is lehet, beállítottam a mezőhatárolót vesszőre (hiszen vesszővel elválasztott értékeink vannak). Így szükségtelen lesz a -F paraméter futtatáskor. Ezután, ha az előjel negatív, akkor kivonunk, ha pozitív, akkor hozzáadunk, majd kiírjuk a sort.

Aki házi feladatként egy END nevű blokkot is szeretne a végére rakni, az összesítse az összes kiadást és bevételt, ez alapján mennie kell a dolognak. :-) A futtatás így néz ki:$ awk -f szumma.awk proba.txt +71500 71500 Fizetés -7255 64245 Benzin -8290 55955 Kaja a boltbol -3500 52455 Ebédpénz +20000 72455 Béla megadta a kölcsönt -12500 59955 Kocsma

Ennél jobban nem szeretnék durvulni, pedig az awk ennél sokkal keményebb. :-) Mindössze annyit még, hogy igen hasznos változó a NF, amiben a mezők száma található; illetve a NR, amiben a rekordok száma van - mivel alapértelmezetten egy rekord egy sor a fájlban, ez tartalmazza, hogy hány sorból áll a fájl. Erre a két paraméterre építve szeretnék két példát még elsütni, mert mindkettő iszonyat hasznos tud lenni. De előtte egy kicsit lazítsunk:

1. Feladat

Van egy nagy rakás mp3-unk egy könyvtárban, mindegyik fájl elnevezése következetes, mégpedig "Sorszám.Szám címe-Előadó.mp3", azaz egy példa: "003.This is the sound-Feel Good Production.mp3". Mi szeretnénk, ha az előadó és a szám címe helyet cserélne. Valószínűleg erre még ne mírtak grafikus programot, de nem esünk kétségbe, csak használjuk eddigi tudásunkat:

A fájlokat egyesével átadjuk az awk-nak
Az awk megcseréli a kettes és hármas oszlopot, mező szeparátor a pont és a kötőjel
Ha a szám címében vagy az előadó nevében van pont vagy kötőjel, azzal most nem foglalkozunk, de gondolunk rá - a mezőszám alapján tudjuk ezt megállapítani. Ha ~~háromnál~~ négynél nagyobb, nem próbáljuk átnevezni a fájlt, mert jelenlegi képességeinket meghaladja.
Ne felejtsük el, hogy a végén a .mp3 is egy új mezőnek számít, hiszen a pont szeparátor!

Még egy kis magyarázat a -F paraméter után következőkhöz: A pont (.) mindenre illeszkedik a reguláris kifejezésekben. Ha ténylegesen a pontra akarunk illeszteni, akkor "\."-t kell írni. Az utána jövő pipe az itt a vagylagosságot jelenti, azaz a "\.|-" jelentése: egy darab pont vagy egy darab kötőjel. Itt a kis egysoros, amely csak kiírja a megfordított neveket:

for i in *; do echo $i | awk -F "\.|-" '(NF == 4) {print $1 "." $3 "-" $2 "." $4}'; done

Magától értetődő, hogy a szeparátort (azaz a pontot és kötőjelet) nekünk kell a print esetén pótolni, hiszen az elválasztójel nem része egyik mezőnek sem. Lássuk ugyanezt, átnevezéssel:

for i in *; do UJFILENEV=$(echo $i | awk -F "\.|-" '(NF == 4) {print $1 "." $3 "-" $2 "." $4}'); mv "$i" "$UJFILENEV"; done

Ezt az UJFILENEV változót azért kellett bevezetnem, hogy idézőjelek közé tudjam írni, hiszen ha szóközök is vannak a fájlnévben, azt az mv parancs több fájlként próbálná meg értelmezni. Hát, remélem, érthető. Az UJFILENEV-be betöltjük, amit kiír az awk, és ezután az eredeti fájlnév (ami a $i-ben van) és az új név segítségével megcsináljuk az átnevezést az mv paranccsal. Feltételeztem, hogy az mp3-akon kívül semmi nincs az aktuális könyvtárban - ellenkező esetben a "for i in *" helyére mehet mondjuk "for i in *.mp3"

2. Feladat

Van egy CSV fájlunk, előre nem tudjuk, hogy hány oszlopot (mezőt) tartalmaz. Feladatunk, hogy megfordítsuk az oszlopok sorrendjét. Szinte adódik ez a megoldás (visszatértem megint a proba.txt fájlhoz):

awk -F "," '{for ( x = NF; x > 0; x-- ) { print $x"," } }' proba.txt 71500, +, 2009.01.12, Fizetés, 7255, ...

Látszik, hogy jó az igyekezet, de sajnos külön sorba írja a mezőket, azaz valami miatt mindegyikből külön rekordot csinál. Viszont van nekünk egy ORS (Output Record Separator) nevű változónk is, a BEGIN részben adjunk neki üres sztringet és kész! Persze, hogy egy-egy rekord végén eztán ténylegesen legyen is sorvége jel, erről nekünk magunknak kell gondoskodnunk, de ez nem probléma:

awk -F "," 'BEGIN { ORS="" } {for ( x = NF; x > 0; x-- ) { print $x"," } print "\n" }' proba.txt 71500,+,2009.01.12,Fizetés, 7255,-,2009.01.12,Benzin, 8290,-,2009.01.15,Kaja a boltbol, 3500,-,2009.01.16,Ebédpénz, 20000,+,2009.01.20,Béla megadta a kölcsönt, 12500,-,2009.01.20,Kocsma,Bocs az egysorosért, ez szépen így nézne ki:

BEGIN { ORS="" } { for ( x = NF; x > 0; x-- ) { print $x"," } print "\n" }

Ez a misszió könnyedén teljesítve. :-)

3. Feladat

Van egy fájlunk, amelyben 3 sor alkot egyetlen adatot. Ezekből kellene egy CSV fájlt alakítani. Sőt, mondok egy jobb példát, van egy .VCF, azaz kontakt lista fájlunk, abból szeretnénk kiszedni a nevet és az email címet, és egy CSV fájlt csinálunk belőle. Ez ugyebár mindenféle programnak elég nehéz feladat, hiszen a fájlok struktúrája teljesen más: Az egyikben több sor írja le azt, amit nekünk egy sor több oszlopába kell rendeznünk.

Az a jó, hogy a bemeneti oldalon is meg tudjuk adni azt a bizonyos record separator-t. A VCF felépítése tehát ez:

BEGIN:VCARD VERSION:3.0 EMAIL:elso@domain.hu FN:Első név .... END:VCARD BEGIN:VCARD VERSION:3.0 .... END:VCARD(A kipontozott részek helyén egy rakás egyéb mező van. Aki nem hiszi, gyártson magának valami levelező programból.)

vcf.awk:

BEGIN { FS=":" ORS="" } /^EMAIL/ {sub(/\r$/,"");print $2 ", "} /^FN/ {print $2 "\n"}Bocs, nem szokásom váratlanul új függvényeket bevezetni, de az a sub() függvény, ami egyszerű cserét csinál, muszáj volt. Ugyanis az Evolution olyan .vcf-et ment, ami DOS-os formátumú, és ezen úrrá kellett lenni. Ha a .vcf fájl UNIXos, akkor nincs szükség a sub()-ra. A lényeg tehát, hogy azokkal a sorokkal foglalkozunk, amelyekben szerepel a sor elején az EMAIL vagy a FN sztring. Az elválasztójel a fájlon belül a kettőspont, ezt a fájl elején az FS paraméterben megadtuk. Az ORS biztosítja, hogy ne legyen akadály, hogy együvé tartozó adatok külön sorban vannak. Még annyit, hogy ha egy rekordból hiányzik az EMAIL vagy az FN mező, illetve ezek sorrendje megváltozik, akkor az egész csúnyán fejreáll - így éjfél felé nincs esésem egy fullos példával előrukkolni. De azt hiszem, a lényeg, a hihetetlen rugalmasság valamint a teljesen elcseszett szintaxis érzete átjött nektek is! :-))

Facebook Tumblr Tweet Pinterest Tetszik

8 komment

Címkék: linux alkalmazások awk parancssor

A bejegyzés trackback címe:

https://bagojur.blog.hu/api/trackback/id/tr64894041

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

csarlee 2009.01.26. 10:39:17

Bagoj Ur!

Emelem kalapom elotted! Ez egy nagyon jo munka, gratulalok!

Csarlee

Válasz erre

bagoj ur 2009.02.02. 08:09:21

Köszönöm szépen! :-)

Válasz erre

Psycho Dad 2009.02.14. 01:36:58

Először is köszi az írást!

Lenne egy olyan kérdésem, hogy adott egy avidemux-os job file+egy sorozat, ami mondjuk 20 részes, a fájlnevek következetesen valami01.avi, valami02.avi stb., a job fájlban az első rész átkonvertálásához szükséges adatok vannak, ugyanezekkel akarom megcsinálni a többi 19 részt is.
Hogyan oldható meg(esetleg épp awk-val), hogy a job fájlban átírja az avi(valami02.avi) és a kimeneti fájl nevét(akármi02.avi)nevét , növelve eggyel a számot, majd ezt elmenti egy új job fájlba, más néven, ezt is lehet egyszerűen számozással változtatni.
nano-val sem tart sokból átírogatni+menteni, de scripttel csak kényelmesebb lenne. :)

Válasz erre

bagoj ur 2009.02.14. 11:41:11

@NoBe: Szia! Nem tűnik nehéznek a feladat, sokféleképp megoldható. Egyszerűen beolvasod egy változóba a job fájl tartalmát

#!/bin/bash
JOBFILE=$(cat jobfile.txt)

, majd mindig cserélgeted a fájlneveket - ezt nem tudom most leírni mert függ attól, mi van a fájlban. Ha elküldöd vagy kiteszed valahová a job fájlt, akkor szívesen foglalkozom vele, megér egy postot.

Utánanéztem ennek az avidemux-nek és azt írják, hogy önmagában is szkriptelhető. Ezen az oldalon a példa avi fájlokat dolgoz fel. Nem mélyedtem bele, de azt látom hogy a "complete script" végén a processFile függvényben lehet a feldolgozási paramétereket állítgatni.

avidemux.org/admWiki/index.php?title=Scripting_tutorial

Ha Te sem szeretnél ennyire beleugrani, akkor ha tudom pontosan hogy néz ki a job file, megoldjuk pillanatok alatt.

Válasz erre

Psycho Dad 2009.02.14. 12:25:01

A scriptelési lehetőséget ismerem, csak ahhoz ritkán van rá szükségem, hogy ennyire belemenjek, így egyszerűbb volt manuálisan megoldani.

Valóban nem lenne nehéz feladat, csak az ilyen awk,sed programokkal soha nem voltam jóban, lua-ban még szerintem menne is, ott jobban tudom hogyan kell az ilyen típusú feladatokat megoldani, de bash-el nem túl sokat foglalkoztam.

[url=pastebin.com/m28e46160]Ide[/url] felraktam a job file-t, a hosszú sorokat sajna automatikusan tördelte, de azért talán így is átlátható.

Előre is köszönöm a segítséged!

Válasz erre

Psycho Dad 2009.02.14. 12:28:01

Sorry a linkért, nem tudtam, hogy a blog.hu milyen formában eszi meg, de akkor így tuti nem. :)

Válasz erre

bagoj ur 2009.02.17. 15:59:52

@NoBe: megvan a link, semmi gond, csak nem tudom, mikor tudok ránézni. Iszonyat nagy a hajtás most a melóhelyen. Ha mindenképp awk-val akarod csinálni, az nehéz mert az awk egyszerre egy fájllal tud csak foglalkozni. De azt megteheted, hogy a BEGIN blokkban az ORF-et ""-re veszed, az FS-t "/"-re, aztán a fő blokkban csinálsz egy regex match-et az app.load és app.save sorokra és ott cseréled ki az utolsó elem értékét sub() függvénnyel (az utolsó elem mindig a $NF-ben van). És még csinálsz egy harmadik regexpet ami az összes többi sorra illeszkedik és csak egy print van benne.

Namost ez szerintem elég bonyolult ahhoz képest, hogy csak egyetlen cserét tudsz végrehajtani. Inkább bash-t kellene használni, és végigmenni egy adott sorozaton és úgy generálni egy alap fájlból. Ezt megcsinálom szívesen, ha lesz legalább annyi időm hogy feladjam a csekkjeimet... :-)

Válasz erre

Psycho Dad 2009.02.17. 18:13:23

Na ez nekem kínai volt. :)

Hagyd a fenébe, ha nagyon fontos lenne akkor valahogy összehoznám magamnak, de tényleg nem túl sűrűn használnám, csak kíváncsi voltam mennyire lenne bonyolult megcsinálni, ez viszont már kiderült az eddigiekből. :)

Felejtsd el, inkább írj új cikkeket mindenki örömére. ;)

Köszi a válaszokat!

Válasz erre

HTML

Bagoj úr blogja

Keresés

Rovatok

Top 9

Friss topikok

Blogajánló

Archívum

Egyéb

Ronda, de hatékony - awk

2009.01.21. 23:32 bagoj ur

8 komment

Címkék: linux alkalmazások awk parancssor

A bejegyzés trackback címe:

Kommentek:

csarlee 2009.01.26. 10:39:17

bagoj ur 2009.02.02. 08:09:21

Psycho Dad 2009.02.14. 01:36:58

bagoj ur 2009.02.14. 11:41:11

Psycho Dad 2009.02.14. 12:25:01

Psycho Dad 2009.02.14. 12:28:01

bagoj ur 2009.02.17. 15:59:52

Psycho Dad 2009.02.17. 18:13:23

HTML

Bagoj úr blogja

Keresés

Rovatok

Top 9

Friss topikok

Blogajánló

Archívum

Egyéb

2009.01.21. 23:32 bagoj ur

Címkék: linux alkalmazások awk parancssor

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: