Viszlát, FLAC!

Veszteségmentes vagy pszichoakusztikus tömörítés? Megvizsgáltam a kódolási veszteségeket. – írta: szaszlaci, 4 éve

Magasabb minőség

Ami a nagyobb információ-tartalmú anyagokat illeti, ez egy 352,8 kHz mintavételezésű, 32 bitmélységű, 6924 kbps-os, óránként 3 GB-ot kitevő zenerészlet. Mivel itt olyan sűrű a mintavételezés, hogy a nagyítás miatt már alig látszik amplitúdó-változás, ezért a második összehasonlítás 14 dB-es erősítés után történt meg, ami közel harmincszoros hangnyomás.

Ha lenne is eltérés – de nincs – magashangszóró legyen a talpán, amelyik 176 kHz-ig megszólal érdemben.
A most következő egy direkt audiofil benchmarkolásra való, 96 kHz mintavételezésű hanganyag elejének spektro képe, ami egészen 48 kHz-ig tartalmaz megszólaltatott részeket. Csengettyűkkel, rézfúvósokkal, dob aljára szerelt rugóval, minden, ami kell ahhoz, hogy kevés lehessen a 320 kbps.
Középen a veszteség látható, miután 24 kHz felső határfrekvenciájú fájlba alakítottam. Alul pedig az, hogy az MP3 a maradék 20 kHz feletti részt vette le, ezen kívül a változás lényegtelen.

Eugène Bozza: Children's Overture

Ugyan ez megnézhető három különböző bitráta esetén is. Látszik, hogy a felsőnél már van érdemi veszteség, és a kritikus pont a két alsó között húzódik.

Ha már alacsony bitráta, az érdekesség kedvéért nézzük meg, mi a helyzet a hullámformával.

Ezek szerint még a 85 kbps / 22 kHz VBR, 11 kHz fölött eldobva mindent sem mutat nagy eltérést.
Ez hanganyagtól függ, alább látható, hogy néz ki, amikor rosszul szól a VBR 85 kbps, mert kevés a rendelkezésre álló hely minden összetevő eltárolására.

Nézzük azt is meg, hogy az irreálisan sok újrakódolás mennyit változtat.
Egymás után tízszer konvertáltam MP3 - WAV - MP3 - WAV - ... között.
A második eset MP3 - MP3 - MP3 - ...
Végül WAV - WAV - WAV - ...

Ahogy várható volt, az MP3 mindig újraértékelt módszere okozni fog valamilyen – meglepően csekély – eltérést. A spektrogramon viszont látszik, hogy ezek az eltérések valóban hibák, kiegyenlítetlenül kiterjedve az egészre. Míg az azonosan konfigurált WAV fix rendszerében – jelen esetben – valójában nem történt konverzió, csak másolás, ezért különbség sem lett.

Visszatérve gyakorlatibb esetekhez, vizsgálni kell, hogy érinti a kis amplitúdójú anyagot a kódolás. Ez egy igen halk mikrofonos felvétel, nem az a fajta, amivel demózni szokták a hangrendszereket. Valójában csekély, de a hangerejéhez képest jelentősebb háttérzajjal, aminek meg kell maradnia.

Ami az MP3 kódolását illeti, úgy tudom, az nem érinti a forrásanyag dinamikatartományát, ezen kívül pedig nincs fixen kiosztva úgy, mint egy pl. lineárisan kvantált WAV fájlnál.
Ez az arány halkabb jelnél is hasonló marad, így az SNR érték ilyenkor sem változik, szemben a PCM információt tartalmazó WAV és FLAC fájllal. Vagyis ha halkul vagy halk a zene, akkor az alapzaj is halkabb lesz. Igaz, itt nem sercegő háttérzajra kell gondolni, gyakorlati felhasználás mellett a kvantálás határait érintő alapzajt észrevenni nem lehet egyik kódolásnál sem.
Az audio CD 16 bitének elméleti 96 dB-es maximuma is nagyon magas, MP3 esetén pedig a gyakorlatban 150 dB vagy az feletti értékeket emlegetnek, ami sokkal-sokkal több, mint amit a fül átfogni képes.

Sok a duma. Halljuk azt a nem létező eltérést!
Az eredeti 96 kHz-es hanganyagot, és az ebből létrehozott 320 kbps MP3 információit kivontam egymásból.

Meghallgatható, amikor az eredeti és a különbségi sáv között kapcsolgatok.

Ennek a különbségnek a hangereje 27 dB-lel alacsonyabb, mint a zene. Ez 512-szeres szubjektív hangerő eltérést jelent, azaz ennyied magasságú amplitúdót. Fél ezrelék, és nem is érinti a teljes frekvenciatartományt. Annyi, mintha az equalizer néhány állítóját 0,0059 dB-nyit lejjebb húznánk.
15 dB-nél volt az a határ, ahol nagyon fülelve még meghallottam a zene alatt azt, hogy ki-be kapcsolom ezt a különbségi sávot. Ez a 15 dB 32-szeres hangteljesítménybeli eltérés, nem pedig 512-szeres.

Észre nem vehetőségének oka az elfedési jelenség. Vagyis egy nagyobb hangerő esetén – ami maga a zene – csökken a fül érzékenysége a többi frekvencián is, így ezt a hanganyaggal abszolút szinkronban lévő hiányt meghallani nem lehet.
Aki nem hiszi, tölthető és meg is hallgatható a FLAC fájl, ahol ezt a különbségi sávot másodpercenként tízszer kapcsolom ki-be, négyszögjellel. Ezzel egy igen kellemetlen, az eredetinél sokkal feltűnőbb, kattogó zajt adva hozzá. A hangerő olyan kicsi, hogy még így sem érzékelhető. A rögzítésre került háttérzaj igen, de ez nem.

A cikk még nem ért véget, kérlek, lapozz!