piątek, 23 maja 2014

Jak opisać głośność? Wartości peak, RMS, DR i LUFS

W tym poście nie obędzie się bez kawałka teorii. Mniej zainteresowanych szczegółami cyfrowej dziedziny audio oraz wtajemniczonych odsyłam od razu do punktu Wartość DR.


Wartość peak

Już w ostatnim materiale wideo można było zauważyć, że wartość peak nijak ma się do głośności muzyki. Wielkość ta, nazywana wartością szczytową, opisuje maksymalną wartość sygnału. Zwiększanie 'szczytów' ma jednak swoją granicę - w dziedzinie cyfrowej jest to 0 dB FS (Full Scale)*. Próba przekroczenia tej granicy kończy się przesterowaniem sygnału, zwanym inaczej clippingiem**. Sygnały mające taką samą wartość peak mogą mieć różne głośności i odwrotnie - utwory mające różne wartości szczytowe mogą być tak samo głośne. Wynika z tego, że wartość peak nie nadaje się do opisu głośności.

Clipping objawiający się charakterystycznym 'płaskim szczytem' fali

Wartość RMS

Potocznie na RMS mówi się 'wartość średnia' i mimo że nie jest to fizycznie poprawne, dobrze intuicyjnie oddaje sens tej wielkości***. Po obejrzeniu poprzednich materiałów video można zauważyć, że RMS dużo lepiej koreluje z głośnością. Ma jednak jedną wadę - z definicji nie uwzględnia tego, jak człowiek percypuje dźwięki (np. krzywe równej głośności z poprzedniego wpisu).

Wartość DR

Tym 'wskaźnikiem' posługiwałem się także przy poprzednich materiałach demonstracyjnych (link). Wartość DR (Dynamic Range) jest to różnica pomiędzy wartością peak, a wartością RMS liczoną z 20% najgłośniejszej części utworu. Dlaczego tak chętnie posługuję się tą wartością? Ponieważ jest świetnym wskaźnikiem jak bardzo dany utwór został skompresowany i 'zlimitowany' w procesie masteringu. Im większa wartość DR tym większa różnica między wartością peak a RMS, tym 'cichszy' oraz bardziej dynamiczny materiał.
Program liczący wartości DR można za darmo pobrać tutaj (należy przescrollować w dół; program dostępny także jako wtyczka do odtwarzacza foobar2000).

Wynik skanowania utworu Telegraph Road zespołu Dire Straits przez wtyczkę Dynamic Range Meter w programie foobar2000


Kolejną ogromną zaletą tego wskaźnika jest dostępna przez internet baza danych (tworzona przez zwykłych słuchaczy) z wartościami DR dla konkretnych albumów - link. W ten sposób można wstępnie sprawdzić jakość płyty zanim się ją kupi. Warto też zwrócić uwagę na niektóre wydania "REMASTERED", które z reguły mają dużo niższe wartości DR niż oryginały.

Wartości DR dla płyty Master of Puppets, oryginał DR12, wersja remastered DR8-9


Jaka wartość DR zapewnia dobrze brzmiący album? Oczywiście nie jest to takie proste. Brzmienie to nie tylko dynamika, czy różnica wartości peak i RMS, to znacznie więcej. Zwłaszcza, że wartość DR obliczana jest dla 20% najgłośniejszego fragmentu utworu (80% może być dużo bardziej dynamiczne). Jednak z dużą dozą prawdopodobieństwa można powiedzieć, że płyta DR6 będzie miała już charakterystyczne dla nowych płyt ostre i płaskie brzmienie; DR5 będzie już mocno zniekształcona i przesterowana, natomiast DR4 i mniej - lepiej nie kupować.
Podsumowując Dynamic Range jest świetną miarą skompresowania materiału, lecz nie daje informacji o głośności - ten sam materiał audio ściszony o 5 dB będzie miał dokładnie taką samą wartość DR (o 5 dB zmniejszy się zarówno wartość peak jak i RMS, a więc ich różnica się nie zmieni).

LUFS

Najnowszym i najlepiej oddającym głośność wskaźnikiem jest LUFS (Loudness Unit Full Scale) wprowadzony już w Stanach Zjednoczonych do wyrównania głośności materiałów pojawiających się w telewizji (ludzie skarżyli się na większą głośność reklam od programów i filmów). Bierze on pod uwagę psychoakustyczne czynniki wpływających na ocenę głośności. Po analizie danego materiału dźwiękowego program dopisuje do niego informację o tym o ile dB należy ten materiał ściszyć aby miał głośność równą -23 LUFS (dla telewizji w Stanach Zjednoczonych).

Czy w obliczu wprowadzenia takich norm w USA wojna głośności nadal ma jakikolwiek sens? Jak w prosty sposób wyrównać głośność odtwarzanej muzyki na swoim komputerze? O tym już w następnym wpisie.

* Skala dB FS jest ujemna, od minus nieskończoności aż do 0. Zakodować dodatnie wartości można tylko przy użyciu formatu 32-bit floating point używanego obecnie przez większość programów do obróbki dźwięku. Jednakże jakość płytowa 16 bit nie pozwala przekroczyć 0 dB FS.

** Clipping prowadzi do powstania znacznych zniekształceń w sygnale, więcej o clippingu już wkrótce.

*** RMS to inaczej wartość skuteczna; jest to amplituda sygnału stałego w czasie, który ma taką samą moc jak sygnał zmienny. Wzór na wartość skuteczną sygnału x w czasie T:

sobota, 10 maja 2014

Fizyczne podstawy wojny głośności

Gdy zaczynałem zajmować się nagraniami oraz miksem materiału, w kółko spotykałem się z jednym problemem. Po wielu godzinach spędzonych przed komputerem brzmienie wreszcie zaczynało mi się podobać. Do czasu aż porównałem swój wyprodukowany utwór z komercyjnym wydawnictwem. Wtedy moje dzieło wydawało się marne, zupełnie pozbawione mocy, podczas gdy ten drugi utwór był nasycony, potężny i ciężki. Poza tym wydawał się też być głośniejszy, często nawet dużo głośniejszy. Nie zdawałem sobie sprawy, że te dwie kwestie mogą się łączyć.

Głośność to wrażenie słuchowe, które pozwala nam uszeregować dźwięki od najcichszych do najgłośniejszych. Jednostką głośności jest son. Jednak zdecydowanie częściej aby opisać głośność wykorzystuje się decybele SPL (Sound Pressure Level), które zupełnie się do tego nie nadają!* Już wyjaśniam dlaczego.

W 1933 roku Fletcher i Munson opublikowali eksperymentalne krzywe równej głośności. Wynika z nich, że dla takiego samego poziomu ciśnienia akustycznego (w dB SPL) dźwięki o różnej częstotliwości nie są tak samo głośne.

Źródło: Moore, Brian C., Hearing
Jak zinterpretować ten wykres? Liniami połączone są wartości ciśnienia akustycznego dla różnych częstotliwości tonu dające takie same wrażenie głośności. Wielkość przedstawioną na wykresie nazywa się poziomem głośności. Jednostką jest fon, a wartość jest opisana liczbą znajdującą się nad każdą z krzywych.

Na początek weźmy najniższą krzywą oznaczoną MAF. Jest to tak zwana krzywa progowa. Przedstawia ona poziom ciśnienia akustycznego przy którym ludzki słuch zaczyna słyszeć dźwięk. Jak widać zależy to od częstotliwości. Na przykład dla tonu o częstotliwości 1000 Hz wystarczy aby dźwięk miał 0 dB, a już można go usłyszeć**, podczas gdy ton o częstotliwości 100 Hz usłyszymy dopiero przy poziomie około 20 dB SPL. Inaczej patrząc na ten wykres można zauważyć, że dla poziomu 50 dB SPL ton o częstotliwości 50 Hz zaczyna być słyszalny, a ton o tym samym poziomie 50 dB SPL i częstotliwości 2 kHz jest już dość głośny.

Z powyższego wykresu wynika jeszcze jedna bardzo ważna konsekwencja. Krzywe równej głośności (izofony) są gęściej upakowane dla niskich częstotliwości niż dla środka pasma. Podobnie ma się rzecz z wysokimi częstotliwościami***. Widać, że dla 20 Hz zmiana poziomu o 10 dB powoduje 'przeskoczenie' o 3 izofony w górę. Dla tonu 1 kHz jest to zmiana o jedną krzywą w górę. Zakładając, że każda kolejna izofona daje podwojenie głośności, dla wspomnianej zmiany 10 dB głośność tonu 1 kHz podwaja się, a tonu 20 Hz wzrasta ośmiokrotnie! Właśnie ten fakt odpowiada za wspominany już "bonus głośnościowy" i jest przyczyną wojny głośności.

Z powyższej właściwości słuchu wynikają dwie konsekwencje:

1) Gdy odsłuchamy tego samego utworu dla dwóch różnych poziomów zawsze ten głośniejszy wyda nam się lepszy - będzie zawierał więcej dołu oraz góry pasma. Wyda nam się zatem cięższy i mocniejszy (niskie częstotliwości) a zarazem czytelniejszy i bardziej 'otwarty' (wysokie częstotliwości).

2) Każdego porównania brzmieniowego musimy dokonywać dla równych głośności. W przeciwnym razie sam fakt odsłuchu na różnych głośnościach wpływa na odczuwaną przez nas różnicę w brzmieniu. Aby przekonać się o tym na własnej skórze zapraszam do obejrzenia materiału wideo:


W następnym poście przedstawię jak w prosty sposób wyrównać głośności odsłuchiwanej muzyki z komputera, różne próby opisania głośności (wartości RMS, DR, LUFS) oraz napiszę więcej o negatywnych skutkach zwiększania głośności materiału.


* Z tego powodu wprowadzono wielkość zwaną poziomem dźwięku LpA (jednostka dB A), która zawiera w sobie tzw. korektę A. Dzięki temu poziom dźwięku dużo lepiej opisuje głośność i jest powszechnie wykorzystywany w normach dotyczących hałasu na całym świecie (choć nie jest idealny).

** Poziom ciśnienia akustycznego wyraża się wzorem:
zatem dla braku dźwięku (p(t) = 0) Lp jest równe minus nieskończoności, a nie 0 dB SPL! Poziom 0 dB SPL odpowiada ciśnieniu akustycznemu równemu  p0  (2 * 10-5 Pa).


*** "Aktualniejsze" krzywe równej głośności

niedziela, 4 maja 2014

Dlaczego jazz ma większego 'kopa' niż metal na Spotify / iTunes?

Witam serdecznie na blogu "Usłysz różnicę"! Zapraszam do częstego odwiedzania tej strony, na której pojawiać się będą ciekawe informacje dotyczące muzyki zarówno od strony estetycznej jak i fizycznej. Ale teraz do rzeczy.

Jakiś czas temu przeskakując pomiędzy utworami na serwisie Spotify zauważyłem dziwną, wręcz nielogiczną sytuację. Po kilku utworach jazzowych zdecydowałem posłuchać czegoś ostrzejszego. Wielkie było moje rozczarowanie gdy okazało się, że 'metalowy' utwór, którego chciałem posłuchać, okazał się totalnie płaski i pozbawiony życia w porównaniu do brzmienia poprzednich słuchanych przeze mnie piosenek! Poniżej zamieszczam przykład ilustrujący tę sytuację. Proszę wsłuchać się w perkusję, zwłaszcza w 'stopę' i werbel:

Uwaga: dla najlepszego brzmienia dźwięku na Youtube proszę wybrać jakość HD 1080p.


Przyczyna tego dziwnego efektu jest dość prosta, choć wyjaśnienie jej już tak banalne nie jest i zajmie zapewne kilka postów.

Okazuje się, że za utratą 'kopa', uderzenia czy 'mocy' nagrań stoi tak zwana wojna głośności. W dużym skrócie polega ona na tym, że głośność płyt stopniowo ulegała zwiększeniu, ponieważ 'głośniejsze brzmi lepiej'*. Zapewne wiele osób zauważyło, że wkładając do odtwarzacza płytę z lat 80-90 gałkę głośności musimy podkręcić.
Co złego w tym, że płyty są głośniejsze? Dopóki nie tracimy na jakości dźwięku - nic, lecz ta granica już dawno została przekroczona. Zapraszam do obejrzenia krótkiego materiału prezentującego rozwój wojny głośności oraz jej najpopularniejszą ofiarę. Filmik przedstawia krótkie fragmenty utworów zespołu Metallica z wybranych płyt.

(czym jest DR wyjaśnię wkrótce)

Łatwo zauważyć, że głośniejsze utwory brzmią potężniej, mocniej, lepiej (choć w kwestii płyty Death Magnetic niektórzy mogą się nie zgodzić z tym stwierdzeniem i mają dużo racji). Krótko mówiąc, muzyka wydaje się lepsza z samego faktu, że jest głośniejsza. Nazwę to zjawisko "bonusem głośnościowym".

Spotify oraz iTunes wykorzystują algorytmy służące do obliczenia głośności poszczególnych albumów muzycznych**. Dzięki temu odsłuchujemy utwory na takiej samej głośności, a "bonus głośnościowy" zostaje wyeliminowany. Okazuje się, że w takiej sytuacji jesteśmy w stanie usłyszeć negatywny wpływ procesorów mających na celu zwiększenie głośności materiału muzycznego! Objawia się to najczęściej 'spłaszczeniem' brzmienia, utratą 'uderzenia' oraz zmniejszeniem ilości basu w materiale.

Odpowiedź na pytanie postawione w tym poście brzmi zatem następująco: wojna głośności w większym stopniu wpłynęła na brzmienie płyt zespołów rockowych i metalowych niż na jazz. Dlaczego? Skąd ta pogoń za głośnością? Czy głośniejsze faktycznie brzmi lepiej? Jakie zabiegi stosuje się w celu zwiększenia głośności? O tym już niebawem.

* - wyjaśnienie w kolejnych postach,
** - o tym dlaczego albumów a nie pojedynczych utworów oraz czy to naprawdę jest takie trudne w kolejnych postach.