INTRODUCCIÓN

Las curvas de evolución de energía-tiempo (ETC) son una herramienta muy útil a la hora de comparar el comportamiento dinámico de dos versiones de una misma grabación musical que se diferencien en el formato en el que se presentan (CD, SACD, vinilo, etc...) o en haber sido obtenidas en procesos de remastering distintos. Además, en caso de apreciarse diferencias entre dos ETC de una misma grabación, la información que contienen es un buen punto de partida para estudiar a que se deben cualitativamente e incluso, con cierto margen de precisión, cuantitativamente. A continuación vamos a describir el procedimiento de obtención de ETCs y los métodos de análisis que permiten encauzar un estudio comparado.

 

CURVAS ENERGÍA-TIEMPO (ETC). DEFINICIÓN Y CÁLCULO

Para comprender que significa una ETC veamos en una gráfica como está almacenada en digital la información de una señal musical.


Figura 1. Representación gráfica de una pista de audio (un solo canal).


En la figura 1 se muestra la representación amplitud vs. tiempo para un intervalo de tiempo determinado de un canal de una grabación típica en CD. Los puntos son la información tal cual está almacenada en el CD (formato PCM) y su separación temporal es la que corresponde a la frecuencia de muestreo de la señal, 44100 puntos cada segundo en este caso. Dado que vemos representada una centesima de segundo sabemos que tenemos 441 puntos en la gráfica. Sobre estos puntos, y mediante alguna de las diversas técnicas existentes, los DAC (de un reproductor de CD, de una tarjeta de sonido, etc) recomponen la señal analógica, resultando ser semejante a la linea que une los puntos del gráfico de la figura 1. Como el valor máximo de la señal realmente es relativo, lo hemos normalizado a 1.0.

Cuando lo que queremos analizar es la energía dinámica, los valores negativos carecen de sentido, siendo los valores al cuadrado una buena representación de la energía instantanea contenida en la señal músical (figura 2). Para entenderlo en términos menos matemáticos y más reales: al reproducir el CD donde se almacena la señal de la figura 1, la tensión de salida analógica de la fuente va a ser proporcional a los valores de la señal, pero la energía transmitida va a ser proporcional al cuadrado de esta tensión, o lo que es lo mismo, al cuadrado de los valores de la citada curva. Algo análogo ocurre para los altavoces, donde el desplazamiento del cono es proporcional a la señal, pero la energía a transmitir necesaria para este movimiento resulta ser proporcional al cuadrado de este desplazamiento.



Figura 2.
Representación gráfica de la energía instantanea (en términos relativos) de la señal de la Figura 1.

La enegía instantanea no es un valor muy manejable para análisis dinámicos, siendo mas útil conocer el nivel energético promedio en intervalos arbitrarios dados. Una analogía podemos verla en la factura de la electricidad consumida en nuestros hogares, donde suele aparecer una gráfica con el consumo promediado para diferentes periodos (un mes, dos meses) de forma que podemos comparar, por ejemplo, cuando consumimos más, cuanta es la dispersión anual del consumo o cual ha sido el ahorro de algún cambio de electrodoméstico que hayamos realizado. En el caso que nos ocupa, con señales de audio, el primer paso para nuestro cálculo consistirá en dividir la pista en "pedazos" (ventanas, intervalos) sobre los que se calcule la energía promedio (RMS). Estos pedazos pueden estar uno a continuación de otro o solaparse, siendo este solapamiento (de 0 a menos del 100%) lo que vamos a denominar el "paso" o "salto" entre ventanas.

Supongamos que queremos cálcular, para la señal de la figura 1, el nivel energético promedio para intervalos de una duración de 50 ms (un ciclo de onda completo de un tono de 20 Hz) sin solapar. Dicho cálculo consistirá en sumar los cuadrados de los valores de amplitud (44100 puntos por cada segundo en este caso, luego sumariamos un total de 2205 puntos en 50 ms) y dividir esta suma entre el total de puntos sumados. El resultado es la energía RMS de esta señal en esta ventana, definida según esta ecuación.


En la figura 3 aparece el resultado para el caso que nos ocupa, donde la línea de puntos de la señal original, al oscilar muy rápidamente, se ha convertido en una región sombreada en rojo. No es raro preguntarse por qué salen valores promedio tan bajos cuando vemos que los picos instantáneos llegan muy arriba. Esto es porque la figura 3 no representa correctamente la señal de audio (algo que también les ocurre a las figuras 1 y 2). Y no es correcta porque estamos viendo los valores de amplitud en escala lineal. Si los representamos en escala logarítmica comprobaremos lo verosimil del promediado (figura 4).


Figura 3. Comparación entre la energía instantánea y su promedio a intervalos de 50 ms.


Figura 4. Representación análoga a la figura 3 pero en escala logarítmica de amplitud.


De la figura 4 se puede extraer la escala en decibelios de forma inmediata, puesto que cada división por 10 equivale a 10 decibelios menos, siendo 1, el máximo de señal representable, el equivalente a 0 dB-FS (Full Scale, que es la escala habitual en señal digital). Para los despistados: de la ecuación anterior se puede pasar a decibelios mediante la fórmula habitual:



La influencia del tamaño de la ventana de tiempo se muestra en la figura 5, donde se compara la integración a 50 ms y a 12 ms. Se puede apreciar que los valores son muy próximos, salvo en los momentos muy dinámicos, aquellos en los que la señal sube y cae rápidamente o viceversa. Por ejemplo, pasados los 60.7 segundos hay una caida de nivel que se aprecia mejor con una ventana de 12 ms que con una de 50 ms. No obstante, con ventanas de tiempo tan pequeñas no se llega a incluir un ciclo completo de onda en las frecuencias más graves. Es decir, que en ciertos casos puede que no se llegue a representar fielmente como se emiten enérgeticamente los graves. La decisión final del tamaño de ventana será siempre una de compromiso entre captar lo mejor posible la energía de los graves o el detalle dinámico de la señal.


Figura 5. Comparación entre dos ETC con ventanas de tiempo distintas.


Pues bien, los dos histogramas de la figura 5 son precisamente dos curvas de energía-tiempo (ETC)[ver nota al pie de página]. Es decir, una ETC es una representación de la evolución temporal de la energía promedio de la señal a intervalos arbitrarios dados. Basta con pasar de histogramas a una representación en lineas y nos aparece la gráfica de ETC habitual, como la de la figura 6.


 Figura 6. Repesentación gráfica de dos ETC de una misma señal audio con ventanas de tiempo distintas.


REALIZACIÓN DE ANÁLISIS DINÁMICO MEDIANTE LA REPRESENTACIÓN DINÁMICA COMPARADA.

Ya hemos descrito como obtener una ETC y cuales son sus parámetros de cálculo. A continuación vamos a ir describiendo situaciones en las que se dan diferentes tratamientos sobre la señal de audio y para las cuales estas curvas pueden ser de gran utilidad. Además deduciremos cuales son los efectos que ciertos tratamientos dinámicos tienen sobre las ETC. Finalmente con todo ello se diseñará un método que, por comparación de estas curvas, permita conocer si un tratamiento dinámico es el causante de presumibles diferencias sonoras que pueda haber entre dos versiones de una misma grabación.

¿Qué ocurriría si comparasemos dos pistas que se diferencien únicamente en que una presenta un nivel menor que la otra? Pues estariamos ante dos ETC que discurrirían paralelas, como se puede apreciar en el ejemplo de la figura 7.


Figura 7. Curvas ETC de una misma grabación con una de ellas atenuada en 6 dB.

Una gráfica que permite apreciar claramente este efecto (e incluso cuantificarlo) es el de la representación dinámica comparada. Consiste en mostrar los emparejamientos de puntos formados por los valores Erms de cada pista en los mismos instantes. En el caso de nuestro ejemplo la representación obtenida se presenta en la figura 8.


Figura 8. Representación dinámica comparada de una señal (eje X) vs. su atenuación en 6 dB (eje Y).


La diagonal f(x)=x, que está dibujada a efectos de referencia, sería la linea de puntos equidinámicos (aquellos que están en el mismo instante al mismo nivel para las dos grabaciones). Un ajuste por regresión lineal de los puntos representados en la figura 8 resulta ser una recta que pasa por todos los puntos y que corresponde a f(x)=x-6. Es decir, no hay tratamiento dinámico (compresión o expansión) pero si hay una atenuación constante (6 dB). Como puede verse, la representación dinámica comparada nos permite descubrir con facilidad cual es el origen de la diferencia que se aprecia entre las curvas ETC de la figura 7. En especial, el ajuste por regresión lineal de los puntos de esta representación es de gran ayuda para entender cuantitativamente el tipo de tratamiento aplicado.

Otro ejemplo interesante es analizar la representación dinámica comparada en un caso de diferencias debidas a compresión de nivel. Para ello hemos tomado nuestra pista audio de trabajo y mediante el efecto "compressor" de audacity la hemos comprimido desde un umbral de -30 dB, con una razón 1.5:1 y con un tiempo de ataque de 0.1 s. Posteriormente se ha amplificado la señal con una ganancia de 25.5 dB, para dejar su valor máximo a -2.1 dB-FS. El resultado es el que se muestra en la figura 9.


Figura 9. Representación dinámica comparada en el caso de tratamiento por compresión con ratio 1.5.1.


El ajuste resultante es f(x)= 0.429*x-13.806. La pendiente indica lo agresivo de la compresión, siendo más suave cuanto más cerca está la pendiente de la unidad. Si la pendiente es mayor de uno, estaríamos ante una expansión dinámica. Otro ejemplo de la relación entre la pendiente de la regresión lineal y la razón de la compresión dinámica aplicada se muestra en la figura 10 para una compresión de factor 2.5:1, con el resto de parámetros iguales.




Figura 10.
Representación dinámica comparada en el caso de tratamiento por compresión con ratio 2.5:1.

Aquí el ajuste estadístico ha sido f(x)=0.657*x-6.708. Podemos comprobar que para el caso del efecto "compressor" de audacity la pendiente del ajuste lineal está en relación con la razón de compresión aplicada, siendo la ecuación que los relaciona:




Un aspecto importante en este tipo de representaciones de efectos dinámicos (compresión, expansión) es que los puntos ya no están sobre una recta, pese a que provengan de un mismo original, sino que los vemos dispersos en torno al ajuste por regresión lineal. Esto se debe a dos parámetros de uso habitual en tratamientos dinámicos:

El uso habitual de estos parámetros es el causante de que se genere una "nube de puntos", teniendo en cuenta además que a mayores tiempos de ataque y liberación aplicados, mayores serán las dispersiones. Ambos provocan que haya momentos en los que la relación dinámica entre puntos no sea ni la original ni la modificada, sino que esté en un punto no relacionado directamente con la energía de la señal en ese instante sino con su "historia". Algo que escapa cuantitativamente del alcance de este tipo de análisis. Pero cualitativamente el efecto de estos tiempos se puede apreciar en la figura 11, donde se muestra el resultado de una compresión análoga a la de la figura 9 salvo en el incremento del tiempo de ataque que pasa de 0.1 a 0.5 segundos.


Figura 11. Representación dinámica comparada en el caso de tratamiento por compresión con un tiempo de ataque de 0.5 s.


En el caso de la figura 11, el ajuste por regresión lineal que se obtiene es f(x)=0.470*x-22.264. Comprobamos que sigue manteniendose la pendiente semejante a la del caso de la figura 9, lo cual concuerda con el hecho de que se haya aplicado la misma razón de compresión. La desviación entre una y otra pendiente se debe a que el cambio de los tiempos de ataque modifica, aunque sea ligeramente, la compresión de nivel efectiva aplicada.

En resumen: la representación dinámica comparada de las curvas ETC permite averiguar con razonable certeza si dinámicamente dos variantes de una misma grabación son semejantes o, en caso contrario, cual es la diferencia de tratamiento dinámico entre ellas. Pero hasta ahora solo hemos visto el caso de tratamientos en toda la banda de frecuencias del señal. Ahora entraremos en cómo abordar el estudio de estos cambios dinámicos en solo una zona determinada de espectro de frecuencias.



APLICACIÓN DE FILTROS FIR PASA-BANDA AL CÁLCULO DE CURVAS ENERGÍA-TIEMPO (ETC).

Una variante muy útil de las ETC es su cálculo sobre una señal filtrada en frecuencia: paso alto, paso bajo o paso banda. Una posterior representación dinámica comparada de este cálculo permitiría distinguir si el tratamiento dinámico o la ecualización se ha concentrado precisamente en la banda de frecuencias del filtro. Un ejemplo podemos verlo en la figura 12, donde se comparan dos muestras de sonido que se diferencian en que una de ellas ha sido tratada con el efecto ecualizador de 10 bandas de audacity con una ganancia de +6 dB centrada en 4 KHz.



Figura 12.
Representación dinámica comparada en el caso de ecualización de +6 dB a 4 KHz.

El ajuste por regresión lineal se encuentra practicamente sobre la diagonal equidinámica, por lo que podríamos pensar que la dispersión puede deberse a algún efecto aleatorio y ahora no es tan sencillo detectar esta ecualización efectuada. Tampoco la ganancia de 0.6 dB obtenida en el ajuste por regresión resulta representativa de lo que realmente ha ocurrido. Podemos concluir que al analizarse dinámicamente todo el ancho de banda este tipo de ecualizaciones no son apreciables nítidamente. ¿A que puede deberse en este caso la dispersión de puntos sobre la diagonal equidinámica? Pues en principio la causa principal está en que en señales musicales es lógico que el nivel en torno a 4 KHz y el nivel dinámico global no sean proporcionales. Por eso, al ecualizar en una banda determinada, se está aplicando una ganancia que no guarda relación con el nivel general de la señal.

En definitiva, es para estos casos cuando puede ser útil ir filtrando por rangos de frecuencia y efectuando el análisis dinámico comparado hasta que encontremos una zona donde pueda verse con más claridad las trazas de la ecualización.

Por ejemplo, si filtramos sobre una banda alejada de la ecualización aplicada, como puede ser de 100 Hz a 500 Hz obtenemos lo que se muestra en la figura 13, donde podemos apreciar que seguimos prácticamente sobre la diagonal equidinámica y que la dispersión de puntos es más estrecha que en la gráfica anterior sobre toda la señal audio.




Figura 13. Representación dinámica comparada en el caso de ecualización de +6 dB a 4 KHz, para ambas señales filtradas de 100 Hz a 500 Hz.

Es cuando filtramos la banda de 2 KHz a 6 KHz (figura 14) cuando descubrimos el origen de las diferencias: hay un desplazamiento dinámico de 2.4 dB independiente del nivel energético promedio (pendiente muy próxima a 1.0 en el ajuste estadístico). Está es la indicación de que se ha aplicado una ecualización concentrada en algún punto de esta banda, y que esta ecualización ha sido de ganancia fija, sin compresión de nivel asociada. En definitiva, el filtrado por frecuencias actua como una lupa sobre la dinámica de la señal, pudiendose enfocar justo donde la diferencia se observe más claramente.




Figura 14.
Representación dinámica comparada en el caso de ecualización de +6 dB a 4 KHz, para ambas señales filtradas de 2 KHz a 6 KHz.

¿Como efectuar este necesario filtrado de señal por bandas de frecuencia? El método que proponemos para este tipo de operaciones consiste en aplicar filtros FIR creados a partir de funciones sinc.




En nuestro caso nos hemos guiado por el método descrito por Steven W. Smith en el capítulo 16 de su libro "The Scientist and Engineer's Guide to Digital Signal Processing". Para aquellos neófitos en técnicas DSP, aclarar que un filtro FIR no es más que otra señal de audio, solo que en este caso es una señal con unas características en frecuencia y fase buscadas expresamente para filtrar del modo previsto. Un filtro pasa-banda de 2 KHz a 6 KHz basado en funciones sinc tiene el aspecto de la Figura 11.



Figura 11. Vista en audacity de un detalle de un filtro sinc pasa-banda entre 2 KHz y 6 KHz. En la ventana inferior derecha se muestra espectograma de la respuesta en frecuencia de este filtro.

El algoritmo de filtrado es una convolución (que equivale a un producto en el dominio de la Transformada de Fourier) entre la señal que se quiere analizar y el filtro generado. Los filtros FIR basados en funciones sinc son adecuados para este tipo de estudios puesto que son de fase lineal (no introducen distorsiones en el retardo de grupo) y son de alta pendiente de atenuación (pesados por funciones Blackman alcanzan los 74 dB).

Con la posibilidad de generar filtros previos añadimos otra capacidad más al método propuesto, pudiendo estudiarse el origen de las diferencias (tratamiento dinámico empleado) entre formatos o remasterizados de una misma grabación, tanto para el conjunto de la señal como en bandas arbitrarias de frecuencia.




CONCLUSIÓN

Tras describir que son las curvas energía-tiempo (ETC) y como se calculan, hemos estudiado el efecto que tienen distintos tratamientos de audio (atenuación/ganancia, compresión/expansión) sobre estas curvas. Hemos introducido las representaciones dinámicas comparadas como una herramienta útil para analizar cual puede ser el tratamiento dinámico aplicado a diferentes versiones de una misma grabación, e incluso para cuantificar aproximadamente algunos parámetros de estos tratamientos.

Mediante la aplicación de filtrado previo en bandas de frecuencia de las señales bajo estudio hemos ampliado la capacidad de esta técnica para ser capaces de detectar otros tratamientos como son la ecualización o la compresión/expansión acotada en una banda de frecuencia.

El siguiente paso va a ser aplicar está técnica a diferentes situaciones: entre formatos como son el vinilo, el CD y el SACD, entre remasterizaciones existentes en el mercado discográfico o entre diferentes técnicas de compresión de la información digital (mp3, ogg o formatos "sin pérdida").

Proyecto RVG: El sonido Rudy Van Gelder

Proyecto RVG: comparación entre versiones de "Speak No Evil"

Proyecto RVG: Comparación entre versiones de "Cool Eyes"


[*] Formalmente la ETC se define como la envolvente energética de la señal analizada, representada en decibelios. Esta envolvente se obtiene mediante el cálculo de la Tranformada de Hilbert de la señal y a partir de ella lo que se conoce como "señal analítica". Todo ello son técnicas DSP avanzadas, que superan el ambito de lo que pretendemos con este estudio. Confiamos en que los puristas de las matemáticas sepan perdonarmos esta licencia que nos hemos tomado con la nomenclatura al uso. [Volver]