A finales del año 2002 y como consecuencia de las pruebas ciegas hechas en la segunda reunión de Molingordo, iniciamos esta prueba consistente en discriminar y ordenar por calidad 5 muestras sonoras del mismo fragmento musical, 4 comprimidos y 1 PCM. La elección del fragmento musical y las compresiones del mismo fueron realizadas por un conocido técnico de sonido español y colgadas para su descarga en su página web.
Hasta primeros del año 2008 no hemos tenido un número significativo de muestras (34), lo cual da idea de empeño que ponen los aficionados a la hora de participar en una prueba anunciada en todo momento como anónima. ¿Cuántos escucharon las muestras y no enviaron su respuesta?
La codificación empleada en las muestras fue:
Test-A: PCM Test-B: MP3 CBR (Constant bit rate) a 128 kbps Test-C: MP3 CBR (Constant bit rate) a 160 kbps Test-D: MP3 VBR (Variable bit rate) máxima calidad (100 kbps) Test-E: AAC VBR (Variable bit rate) máxima calidad ( 224 kbp
Los probadores sólo tenían que bajarse las muestras, escucharlas en su equipo como mejor les pareciera y devolvernos los resultados en forma de lista ordenada por calidad de mayor a menor.
![]()
De las 34 muestras recibidas no admitimos 3 (RR, JG y JMC), puesto que confiesan que las han ordenado por otros métodos distintos de la escucha de los fragmentos.
No son capaces de discriminar nada 7 de los probadores.
Análisis estadístico
Del análisis por pares, se esperaba la confirmación de, al menos, una hipótesis alternativa: El PCM ("test-A") se debe distinguir como mejor, al menos, sobre uno de los restantes archivos. Es hipótesis no ha sido confirmada con significación estadística (p≤0,05) en ningún caso enfrentado por pares el fichero "test-A" a cada uno de los demás. Por tanto, ni siquiera se confirma el caso más extremo, esto es, el PCM sobre el peor (sea éste cualquiera de los restantes).
El único par que ha mostrado significación (p≤0,05) ha sido "test-C" (MP3 CBR a 160 kbps) sobre B (MP3 CBR a 128 kbps), aunque esto es muy poco relevante considerando los resultados del PCM. ¿Un MP3 se distingue con de otro pero ambos se mantienen indistinguibles del PCM?
![]()
Ilustración 1 Tabla de resultados. El fondo amarillo indica incertidumbre reconocida.
![]()
![]()
![]()
Estos resultados no demuestran que, en casos extremos, con el material sonoro adecuado y la formación adecuada1, no sea posible distinguir el resultado de una codificación perceptual de su fuente PCM. Pero sí ponen de manifiesto que esta codificación perceptual que caracteriza a los algoritmos de compresión con pérdida hace muy bien su trabajo y que los principios psicoacústicos en los que se fundamentan son sólidos.
En todo caso, debe servir para reconsiderar la extendida creencia de que estos formatos son fáciles de distinguir de sus fuentes PCM. A la luz de estos resultados, nada más lejos de la realidad.
![]()
MÉTODOS DE ANÁLISIS ALTERNATIVOS
Algunas de las respuestas recibidas no se han basado en la interpretación resultante de una audición. Nos ha parecido interesante mencionar dos.
Análisis espectral
Todo proceso de codificación perceptual incluye al menos un efecto de fácil identificación empleando las herramientas de análisis adecuadas: la eliminación de un espectro de rango variable de las frecuencias más altas. Del análisis de la consecuencia de este filtro es posible, al menos, identificar sin ambigüedad al PCM y ordenar "C" sobre "B" (ambos MP3-CBR):
Test-A (PCM)
![]()
![]()
Test-B (MP3 CBR a 128 kbps)
![]()
![]()
Test-C (MP3 CBR a 160 kbps)
![]()
![]()
Test-D (MP3 VBR - 100 kbps máx.)
![]()
![]()
Test-E (AAC CBR a 128 kbps)
![]()
![]()
Análisis de entropía
En todo proceso de compresión caracterizado por la conservación de la información2, la entropía3 del mensaje contenido en un archivo determinará en qué medida es posible comprimir éste. La entropía de un mensaje determina su límite de compresión por lo que a mayor entropía menor capacidad de compresión. Así, del resultado de realizar dos procesos idénticos de compresión sin pérdida neta de información a dos archivos distintos del mismo tamaño, aquél que resultara más pequeño será el caracterizado por una entropía menor antes del proceso. Dicho de otro modo, el factor de compresión de un mismo proceso de compresión lossless puede servir como una buena aproximación para comparar la entropía relativa de distintos archivos.
Sin embargo, se trata aquí de analizar archivos que, excepto uno (el PCM), han sido todos sometidos a procesos de compresión con pérdidas netas de información4. En esencia, en estos casos al proceso de codificación entrópica empleado para las técnicas lossless (proceso que resulta en un aumento de la entropía), se añade una codificación perceptual previa que en esencia consiste en la eliminación, en grado predeterminado, de la información contenida en el archivo original que resulta menos perceptible por nuestro cerebro. Así, el archivo que contenga más cantidad de información neta (mayor entropía) será, necesariamente, aquél que no pasó por un proceso de eliminación de información selectiva, esto es, no habría pasado por una codificación perceptual.
De esto se deduce, por tanto, que:
El archivo con la máxima entropía será necesariamente el PCM o, lo que es lo mismo, como todos los ficheros tienen prácticamente el mismo tamaño, aquél que resultara más grande tras compresión lossless (por ejemplo, pasándolo a WMA lossless -Windows Media Audio Lossless-, FLAC, ZIP, RAR, etc). La cantidad de información neta que queda en cada fichero será función de la entropía del fichero y, por tanto, para un mismo algoritmo de compresión se podrá establecer un orden de mayor a menor grado de pérdida. Entre ficheros que resultan de compresiones con distintos algoritmos no es posible establecer con garantías grados de calidad toda vez que la eficacia en la eliminación de contenido perceptualmente poco significativo nada tiene que ver con el volumen de información retenido. Así, calculando la entropía de todos, el archivo PCM debe corresponder con test-A. Su entropía es la mayor con un valor medio de 7,4228. Los dos ficheros MP3 que emplean tasa de bits constante ("test-B" y "test-C") se pueden ordenar de mayor tasa/calidad ("test-C") a menor tasa/calidad ("test-B") ya que la entropía de "test-C" (7,4151) es mayor que la de "test-B" (7,4136
Los ficheros "test-D" (tasa de bits variable) y "test-E" (AAC) no pueden ser clasificados por este procedimiento.
Pero no es necesario calcular su entropía: ordenados de menor a mayor factor de compresión al pasar los archivos a WMA lossless, el orden resultante es: A, E, C, B, D. Parece por tanto que este método sirve como buena aproximación para identificar al PCM (A) y para ordenar correctamente a los dos que fueron comprimidos empleando el mismo algoritmo con distintas tasas constantes: (C y B). La posición de D y E en esta lista es poco significativa y sólo se demuestra que existe pérdida neta de información respecto al A (PCM) pero nada dice sobre su calidad relativa al resto de ficheros.
1 AES E-Library: Perceptual Audio Coders "What to listen for" by Erne, Markus. http://www.aes.org/publications/AudioCoding.cfm.
2 Tipo de compresión de datos conocido como lossless.
3 A pesar de estar íntimamente relacionados (especialmente a través de la mecánica estadística, véase: http://en.wikipedia.org/wiki/Entropy_in_thermodynamics_and_information_theory), este término que no debe ser confundido con el empleado en termodinámica para describir el desorden de un sistema. En este contexto, entropía se refiere exclusivamente al término descrito por la Teoría de la Información en la interpretación de Shannon. Se define como la cantidad promedio de información por símbolo que contiene un mensaje.
4 Tipo de compresión de datos conocido como lossy.