PROYECTO K622

Primer estudio.

Objetivos.

El objetivo de este estudio es tratar de averiguar cuales pueden ser las posibles diferencias “básicas entre distinos formatos en los que se puede presentar una misma grabación/masterización, a partir de su examen en el ámbito métrico por medio de análisis FFT de pequeñas muestras de cada formato.
Métodos: Aquellos que permiten representar gráficamente la señal tanto en el dominio del tiempo como en el de la frecuencia, comparando niveles de señal y energías instantaneas e integradas:

Cross-correlación.

Análisis FFT (Fast Fourier Transform).

Espectrogramas.

ETC (Energy-Time Curve).

Diferencia de nivel RMS.

Convolución de muestras y relación entre ellas.

Material seleccionado para sus estudio. Uno de los requisitos fundamentales para poder efectuar este estudio es contar con versiones en variados formatos de una misma grabación original, incluyendo que el master originario de estas versiones fuese el mismo en todos los casos. Con ello se intenta eliminar factores diferenciadores que sean ajenos a los propios formatos y sus diferentes medios de reproducción: distintos masterizados realizados por distintas personas, procesos de mezcla de la señal grabada que generen de modo consciente sonidos diferentes (ecualización, tratamiento dinámico).

Información musical y datos técnicos de la grabación.

La información sobre la grabación es la siguiente:

K622: Mozart Concierto para clarinete MFSACD017/MFLP017

Antony Michaelson, clarinete, con la Michaelangelo Chamber Orchestra dirigida por Robert Bailey.

Musicos:

Flute: Andy Findon,Helen Keen

Bassoon: Brian Sewell, Francesca Carpos

Horn: Richard Watkins, David Wythe

Violin: Adrian Levine (concertmaster), Kathy Andrew, Alex Balanescu, Sue Briscoe, Gordon Buchan, Beverly Davison, Ruth Erlich, Jonathan Evans-Jones, Alison Kelly, Pauline Lowbury, Rona Murray, David Ogden, Julian Tear, Paul Willey

Viola: Marina Ascherson, Rachel Bolt, Tim Grant, Rusen Gunes

Cello: Naomi Butterworth, Mike Hurwitz, Judith Serkin, Jonathan Williams

Double bass: Paddy Lannigan, Steve Williams

Formato vinilo:

LP cara 1: Allegro (12:38)

LP cara 2: Adagio (7:58), Rondo (Allegro) (8:51)

SACD. Capa de alta resolución:

Allegro (puro DSD) 12:38

Adagio (puro DSD) 7:58

Rondo (Allegro) (pure DSD) 8:51

Allegro (DSD a partir de cinta analógica) 12:38

Adagio (DSD a partir de cinta analógica) 7:58

Rondo (Allegro) (a partir de cinta analógica) 8:51

SACD. Capa CD Red Book:

Allegro (PCM downsampled desde DSD) 12:38

Adagio (PCM downsampled desde DSD) 7:58

Rondo (Allegro) (PCM downsampled desde DSD) 8:51

Allegro (PCM a partir de cinta analogica) 12:38

Adagio (PCM a partir de cinta analogica) 7:58

Rondo (Allegro) (PCM a partir de cinta analogica) 8:51

Grabación a cargo de Tony Faulkner en los estudios Henry Wood, Londres, el 19 de noviembre de 2003. Vinilo masterizado por Stan Ricker y prensado por RTI, Camarillo, California.

Datos técnicos de la sesión de grabación:

Productor: John Atkinson

Ingeniero, edición en analógico:Tony Faulkner

Edición en DSD:Finesplice

Vinilo, master:Stan Ricker

Microfonos: dos Neumann M50c onmidireccionales en disposición array DECA, estéreo. Un AKG C24 configurado en figura de 8(clarinete solo) y tres Schoeps CMC6-5 http://www.schoeps.de/E-2004/specs-mk-ccm5.html (sección de vientos)

Preamplificadores de micrófono: EAR 824M

Consola de mezcla: Tim de Paravicini, con un diseño “a medida”/li>

Cables: Mogami (micro a consola), Belden 11-way "snake" (preamp a consola), van den Hul carbon-fiber (consola a grabador)

DSD, convertidor: dCS 904

DSD, almacenamiento: Genex GX8500 disco duro y almacenado en discos Panasonic, SCSI DVD-RAM.

PCM, conversión de muestreo para "Red Book" capa SA-CD: Sonoma digital audio workstation

Grabador analógico de cinta: Studer A80RC, dos pistas modificadas por Tim de Paravicini, utilizando para ello cinta de ¼ a 15ips de velocidad y con proceso reductor de ruido, Dolby-A

Monitorado de escucha/sala: Quad ESL-989 amplificados por dos EAR monobloques y utilizando cables para altavoces de Naim. Sennheiser HD600 para el monitorado con auriculares y amplificación de Musical Fidelity.

Realización del estudio.

Partiremos de las dos versiones: disco de vinilo y CD híbrido SA-CD. Se etiquetarán las muestras según la relación de formatos siguientes.

N1: Audio analógico del la capa DSD convertido a PCM 96khz, 24 bits.

N2: DSD a partir del original en cinta de ¼”.

N3: PCM a partir del original en DSD. 44,100 Khz. 16 bits

N4: PCM a partir del original en cinta. 44,100 Khz. 16 bits

N5: PCM a partir del original en vinilo. 44,100 Khz. 16 bits

El tema escogido para el presente análisis es el Allegro K622 de Mozart. De él se extraerán los diversos fragmentos en función de la naturaleza tímbrica y dinámica musical presente. Esta selección tiene por objeto el suponer que, en función del numero de componentes espectrales alojadas en la zona media y alta del espectro sonoro, contribuirán en mayor o menor medida a la rápida diferenciación por parte del oído, el cual, basa su mayor “precisión” a la zona de medias-altas frecuencias. Convendría remarcar la ausencia de información en las frecuencias mas bajas (40hz a 150hz), por tanto, no nos merece una valoración o apreciación significativa a tomar en cuenta en el estudio. También hemos creído conveniente obviar del presente análisis la versión N2, fundamentalmente, por creer que no aporta nada de información musical con respecto de la N4. El motivo fundamental es porque creemos, que el partir de una información acotada por el formato cinta, no es significativo desde el punto de vista de resolución de frecuencias el producir una trama DSD. El puro DSD una vez convertido del analógico (salida del reproductor SA-CD/Dvd Sony DVP-9000 ES) al digital (conversor AD/DA, ESI, Firewire 400), nos servirá para realizar un análisis FFT y por ver, si realmente existen componentes espectrales mas allá de los 20 Khz. No se efectúa comparación alguna por el resto de la metodología y con el resto de las muestras por tratarse de diferentes frecuencias de muestreo propias del formato. En cualquier caso con un muestreo a 96 Khz y con un valor de FFT de 32.768 pts, se extiende el ancho de banda de la medida hasta los 48 Khz obteniéndose una resolución en cada línea espectral de tan solo 2,9 hz. Dato más que suficiente para evaluar y representar las posibles informaciones “asociadas” al formato SA-CD.
A continuación, se mostraran los diversos análisis de espectros para después centrar las medidas principalmente entre tres bandas espectrales: bajas, medias y altas frecuencias. Se realizará sobre las versiones, N1, N3, N4 y N5. El tamaño de la FFT es de 32768 pts lo que da una resolución en frecuencia de 1,43 Hz. La frecuencia de muestreo es de 44,1khz a 16 bits. En el ejemplo de la versión N1, gráfica 1, se mostrará un ancho espectral que irá desde los 10hz hasta 48 khz con motivo de representar todo el ancho de banda del formato DSD. Recordemos que la frecuencia de muestreo es de 96khz.

Gráfica 1. Análisis espectral de la versión N1.

Gráfica 2. Representación nivel vs frecuencia de la versión N1 hasta 48khz.

Gráfica 3. FFT zona de bajas frecuencias.
La versión N5 muestra un ligerísimo aumento (+3dbs) del canal izquierdo zona de bajas frecuencias con respecto de la versión N3 y N4. El resto es prácticamente de idéntica información. *Traza azul corresponde a la versión N3, en rosa la versión N4 y en blanco la N5.

Gráfica 4. FFT zona de medias frecuencias.

Zona espectral de medias frecuencias no se observan diferencias espectrales, tan solo, diferencias en amplitud que, en ningún caso, superan los 1,5 dBr entre ellas.

Gráfica 5. FFT zona de altas frecuencias

En esta gráfica se muestra el espacio espectral comprendido entre los 5khz y 22 Kh, y también podemos observar una diferencia de nivel considerable por parte de la grabación N5, concretamente, en la zona de muy altas frecuencias. Por tanto, podemos afirmar que aquí se cumple aquello de ... en los disco de vinilo se tiene poca y pobre información en altas frecuencias . Así mismo, el margen dinámico del ruido disminuye en aproximadamente 12dBs con respecto de los otros dos formatos, por tanto, estamos ante una reducción drástica de la dinámica musical en esta franja espectral. Al efectuar una ampliación (zoom) sobre la forma de onda de la versión N5 podemos observar un mayor ruido modulado a la señal principalmente por la menor relación señal ruido del propio formato. En la escucha musical también se observa este ruido con respecto del resto de los formatos.
A continuación, analizaremos aproximadamente nueve segundos de la composición musical “Allegro” en la que se busca predominen únicamente los instrumentos de cuerda. Principalmente se elige este fragmento por dos características: el bajo nivel RMS de la señal y el complejo contenido armónico en comparación al resto de temas. Este análisis será en representación de la energía en función del tiempo (ETC).

Gráfica 6. Representación ETC para N4.

Representación gráfica de la energía en la versión N4 (PCM del origen en cinta de ¼”). En la traza azul se representa el nivel RMS y corresponde aproximadamente al tiempo de grabación musical 0:00:54.

Gráfica 7. Representación ETC para N7.

La misma gráfica pero esta vez de la versión N5. La contaminación en los extremos de la gráfica obedece a un mayor ruido de fondo de la grabación y coincide, con los silencios entre pasajes musicales. Se puede observar como prácticamente coinciden ambas gráficas en lo que respecta a la información musical (contenido de energía / tiempo). La diferencia de nivel RMS entre las dos grabaciones es de tan solo 1,5 dB (gráfica azul). Cabría anotar que, en el proceso de grabación de la versión N5 (PCM a partir del origen en vinilo), el nivel de grabación tomado fue exclusivamente en función de la mayor ganancia posible que nos permitía la grabadora de CD y, en ningún caso, se produjo una saturación (overclip) de la grabación. El material empleado para el cambio del formato fue el siguiente:

Giradiscos: SME 10

Cápsula marca: Vandenhull, Colibri

Grabadora de CD-R: Pioneer PDR-609

Gráfica 8. Representación ETC para N3.

En esta gráfica se muestra la versión N3. Se puede observar que es prácticamente igual a la gráfica de la versión N4. No existe ninguna “contaminación” en los extremos de la misma, el nivel RMS es prácticamente igual a la versión N4.
A continuación, se muestran los Espectrogramas de las versiones N1, N3, N4 y N5. Las muestras se corresponden aproximadamente al intervalo de tiempo, 0:00:48 a 0:00:58, del tema Allegro. En las versiones N3, N4 y N5, se centra la medida en las zonas de medias frecuencias.

Gráfica 9. Espectrograma de la versión N1.

Gráfica 10. Espectrograma de la versión N3.

Gráfica 11. Espectrograma de la versión N5.

Gráfica 12.Espectrograma de la versión N4.

Los espectrogramas son muy útiles pues podemos observar por medio de los diferentes colores la distribución de la energía en función de las frecuencias. Seria algo así como el D.N.I de la música. En las cuatro gráficase pueden apreciar diferencias en la franja comprendida entre los 200 hz y 500 hz, de la versión N4 con respecto del resto. Aunque cabría anotar que las diferencias son minúsculas en términos de diferencias de amplitud.

Gráfica 13. FFT de la correlación entre N3 y N5.

Gráfica que representa el calculo FFT de la correlación matemática entre los fragmentos de la versión N3 y la versión PCM del vinilo N5. Esta gráfica es puramente estadística pero nos da una idea de las diferencias. A partir de 1khz, las diferencias, son pura anécdota.

Gráfica 14. Representación FFT de la función de computación cross-correlation.

Gráfica 15. Gráfica cross-correlation.

Correlación entre las versiones N3 y N4. El eje X se normaliza al valor 1, el cual, se corresponde con el 100% de igualdad entre muestras. O sea, cuanto más se acerquen las componentes espectrales a este valor, más se aproximará la información entre las dos versiones.

Gráfica 16. Correlación entre la versión N5 y N3.

Gráfica 17. Cross-correlación entre versión N5 y N4.

Gráfica 18. Coherencia entre la versión N3 y N4.

Gráfica 19. Gráfica de coherencia entre N4 y N5.

Gráfica 20. Gráfica de coherencia entre N3 y N5 Estas gráficas muestran lo coherentes que son dos señales en función de su frecuencia y amplitud. Cuanto más se aproximen al valor 1 (coordenada X) más iguales serán.

Conclusiones.

Del presente examen, tan solo, hemos pretendido el representar y comparar por medio de las herramientas analíticas y estadísticas un posible veredicto que se pretende obtener a la hora de una escucha musical y, tan solo, por ver las posibles diferencias entre varios formatos que, a priori, deberían de ser relativamente dispares entre si. Por tanto, y a la vista de ello, podemos pensar que solamente existen claras diferencias en la versión extraída de vinilo y puede, que se minimizaran si utilizáramos otra variante (Léase; el binomio cápsula-previo) en la reproducción del vinilo para su posterior conversión al formato digital de la versión N1. En la gráfica 1 se observa y sólo durante un instante de tiempo muy corto abundante información en el espectro de muy alta frecuencia. Pensemos que dadas las componentes espectrales (su relación armónica) se podría vislumbrar que es una señal fruto de una distorsión singular en un instante dado, la cual, coincide con la máxima expresión musical de la dinámica en la obra. Seria algo así como ver la saturación de cualquier micrófono de la sala en un instante dado. Solamente es posible capturar información mas allá de los 20 khz, en el caso de la información musical por parte del set de violines, contrabajos y chelos ya que, la microfonía empleada (Schoeps CMC6-5) permite el extenderse hasta los 30 khz. En el resto de la captación sonora es prácticamente imposible registrar frecuencias mas allá de los 20khz con plenas garantías de fidelidad.

Vuelta a la introducción.
Segundo estudio. Primera parte.

VOLVER A MATRIX-HIFI