Posts Tagged ‘piscologia’

A 20 años del MP3…

Monday, May 24th, 2010

Si bien no podemos hablar de un día o fecha exactos sobre la invención del MP3, pues fue un desarrollo que tomó casi 10 años, (de 1986 a 1995), lo cierto es que la abreviación MP3 se ha vuelto tan conocida pero tan poco entendida, que me parece que vale la pena hablar un poco al respecto. Pero para poder entender qué es el MP3, es necesario entender lo que existía antes del MP3.

Pues bien, cuando se empezaron a guardar canciones en una computadora, los ingenieros e investigadores notaron que ocupaban demasiado espacio. Estamos hablando alrededor de 50 Megabytes por canción, es decir, 50 Megabytes = 400 Megabits = 400 millones de 1’s o 0’s por canción.

Esta cantidad era impensable y era una limitante para acelerar el mercado digital de aquel entonces, pues con la conexión más rápida, de 56 kbps (56′000 bits transmitidos por segundo, de los cuales 49′000 eran efectivos), tardaría uno en transmitir ese archivo 2.2 horas.

Pero, ¿cómo reducir significativamente la información de audio de una canción sin que se pierda la calidad?

Por significativamente debemos entender que al menos se reduzca 10  veces con respecto al tamaño original (es decir, menor a 5 MB, en lugar de 50), para que valga la pena 10 años de investigación. Por pérdida de calidad entendemos que las personas no deberían ni siquiera notar que la canción ha sido manipulada. Si la calidad disminuyera aunque sea un poco, con algunos ruidos, o algún tipo de molestia auditiva, el mercado no podría despegar ni dispararse como lo hizo.

¿Dónde estaba la respuesta? Ya Claude Shannon, en 1949 había establecido la fórmula matemática para establecer los límites que nos dicen hasta donde podemos “comprimir” la información sin que se pierda el significado original. Estos principios rigen muchas cosas en el mundo de la tecnología, como los formatos de compresión .zip, .rar, etc. los cuales aplican estos principios y permiten reducir un archivo de texto hasta 50 veces su tamaño original, sin pérdidas. O las comunicaciones por celular, y en general cualquier diseño de un sistema de comunicaciones.

Pero los ingenieros e investigadores sabían que por ese camino no lograrían mucho. Así que optaron por usar compresión con pérdidas.

Y la respuesta estaba en nuestro cerebro. Optaron por estudiar y entender como percibe nuestro cerebro el sonido. Ya para ese entonces el oído humano estaba bien entendido, y se conocía su respuesta en frecuencia, rango dinámico, y otras cuestiones. De hecho se sabe que es un sistema increíble para capturar el sonido. Pero, ¿ y cómo interpreta nuestro cerebro esa información auditiva?

Descrubrieron varios fenómenos. El primero del que les hablaré es el enmascaramiento (yo preferiría llamarle ocultamiento, pero en fin). Resulta que si dos sonidos se producen con una diferencia muy pequeña en el tiempo, sólo el más fuerte de ellos será percibido (enmascaramiento en el tiempo). De igual manera, dos sonidos de frecuencias diferentes, sonando al mismo tiempo, resultarán en la percepción del más fuerte de ellos. De esta manera, es posible eliminar en las canciones aquellos sonidos que de antemano se sabe no serán percibidos por nuestro cerebro.

El segundo fenómeno es la frecuencia fantasma. Resulta que nuestro cerebro, tal vez por razones evolutivas, está tan acostumbrado a los sonidos que existen en el universo, que si le presentas uno modificado, lo reconstruirá al sonido real. Por ejemplo, si un músico toca una guitarra en afinación estándar en su 5a. cuerda al aire, producirá un “La” que oscila en 220 Hz. El sonido está acompañado de armónicos, que son ondas en frecuencias cercanas a múltiplos de la frecuencia fundamental (en este caso, 220 Hz), digamos, 443, 665, 878 Hz, etc. Resulta que si grabamos ese sonido en la computadora, y quitamos la frecuencia fundamental, dejando solamente los armónicos, y después la reproducimos, en el mundo real estamos produciendo un sonido que carece de su frecuencia fundamental, algo que normalmente no se da en el universo. Pues esto no le gusta a nuestro cerebro y decide, no se sabe cómo, conseguir el máximo común divisor de las frecuencias de los armónicos que percibe. ¿Tiene integrado un analizador de espectros? ¿Usa el método de Euclides para obtener máximos comunes divisores? No sabemos, pero esto nos permite eliminar frecuencias que sabemos que nuestro cerebro percibirá aún cuándo no existan en la realidad, reduciendo así el tamaño de la canción.

Otras características son la resolución de nuestro cerebro ante pequeños cambios en el sonido. Nuestro cerebro solamente percibe un cambio en la intensidad del sonido (volumen) si éste sobrepasa los 3 dB de potencia. Es decir, aumentar o disminuir en un 50% el sonido. Con respecto a la frecuencia, el cerebro sólo percibe cambios en el pitch de 3.6 Hz, por lo que cualquier variación debajo de esta cantidad está sobrando en una canción.

Estos son sólo algunos fenómenos, los conocidos públicamente. Seguramente existen muchos otros que estén protegidos como secretos industriales.

Además, al día de hoy, se considera obsoleto el MP3. Se han inventado y perfeccionado nuevas técnicas, por lo que en realidad lo que nos queda es el nombre, pero en realidad ya no se recomienda usar ese formato. El que se recomienda hoy es el AAC, usado en los dispositivos de Apple, como el Iphone, el Ipod, etc. Y el estándar en transmisiones de Televisión de Alta Definición, como el A/54.