INTRODUCCION BASICA A MD FOURIER

En recientes fechas, un software homebrew ha estado haciendo algo de ruido, dentro de la comunidad del retro-gaming, este software creado por más ni menos el Maestro Artemio Urbina es conocido como : MDFourier, el cuál en palabras cortas sirve para comparar el audio producido por dos fuentes y saber que tan aproximado es al original.

He estado haciendo algo de investigación y realmente no encontré casi nada de información en español, salvó los podcast y videos realizados por el mismo Maestro Urbina, así que como lo hice con la suite 240p, busque la documentación oficial para trabajar en la traducción en español,la cuál bajo estás lineas podrás leer, con la pequeña diferencia que, al ser esto un proyecto en desarrollo, he decidido solo enfocarme en los conceptos básicos que permiten entender un poco mejor de que trata y como funciona MD Fourier.

Por cierto si desea ayudar al proyecto MD Fourier existe un Patreon que es basicamente para ayudar con los pagos del servidor donde se aloja el proyecto 240p y MD Fourier

*********************************************************************************

MD FOURIER
Artemio Urbina
Junio 30 de 2019

*********************************************************************************

MDFourier es una solución de software de código abierto creada para comparar señales de audio. y generar una serie de gráficos que muestran cómo difieren.

El software consiste en dos programas separados, uno que produce la señal para grabar desde la consola y la otra que analiza y muestra las comparaciones del audio.

La información recopilada de los resultados de la comparación se puede utilizar en un variedad de formas:

- para identificar cómo las firmas de audio varían entre sistemas

- para detectar si las señales de audio son modificadas por el equipo de audio

- para determinar si las modificaciones resultó en cambios audibles

- para ayudar a sintonizar emuladores, implementaciones de FPGA o mods, etc.

Este documento sirve como una introducción, un manual y una descripción del métodos utilizados y cómo funcionan. Su intención es guiar a los nuevos usuarios para hacer comparaciones simples mientras se proporciona a los usuarios avanzados información para realizar un análisis más detallado de las firmas de audio.

Capítulo 1

Introducción

MDFourier es un paquete de software gratuito y de código abierto para analizar y comparar

firmas de audio.

Se puede utilizar para identificar las diferencias entre dos grabaciones de audio. por ejemplo: un Sega Genesis Model 1 VA3 y un Sega Genesis Model 2 VA 1.8 se puede comparar para verificar cómo difieren en espectro de fracuencia de la audición humana utilizando resultados objetivos y repetibles.

El proceso no se limita a un sistema específico, y el software puede ser configurado para hacer comparaciones para otras plataformas con la incorporación de nuevas.

Por el momento, perfiles para Mega Drive / Genesis y Mega / SegaCD son funcionales con más para seguir.

La intención no es menospreciar ningún sistema en particular, sino promove runa mejor comprensión de las variaciones de audio, al tiempo que permite a quienes deseen modificar sus consolas la capacidad de identificar con precisión las diferencias.

Un objetivo secundario, pero no menos importante, es crear un catálogo impulsado por la comunidad.

de firmas de audio de estos sistemas y las variaciones entre consolas para fines de archivo y conservación.

Es mi opinión personal que sería útil tener configuraciones sintonizado para replicar las firmas de audio de las variaciones originales de hardware minorista en emuladores e implementaciones de matriz de compuerta programable en campo (FPGA).

Esta, sin embargo, no significa que no haya margen de mejora. Reducción de ruido manteniendo la firma de sonido de referencia es uno de esos escenarios. Aunque deben existir soluciones industriales poderosas para este tipo de análisis, no parecen haber llegado a la comunidad entusiasta.

No estoy al tanto cualquier otro esfuerzo similar para crear herramientas de análisis de software público dirigidas en hardware de consola vintage.

Nota:
1El término sistema se usará para cubrir hardware minorista vintage, emuladores, implementaciones FPGA y cualquier otra variante posible que ejecute binarios para el hardware de destino.

Cabe señalar que se han realizado comparaciones detalladas, en particular para el MegaDrive / Sega Genesis.2

1.1 Posibles aplicaciones

*Averigüar si las variaciones minoristas de hardware vintage realmente tienen audio diferente
cuando se comparan entre sí.

*Ayuda a los autores de implementación de emuladores y FPGA con herramientas para ajustar el filtro para que coinciden con las firmas de audio de hardware minorista vintage.

* Ayuda a la comunidad de modding a comparar cómo cambian las firmas de audio para cada sintetizador dentro del sistema de destino mientras se desarrolla las modificaciones al audio.

* Determina si hubo cambios en el espectro de audio después de las modificaciones a una consola, como cambiar los capacitores y los circuitos de audio.

* Evaluar equipos, como conmutadores y escaladores con transferencia de audio.
Puede ayudar a determinar qué efecto pueden tener al grabar con y sin ello conectados en la cadena de Audio / Video.

* Ayuda a recrear firmas de audio específicas.

* Ayuda a ajustar un sistema a un gusto particular.

También hay información interesante que se deriva del análisis, y que se muestra como parte de la salida:

* La velocidad de fotogramas de la consola bajo análisis.

* Algunos valores relacionados con el ruido de la señal grabada.

* Diferencia porcentual del balance de audio entre los canales estéreo.

* Cuando se utilizan unidades de CD-ROM, puede generar el tiempo que le tomó a la unidad
iniciar la reproducción

Ver la publicación del foro en Sega-16: http://www.sega-16.com/forum/showthread.php?
7796-GUIDE-Telling-apart-good-Genesis-1s-and-Genesis-2s-from-bad-ones

1.2 Descargo de responsabilidad

MDFourier y esta documentación son un trabajo en progreso. Aunque intenté adherirme a las mejores prácticas, mi experiencia en el procesamiento de señales digitales fue casi inexistente antes de este proyecto.

Por favor contácteme si tiene correcciones, mejoras, sugerencias o comentarios, estos son alentados y bienvenidos. La información de contacto está disponible en : Twitter y por E-mail.

Este proyecto nació de mi curiosidad por comparar las firmas de audio de diferentes revisiones de Mega Drive / Genesis, y verificarlas con una herramienta análisis asistido Debido a mi interés en la preservación del juego, evolucionó naturalmente en su forma actual, y con suerte continuará creciendo.

Capitulo 2

Conceptos básicos de audio

Este capítulo es una introducción a los conceptos de audio que se utilizarán a lo largo de el documento, como: frecuencia, amplitud, frecuencia de muestreo, decibelios, etc. Con suerte puede proporcionar una perspectiva simplificada pero funcional a aquellos que no están familiarizados con audio y sus representaciones digitales.

2.1 sonido

El sonido es una serie de vibraciones que viajan a través de un medio. En nuestro caso esto el medio es típicamente aire, pero puede ser agua o incluso un sólido. Estas vibraciones son ondas de presión y como cualquier otra ola tienen características que nosotros puede medir para clasificarlos y comprenderlos.

2.2 frecuencia

Usamos el término frecuencia para referirnos a un evento repetitivo que tan frecuente es. En este caso significa cuántas veces se repite la onda que estamos midiendo en una segundo. Medimos esto en ciclos por segundo, y usamos una unidad llamada Hertz (Hz)[1].

Como puede imaginar, estas vibraciones en el aire pueden tener una amplia gama de frecuencias, pero no podemos escucharlas todas debido a limitaciones biológicas. El rango que los humanos normalmente pueden percibir se llama espectro de audición humana.

Un espectro se refiere a un rango continuo de frecuencias, y en este caso es Para comenzar a 20Hz y terminar a 20000Hz, usamos comúnmente el término 20kilo-Hertz, ya que kHz se refiere a múltiplos de 1000Hz.[1]

Estos números son, por supuesto, un promedio, y cada uno de nosotros tiene un espectro auditivo diferente que también cambia como nosotros envejecemos.

[1] Este es el sistema multiplicador basado en decimales definido por el Sistema Internacional de Unidades (SI)

En la Figura 2.1 podemos ver una frecuencia de 1kHz en un editor de audio. Podemos decir son 1000 ciclos por segundo ya que la selección más oscura se extiende por 0.01 segundos, y tiene 10 ciclos de onda completos en el mismo.

Figura 2.1 Una señal de 1 kHz en un editor de audio

Percibimos las variaciones de frecuencia como diferencias de tono: las frecuencias más bajas son lo que llamamos graves y frecuencias más altas son agudos correspondientes a frecuencias más bajas y
tonos más agudos.

2.3 amplitud

La otra característica de onda que usamos para medir el sonido se llama amplitud. Esta es qué tan poderosa es la onda en comparación con el resto de la señal que se está analizado.

La Figura 2.2 muestra una señal de 1 kHz que comienza en la amplitud más alta en un editor de audio y baja a cero. Este es un desvanecimiento típico, pero hecho en un período muy corto para mostrar tanto la frecuencia como la amplitud en el mismo imagen.

Figura 2.2 Una señal de 1 kHz con amplitud gradualmente más baja.

Percibimos esta amplitud como volumen, y los términos están directamente relacionados.

En general, cuanto mayor es la amplitud de una onda de presión sonora, mayor es la volumen que percibimos. Pero desde un sonido con la misma amplitud pero en otro frecuencia puede ser percibida como un volumen diferente por el oído humano, los términos No significa lo mismo. Dado que el software solo puede usar amplitud para su cálculos, usaremos ese término en todo el documento.

La unidad utilizada para medir la amplitud en las ondas de presión sonora se llama decibelios.(dB) Estos usan una escala logarítmica, lo que significa que en ella cada número es un múltiplo de una cantidad base, en lugar de una secuencia de incremental valores por unidad como en una escala lineal.

Usamos esta escala ya que modela de cerca la forma en que percibimos el sonido, y también porque las amplitudes de sonido tienen un rango muy amplio. Por ejemplo, el uso de una escala logarítmica nos permite comparar simultáneamente las variaciones de la niveles de sonido ambiental de una biblioteca contra los de un concierto de rock, incluso si están en lados opuestos del espectro auditivo humano. Puede ser familiar con este concepto de otras escalas logarítmicas, como la escala de Richter utilizada medir la fuerza del terremoto.

El uso de la escala puede ser confuso al principio, por lo que utilizaremos un ejemplo para muestra cómo se comportan los valores. Imagina que tenemos dos fuentes que son individualmente medido con un nivel de presión sonora de 9dB. Si ambas fuentes producen sonido al mismo tiempo, mediremos un nivel combinado de presión sonora de 12dB en lugar de los 18dB que uno podría haber esperado al usar un lineal escala.

Esto no significa que necesitará usar álgebra de logaritmo al tratar con este documento o con sonido en general. En términos prácticos cada vez que ves una diferencia de 3dB en la amplitud del sonido, significa que percibirá el doble de volumen.

Esta escala comienza en 0dB, que es el límite inferior de la audición humana, y sube a 194dB; donde se rompe la barrera del sonido y se convierte en un shock ola, al menos en la atmósfera de la tierra. La siguiente tabla tiene algunos puntos en común.\

2.4 Representaciones digitales del sonido.

En esta sección, describiremos cómo se codifica el audio en un formato llamado modulación de código de pulso (PCM). Es lo que es un formato de archivo de audio de forma de onda (WAV) usa internamente, y el formato que MDFourier puede usar para el análisis.

El sonido es una señal continua que varía en el tiempo. Esto significa que si usted podría acercarse a ella en la menor fracción de tiempo imaginable, también tendría un pequeño sonido que sucedió durante ese lapso.

Lamentablemente, las computadoras no tienen el almacenamiento ilimitado que sería capaces de replicar una señal continua y también tienen limitaciones de velocidad. Para representar el sonido en el dominio digital utilizamos un proceso llamado muestreo o sampling

Nota: Los valores de la tabla tomados deNoise Level Chart, web site, puede notar que están listados como dBA, esto está ajustado a nuestro curva combinada de respuesta de frecuencia y amplitud.

También se admite el códec de audio sin pérdida gratuito (FLAC), pero para nuestros fines puede ser

considerado como un método de compresión que contiene un archivo WAV.

2.4.1 Frecuencia de muestreo

El muestreo implica medir la amplitud de la onda de presión de sonido a intervalos regulares, realiza ciclos a una frecuencia y asigna un valor a cada una de estas mediciones.

La frecuencia con la que tomamos cada una de estas muestras del audio continuo la señal se llama frecuencia de muestreo.

La frecuencia de muestreo define las frecuencias de la señal que podremos representar en el dominio digital a medida que aumenta la frecuencia de muestreo, también lo hace el rango de frecuencia que puede representar esta representación digital de la señal.

Si queremos representar un cierto rango de frecuencia de manera confiable, debemos elegir una frecuencia de muestreo que es dos veces mayor que el valor de frecuencia más alto en el deseado espectro. Este principio se llama teorema de muestreo de Nyquist Shannon y requiere una señal de banda limitada para funcionar.

Para que una señal sea de banda limitada no debe contener frecuencias más altas que las que deseamos representar. En Para eliminar frecuencias superiores a un cierto valor, utilizamos un paso bajo antes de digitalizar la señal.

Ya que queremos cubrir todo el rango de audición humana que va desde De 20Hz a 20kHz debemos elegir una frecuencia de muestreo de al menos 40kHz. Este es el razón por la que las frecuencias de muestreo más comunes en audio digital son 44.1 kHz y 48 kHz, que son los admitidos por el software de análisis en MDFourier.

2.4.2 Profundidad de bits

Cuando creamos una representación digital del valor de amplitud para cada muestra, debemos definir un poco de profundidad. En otras palabras, debemos elegir la cantidad de bits la mínima cantidad de datos en nuestros sistemas informáticos actuales que se utilizará para guardar cada número

Una opción común es usar 16 bits para cada medición. Con esto nosotros puede representar cada muestra con valores que van desde -32,768 (-1 x 215) hasta 32.767 (215 - 1).
Analizaremos lo que esto implica durante la siguiente sección.

Entre otras cosas, esta decisión afecta el tamaño de archivo resultante del audio grabación. Si utilizamos una profundidad de 24 bits, los archivos serán un 150% más grandes que sus 16 bits contraparte si no se utiliza ningún método de compresión.

2.4.3 Decibelios en el dominio digital

Cuando medíamos amplitudes antes, utilizamos los dB. En ese escenario nosotros estaban analizando amplitudes que comienzan en la amplitud mínima de nuestros oídos humanos puede detectar y asignar un valor de 0dB a ese nivel. Los valores pueden teóricamente subir sin límites aparte de esa molesta barrera de sonido que mencionamos antes cuando se usa aire como medio de transmisión.

Sin embargo, cuando se trata de valores digitales que tienen una profundidad de bits definida, nuestro

el límite es xed desde el otro lado, la mayor amplitud que podemos representar con un número limitado de bits.

Este número se calcula fácilmente, para n bits obtenemos 2n valores posibles.

Debido a esto, cuando usamos archivos digitales usamos una variación del decibel , los decibelios nombrados en relación con la escala completa (dBFS). La mayor amplitud posible comienza en 0dBFS y los valores bajan a números negativos, hasta que alcanzan el amplitud más baja que puede representarse por la profundidad de bits seleccionada. Cuando usas una profundidad de bits de 16 como se usa en discos compactos y por el software de análisis en MDFourier la amplitud mínima que se puede representar es -96dBFS.

Esto se conoce comúnmente como el rango dinámico, y nos dice qué tan lejos aparte de las amplitudes mínima y máxima que se pueden representar en un son grabaciones de audio. Por ejemplo, si tenemos un rango dinámico de 96dB, podemos representan las amplitudes relativas del trueno y el crujir de las hojas dentro del misma grabación; pero no podríamos tener amplitudes más bajas o más altas ya que exceder el rango.

Algunos formatos comunes usan audio de 24 bits, que tiene un rango dinámico más amplio eso puede cubrir 144dB. Hay que pensar que más siempre es mejor, pero hay son razones válidas que explican por qué este formato no está muy extendido en el consumidor productos La tecnología actual de convertidor de audio digital solo puede manejar alrededor de 120dB, lo que hace que una gran parte de la ventaja se desperdicie. Y en segundo lugar, rara vez Necesitamos una gama tan amplia en nuestras grabaciones típicas. Con certeza para los casos que serán analizados por MDFourier el rango de 96dB de audio de 16 bits Es más que suficiente.

Para aplicaciones de estudio y mezcla, el audio de 24 bits es una gran ventaja, ya que El rango dinámico disponible con la variante de 16 bits se puede superar fácilmente cuando se mezclan señales de amplitudes similares y terminan causando indeseable saturación de la señal resultante.

Nota : Vea en D/A and A/D | Digital Show and Tell (Monty Montgomery @ xiph.org) una demostración en video detallada de cómo funcionan las tasas de muestreo.

Capítulo 3

Trabajando con MDFourier

Los componentes de software que permiten a MDFourier hacer comparaciones para una plataforma particular son:

* The Tone Generator: es el software que produce el audio. señales del sistema que está bajo análisis.

* El software de análisis: se ejecuta en una computadora y crea los gráficos que muestran los resultados

Todo el proceso se muestra en la Figura 3.1, incluidos los principales componentes de hardware.

Figura 3.1 Relación entre los diferentes componentes de hardware y software de MDFourier.

3.1 Flujo de Trabajo

Lo principal a tener en cuenta es lo que hace MDFourier. Hacen falta dos señales, el primero se designa como el archivo de referencia. El segundo es el archivo bajo escrutinio, y se conoce como archivo de comparación.

El primer paso es cargar el generador de tonos en el sistema deseado que ser analizado El proceso para esto varía con cada plataforma: desde la colocación de software en un carro de cenizas, grabando un CD-ROM o usando un cargador personalizado.

El siguiente paso es preparar un dispositivo de captura de audio y una computadora, en orden para grabar un archivo de audio.[1]

Una vez que la tarjeta de audio está lista y los cables están conectados desde el sistema hasta las entradas de audio, el proceso de grabación se inicia desde la computadora y el generador de tonos deben activarse desde el sistema bajo análisis.

Después de un breve lapso, generalmente alrededor de un minuto, el generador de tonos muestra un mensaje que indica que el proceso de grabación se puede detener. Cuando hay al menos dos archivos disponibles, uno para usar como referencia que puede ser uno de los archivos proporcionados y uno para ser utilizado como archivo de comparación; una comparación puede ser hecho con el software de análisis desde la computadora. [2]

3.2 Cómo funciona MDFourier

El archivo de referencia se utiliza como control. Esto significa que sus características son consideró los valores verdaderos que se esperaban y contra los cuales la comparación le será evaluado. En consecuencia, todos los resultados son relativos entre las señales.

Con estos archivos, el software analiza y compara sus características de audio. y genera gráficos que muestran visualmente cómo difieren. Estos archivos son grabaciones de audio del hardware deseado, preferiblemente capturados con una tarjeta de captura de audio a frecuencia y producida por un tono

Generador que se ejecuta en la plataforma de destino.[3]

Este generador de tonos es especialmente diseñado para las capacidades de hardware particulares y el rango de frecuencia del objetivo.

Siempre que sea posible, el generador de tonos se incluirá en el 240p Test Suite para la plataforma a analizar. [4]

Aunque el software de análisis se basa en la línea de comandos para ser multiplataforma y ofrezca la herramienta en cada sistema operativo que tenga un ANSI C99 El compilador de una interfaz gráfica de usuario (GUI) para Microsoft Windows es proporcionado por simplicidad y accesibilidad. El código fuente completo se puede descargar de github.[5]

3.3 Alineación de archivos

MDFourier toma ambos archivos y detecta automáticamente los puntos de inicio y finalización de

la grabación. Estos puntos se identifican por una serie de pulsos de 8820Hz en la corriente Implementación de Mega Drive / Genesis. Este proceso permite el cálculo de la velocidad de fotogramas a la que se estaba ejecutando el sistema, [6] para que la grabación pueda ser recortado con precisión en los segmentos que se definen a través de la configuración Le para un análisis más detallado.

Este proceso garantiza que los archivos de referencia y comparación sean lógicamente alineado, y que cada nota o segmento se compara con su correspondiente.

Los resultados no se superponen y no se requieren habilidades de edición o recorte de audio del usuario La precisión actual de detección de pulso es de alrededor de 1 = 4 de un milisegundo.

Una vez completada la alineación, el software informa los puntos inicial y final de ambas señales, en segundos y bytes.

3.4 El corazón del proceso

Se utiliza un proceso llamado Transformada discreta de Fourier (DFT) [8] para analizar y comparar las amplitudes de cada una de las frecuencias y armónicos del espectro que compone la señal de audio.

Para comparar las frecuencias y amplitudes de cada archivo contra cada otro, se debe establecer un punto de referencia. Esto se logra a través de una normalización relativa basado en la amplitud máxima de la referencia le.[9] Un máximo local la búsqueda se realiza en el mismo cuadro en la señal de comparación, y esa amplitud luego se usa para normalizar ambos archivos.

Esto se hace en el dominio de la frecuencia, para reducir la amplitud imprecisa.

en la coversión al comparar grabaciones con diferentes velocidades de fotogramas.[10] El software hace tiene la opción de hacer esto en el dominio del tiempo, pero cuantificación y amplitud se espera imprecisión si se usa.[11]

Una vez finalizada la normalización, las frecuencias de cada bloque se ordenan por amplitud, de mayor a menor.[12] MDFourier se puede configurar para comparar un rango de estas frecuencias por defecto 2000 de ellas se comparan para cada bloque definido en el archivo de configuración de nmf. [13] He encontrado que ese número es más de suficiente, y generalmente la amplitud mínima significativa limita este parámetro a un número aún menor.[14] En caso de que una comparación diferente de frecuencias sea necesario, la cantidad se puede aumentar o disminuir a través de la línea de comando u opción de comandos adicionales. Puede ser útil escuchar los resultados de estos parámetros y filtros, en para evaluar si cosas como limitar la prueba a 2000 frecuencias es sus datos del cliente para el análisis.

Para este y otros propósitos hice una herramienta extra llamado MDWave, que crea archivos de audio segmentados como procesado internamente por MDFourier, incluidos todos los filtros de procesamiento y límites de amplitud.

Después de comparar estas frecuencias entre ambos archivos, el correspondiente se encuentran coincidencias y las diferencias de amplitud se trazan en un gráfico. Por favor consulte el capítulo 4 para obtener una explicación de los diversos gráficos creados por este programa Si está interesado en aprender qué hace la Transformada de Fourier y cómo su "magia" funciona, hay varios recursos en línea.

Éstos son algunos de ellos:

Pero, ¿qué es la transformación de Fourier? Una introducción visual.

https://www.youtube.com/watch?v=spUNpyF58BY

Una introducción interactiva a las transformadas de Fourier.

http://www.jezzamon.com/fourier/

El principio de incertidumbre y las ondas.

https://www.youtube.com/watch?v=VwGyqJMPmvE

3.5 Amplitud mínima significativa

Aunque se puede comparar todo el espectro de frecuencias, hay pocas posibilidades prácticas utilizar para hacerlo debido al tiempo de ejecución y al ruido adicional de baja amplitud

Como resultado, se establecen los valores predeterminados de la regla general para minimizar estos cuestiones.

Uno de estos valores es una amplitud mínima para dejar de comparar las frecuencias fundamentales que se encuentran después de descomponer la señal con La transformada de Fourier. Esta es la amplitud mínima significativa y es la cuto en el que se detienen las comparaciones realizadas por el software.

Actualmente MDFourier puede reconocer tres escenarios para definir lo mínimo amplitud significativa para comparar las señales, y las tres se derivan de la primer bloque de silencio en el archivo.

El primer escenario es el ruido de frecuencia de la red eléctrica, que se busca a 60Hz para NTSC o 50Hz para PAL.[17] Esto se selecciona automáticamentedesde la velocidad de fotogramas calculada previamente, si está disponible.

El segundo es el ruido de la frecuencia de actualización, nuevamente derivado de la frecuencia de cuadros, enNTSC es entre 15697-15698Hz.

Si no se encuentra ninguno, lo que sería sorprendente para un archivo generado al grabardesde una consola vintage vía analógica significa la frecuencia con la más alta se utiliza la amplitud dentro del bloque de silencio.

Finalmente, en caso de que ninguno de los escenarios anteriores se cumpla, o si esos valores son

inferior a -60dBFS, se utiliza un nivel predeterminado de -60dBFS.[18]

Notas:

1 Por el momento, solo archivos WAV y FLAC de 16 bits con codificación PCM y a 44,1 o 48 kHz puede ser usado. MP3 no es compatible, ya que su método de compresión altera los resultados en este tipo de análisis como se muestra en la sección 4.6.

2 Todo el software y algunas grabaciones de ejemplo están disponibles en la página web del proyecto,vea el apéndice A para más detalles.

3 La respuesta de frecuencia plana se refiere a la capacidad de capturar todo el espectro audible con poca o ninguna variación, independientemente de la frecuencia. Una tarjeta de respuesta sin frecuencia puede se utilizará para recopilar información relativa, pero las capturas no coincidirán con el catálogo en curso en para hacer más comparaciones. Consulte Tarjetas de audio en el apéndice M para obtener más información.

4 La Suite 240p es una suite de software homebrew para consolas de videojuegos desarrollada para ayudar en la evaluación de televisores, escaladores, convertidores de escaneo ascendente, duplicadores de línea y procesamiento de video en general.

5 Ver enlace de descarga.

6 La velocidad de cuadros es la relación a la cual la consola envía cuadros de video a una pantalla. Para más detalles ver apéndice F

7 Este archivo especifica los parámetros de funcionamiento para cada configuración de hardware. Se describe en el apéndice C

8 La DFT es la variante de la Transformada de Fourier aplicada a valores discretos, como los que
tenemos en el archivo de audio [1]. El software utiliza la Transformada de Fourier más rápida en el
Biblioteca del oeste para realizar el DFT. [7]

[9] El proceso de normalización y las variantes disponibles se detallan en el apéndice E.

10 Básicamente todo el análisis desde este punto y hacia adelante tiene lugar después de que la señal ha sido descompuesto en sus ondas sinusoidales fundamentales y armónicas por la Transformada de Fourier.

11 En otras palabras, normalizar en función de las muestras y sus valores. Esto se detalla en
apéndice E.

12 Un bloque es el segmento básico de audio a comparar, como una nota específica de un sintetizadors según lo generado por el generador de tonos.

13 El archivo de configuración de perfil se describe en el apéndice C.

14 Consulte la sección 3.5 para obtener detalles sobre cómo se determina esta amplitud.

15 Consulte el apéndice B.1.5 para obtener detalles sobre cómo usarlos.

16 MDWave y sus opciones se detallan en el apéndice D.

17 PAL necesita ser probado todavía, ya que no tengo consola para ese sistema de video.

18 Esto se puede cambiar a través de las opciones de línea de comandos si es necesario. Ver apéndice B.1.5.

Capítulo 4

¿Cómo interpretar los gráficos?

La salida principal del programa es un conjunto de gráficos diferentes que varían en cantidad

basado en las definiciones hechas en el archivo nmf, [1] y las opciones seleccionadas[2] Los archivos de gráficos se guardan en la carpeta MDFourier y en una subcarpeta denominada después de los nombres de archivo WAV de entrada. Se almacenan en el gráfico de red portátil (PNG) formato. Actualmente se utilizan gráficos de 1600x800, aunque esto puede ser cambiado a través de opciones.

Para el documento actual, se utilizaron gráficos de 800x400 para t dentro de una presentación en PDF o HTML. Los gráficos de salida creados por el software se enumera y describe en el apéndice B.1.4.

En nuestros ejemplos para Mega Drive / Genesis, hay tres bloques activos [3]:FM, PSG y ruido. Esto dará como resultado un gráfico de cada tipo, más un general uno llamado TODOS.

Seguiremos una serie de resultados de diferentes archivos de entrada a MDFourier, comenzando

con casos que no tienen ninguna o algunas diferencias y se construyen sobre cada uno, para que pueda familiarizarse con qué esperar como salida.

4.1 Escenario 1: Comparar el mismo archivo contra sí mismo

El primer escenario que cubriremos es el básico, el mismo archivo contra sí mismo. Vamos a tener

en cuenta que MDFourier está diseñado para mostrar las diferencias relativas

Entonces, ¿cuál es el resultado esperado de comparar un archivo consigo mismo? Sin diferencias

en absoluto. Un archivo gráfico vacío como se muestra en la Figura 4.1.

Figura 4.1 Archivo de resultado de Amplitudes diferentes al comparar el mismo archivo contra sí mismo.

Por supuesto, todas las diferencias y gráficos faltantes solo tendrán la cuadrícula y barras de referencia, sin información trazada ya que ambos archivos de entrada son idénticos.

Todos los gráficos usan el eje horizontal para la frecuencia. Los valores comienzan desde 1Hz en el

izquierda y final a 20 kHz a la derecha, que cubre el espectro auditivo humano.[4]

Para los gráficos de diferencia, el eje vertical es la amplitud en dBFS, y un eje central para 0dBFS. Los valores se elevan a 18dBFS hacia la parte superior y caen a -18dBFS en la parte inferior del gráfico.

Habrá dos conjuntos de espectrogramas, uno para el archivo de referencia y otro para el archivo de comparación, con un gráfico para cada tipo definido más el general.

Figura 4.2 El espectrograma para un Genesis 1 VA3 a través de la salida de auriculares.

La amplitud de cada una de las ondas sinusoidales fundamentales que componen el la señal original está representada por líneas verticales que llegan desde la parte inferior a el punto que corresponde a la amplitud en dBFS. La línea también está coloreada para representa esa amplitud con la escala de la izquierda que muestra la equivalencia.

Se utilizan tres colores definidos por el nmf le [5] para trazar el gráfico, con cada uno de ellos trazando las frecuencias de cada tipo correspondiente de el archivo WAV.

La parte superior del gráfico corresponde a la amplitud máxima posible, que es 0dBFS. La parte inferior del gráfico corresponde al significado mínimo de amplitud, como se describe en la sección 3.5.

Como era de esperar, ambos conjuntos de espectrogramas son idénticos en este caso, ya que usó el mismo archivo comparado contra sí mismo.

4.2 Escenario 2: Comparación de dos registros diferentes entradas de la misma consola

Este es otro caso de control. ¿Qué deberíamos esperar ver si grabamos dos archivos de audio consecutivos desde la misma consola usando la misma tarjeta de sonido?

Figura 4.3 La misma consola, dos grabaciones diferentes.

Como puede ver, tenemos básicamente una línea en torno a cero. Esto significa que no se encontraron diferencias significativas.

Pero espera, hay diferencias. ¿Porqué es eso? Debido a muchas razones: las grabaciones analogas no siempre son idénticas, pero deberían ser inferiores a esto. Ahí También hay variaciones de la parte analógica de la consola, y probablemente de los estados internos y los relojes desde el lado digital del proceso.

Pero en este caso particular son fluctuaciones presentes en la señal FM se muestra en verde aquí como se demuestra al comparar otro tipo de audio digital grabaciones con el software de análisis[6]

Ahora sabemos que puede haber cierta cantidad de confusión o variación, alrededor de cada gráfico al comparar cierto tipo de señales debido a esta sutil matices de rendimiento. Es una situación normal que es de esperar, y un línea de base para más resultados.

Figura 4.4 Barras para porcentajes coincidentes.

Hasta ahora no hemos discutido las pequeñas barras en el cuadrante inferior izquierdo de Los gráficos. Estos representan el porcentaje de coincidencias que se hicieron. En esto caso, obtenemos todo por encima del 99.8% como se muestra en la Figura 4.4. Esto sirve como una guía rápida sobre cuán relevantes son las diferencias trazadas al comparar ambas señales. los números a la derecha son la cantidad de valores que se compararon.[7]

4.3 Escenario 3: Comparación con un archivo modificado

Para fines de demostración, se modificó el mismo archivo de referencia para agregar un ecualización paramétrica de 500Hz 6dBFS en toda la señal. Esto es artificial, es un escenario modificado y controlado para demostrar lo que significan los gráficos.

Figura 4.5 Comparado contra sí mismo modificado con una ecualización 6dBFS de 500Hz.

Como era de esperar, los tres tipos (FM, PSG y ruido) se vieron afectados y muestran un pico, exactamente 6dBFS de alto y centrado alrededor de 500Hz. Es interesante contrastar ambos espectrogramas (figuras 4.6 y 4.7), ya que el pico de 500Hz también se muestra allí.

Figura 4.6 Espectrograma para el archivo de referencia.

Figura 4.7 Comparación de archivos modificados con un pico de 500Hz.

Y los gráficos de frecuencias perdidas están básicamente vacíos, ya que no son relevantes, y faltan frecuencias en el archivo de comparación.

4.4 Escenario 4: Comparación contra filtros digitales low-pass y high-pass

Usaremos el mismo archivo de referencia y lo compararemos con un archivo modificado por varios

filtros digitales que se insertaron a través de un editor de audio:

* Un filtro Low-pass [8] a la sección FM del archivo.

* Un filtro Low-pass más pronunciado a una frecuencia de corte diferente a la sección PSG.

* Un filtro High-pass [9] a la sección Ruido a una frecuencia diferente.

La figura 4.8 muestra el gráfico general para los tres tipos:

Figura 4.8 FM con un filtro Low-pass PSG (en verde),con un filtro de Low-pass (en amarillo) y ruido con un filtro High-pass (en aguamarina

Ahora podemos ver que las frecuencias más altas por encima de 1 kHz en el gráfico FM caiga rápidamente hacia 1dBFS, por lo que el primer filtro de paso bajo está ahí, el segundo filtro de paso bajo para PSG está a 3kHz, y es más pronunciado, pero apenas podemos ver lo que sucede con la parte de ruido del gráfico.

Podemos ver que hay algunos puntos negros en la parte superior de la línea 0dBFS.

Para ver mejor lo que está sucediendo, cambiaremos la función de filtro de color a "Brillante" para que podamos tener un mayor contraste con el fondo.[10]

Figura 4.9 Uso de la configuración "Brillante" para la función de filtro de color.

Con el nuevo énfasis, ahora podemos distinguir la curva que surge de 1dBFS a 0dBFS, y se alinea con 8kHz.

Todavía podemos hacerlo mejor que eso, usando la opción Gráficos promedio[11]

Aquí está el gráfico resultante solo para la sección Ruido de la señal, con promedio habilitado:

Figura 4.10 Gráfico de ruido con la opción Gráficos promedio habilitada.

Hay algunos otros gráficos interesantes que resultan de este experimento.

Por ejemplo, los gráficos que faltan ahora muestran todas las frecuencias que los filtros bajo / alto cortaron.

Figura 4.11 Frecuencias faltantes en FM cortadas por el filtro de paso bajo.

Como se muestra en la Figura 4.11, hay una curva en el espectrograma y solo frecuencias arriba de 1kHz, aumentando lentamente en amplitud. Muchos de estos no lo son , se muestran porque están por debajo de nuestra amplitud significativa mínima definida.

Figura 4.12 Frecuencias faltantes en PSG cortadas por el filtro low-pass.

El mismo comportamiento se puede observar en la Figura 4.12. Esta es la especificación PSG del espectrograma, y muestra una curva diferente que comienza a 4kHz.

Como habrás notado, también hay una barra en el gráfico Falta. Pero en este caso representa el porcentaje de frecuencias no coincidentes, como se muestra en Figura 4.13.

Figura 4.13 Barra de frecuencias faltantes en PSG cuto por el filtro Low-pass

Y finalmente, la figura 4.14 muestra el tipo opuesto de curva, el filtro high-pass que corta todo lo que sea superior a 8 kHz en la sección Ruido.


	Figura 4.14 Frecuencias faltantes en ruido cuto por filtro High-pass.

Es un buen momento para enfatizar que estos son gráficos relativos. Ellos enseñan qué tan diferente es la señal de comparación a la señal de referencia. Y hasta ahora hemos comparado la misma señal consigo misma, aunque modificada aunque digital muy precisa manipulaciones Un filtro analógico se vería igual, pero un poco más borroso.

Sin embargo, surgen algunas ideas interesantes. ¿Qué pasaría si tomamos esta señal de filtro de paso bajo / alto y úsela como referencia y la original como comparación?

Figura 4.15 Resultados cuando se usa la señal modificada como referencia.

Basado en esto, uno podría llegar a la conclusión de que todo simplemente esta invertido después de todo, la señal original ahora aumenta a + 1dBFS al mismo tiempo y eso tiene mucho sentido ya que esas frecuencias ahora tienen un mayor amplitud.

Aunque los gráficos de diferencias se invertirán bajo estos controlados condiciones, los gráficos que faltan son diferentes. La mayoría de ellos son ahora vacío:

Figura 4.16 El gráfico de frecuencias faltantes para FM está vacío.

Esto sucede porque aunque cortamos muchas frecuencias con tal inclinación filtros de paso bajo y alto, todo el contenido de frecuencia de esta señal modificada es presente en el original, pero no al revés como se muestra arriba.

4.5 Escenario 5: Comparación de dos grabaciones
de la misma consola hecha con tarjetas de audio diferentes

Ahora compararemos la misma consola usando dos grabaciones diferentes, una hecha con el USB Lexicon Alpha y el otro con un USB M-Track[ 12]. Figura 4.17 muestra los resultados:

Figura 4.17 Diferencias con el mismo sistema y cables, pero con diferentes tarjetas de captura de audio.

Hay cierta dispersión, como era de esperar de los resultados del escenario 2.[13] Podemos decir que la dispersión se centra alrededor de la línea 0dBFS, lo que significa que incluso usando diferentes tarjetas de sonido discernimos diferencias entre sistemas.[14]

Además, hubo una ligera diferencia en las velocidades de cuadro detectadas. Esto pasa ya que el reloj de muestreo no es exactamente el mismo en ambas tarjetas de audio.[15] Aquí está El texto de salida del análisis que muestra las velocidades de cuadro detectadas:

* Carga del archivo de audio 'Referencia' A-MD1UTVA3-LA.wav

- El archivo WAV es PCM 48000Hz de 16 bits y 63.76 segundos de duración

- Inicio del tren de impulsos de sincronización: 1.88142s [361232 bytes]

- Tren de impulsos de sincronización final: 60.2921s [11576080 bytes]

- Señal de video de 59.9204 Hz detectada (16.6888 ms por cuadro) del archivo WAV

* Carga del archivo de audio 'Comparación' A-MD1UTVA3-MT.wav

- El archivo WAV es PCM 48000Hz de 16 bits y 62.5774 segundos de duración

- Inicio del tren de impulsos de sincronización: 1.44967s [278336 bytes]

- Tren de impulsos de sincronización final: 59.8602s [11493160 bytes]

- Señal de video de 59.9208 Hz detectada (16.6887 ms por cuadro) del archivo WAV

- Desequilibrio estéreo de la señal de referencia: el canal izquierdo es mayor en 0.570059%

- Desequilibrio estéreo de la señal de comparación: el canal derecho es mayor en 0.487369%

A 48 kHz, ambas tarjetas tienen relojes de muestreo muy precisos con un mínimo la diferencia [16] y MDFourier compensan estos problemas.[17] Las diferencias pueden ser más prominentes cuando se usa 44.1kHz, pero el software aún puede compensar ellos sin problemas.

Aquí está el gráfico con la opción Gráficos promedio activada:

Figura 4.18 Diferencias usando el mismo hardware y cables, diferentes tarjetas de captura con promedio habilitado

Los resultados obtenidos son bastante similares a los del Escenario 2, incluso a el punto de obtener casi los mismos porcentajes como se muestra en la figura 4.19. Así como siempre que estemos usando una tarjeta de audio de respuesta de frecuencia relativamente alta, podremos comparar resultados de diferentes sistemas incluso cuando se utiliza una variedad de tarjetas de audio.


	Figura 4.19 Barras de porcentaje de coincidencia utilizando el mismo hardware y cables, diferentes tarjetas de captura.

4.6 Escenario 6: Comparación de WAV con MP3

El archivo de audio del escenario 1 se utilizará como archivo de referencia y comparación, pero esta vez codificado como MP3 y descomprimido en WAV para usarlo con el software.[18] Si los archivos fueran idénticos, un gráfico vacío resultaría como se muestra en la Figura 4.1 del Escenario 1. Sin embargo, obtenemos algo ligeramente diferente:

Figura 4.20 Diferencias entre WAV como referencia y MP3 como comparación.

Tenemos todo centrado alrededor del 0dBFS como debería ser lo que indica las firmas de audio son muy similares. Las variaciones corresponden a lo que encontramos en el escenario 5 mientras comparábamos la misma consola con diferentes tarjetas de audio. Cabe señalar que utilizamos compresión de alta calidad para la prueba, y una configuración más baja proporcionará resultados diferentes. El lector es Invitado a experimentar con las herramientas.

Sin embargo, en este caso, aparecen algunas diferencias más si habilitamos la opción Promedio de gráficos:

Figura 4.21 Diferencias entre WAV como referencia y MP3 como comparación, promediado.

Como se puede apreciar en la parte más a la derecha del gráfico, hay un bajo pase el filtro alrededor de 18 kHz. Estas frecuencias están en el límite de la acústica humana., y la mayoría de los adultos ni siquiera podrán escucharlos. En parte esto es lo que la compresión de MP3 se basa para reducir el tamaño de almacenamiento requerido de cada archivo de audio y corte frecuencias que los seres humanos es poco probable que escuchen. Así es como la Transformada de Fourier ayuda a crear archivos de audio y video más pequeños.

Otro efecto secundario del uso de compresión con pérdida [19] como MP3 es el difuso nube de diferencias de amplitud presentes en el rango de 500Hz a 8kHz. Estamos altamente sintonizado a esta parte del espectro, ya que la mayoría de las frecuencias que normalmente componen la voz humana reside aquí.[20] Esto es muy probable que algunas personas perciben un audio de baja calidad cuando usan este tipo de archivos.

Aunque impresionante, esto no es lo suficientemente bueno para nuestro propósito, ya que estamos
tratando de medir pequeñas diferencias entre señales. Este tipo de ruido dificulta la identificación de la fuente real de las diferencias, especialmente con diferentes ajustes de codificación, tarjetas de audio y entre consolas.

Otro gráfico que muestra las mismas diferencias son las frecuencias faltantes.grafico:


		Figura 4.22 Frecuencias faltantes de MP3

Se puede apreciar que las frecuencias faltantes se detectaron después del la Línea de 18 kHz, aparte de algunos armónicos por debajo de -45dBFS.

Notas:

1Detallado en el apéndice C.

2 Vea el apéndice B.

3 El Mega Drive / Sega Genesis tiene dos sintetizadores de audio: un Yamaha 2612 (YM2612)
para audio de frecuencia modulada (FM) y un programador de sonido SN76489 de Texas Instruments (PSG) o equivalente en un ASIC para compatibilidad con Sega Master System
y canales extra de audio entre dos archivos.

4 Aunque el rango trazado puede modificarse para cubrir solo una fracción del espectro, el gráfico resultante tendrá la misma escala.

5 El archivo de configuración se describe en el apéndice C.

6 Uno de estos casos se muestra en la sección 5.11, en la que se pueden lograr resultados muy bien definidos.

7 Solo se dibuja a resoluciones más altas, ya que no son legibles en el modo 800x400.

8 Un filtro Low-pass solo permite el paso de frecuencias inferiores a un valor especificado.

9 Un filtro High-pass solo permite el paso de frecuencias superiores a un valor especificado.

10Descrito en el apéndice B.1.2.

11 Vea la sección B para detalles.

12 Consulte el apéndice M.1 para obtener detalles sobre las tarjetas de sonido utilizadas.

13 Ver sección 4.2.

14 Bajo el supuesto de que ambas tarjetas tienen una respuesta relativamente en frecuencia, como las utilizado aquí Para las especificaciones, consulte el apéndice M.1 de las tarjetas de audio.

15 Más información en el apéndice M.1.1.

16 Estamos hablando 0.0001ms. En este caso, ¡eso es 0.0000001 segundos!

17 La velocidad de fotogramas esperada de la consola vintage analizada aquí es 16.688 ms por fotograma, o 59.92Hz medido con un alcance. Ver apéndice F

18 El archivo se creó con el codificador MP3 LAME utilizando una velocidad de bits variable de alta calidad. modo, con codificación lenta habilitada y usando estéreo real.

19 Esto significa que pierde algo de información, en contraste con sin pérdida.

20 Véase Human Speech Spectrum, Frequency Range, Formants,http://www.bnoack.com/index.html y http://www.bnoack.com/audio/speech-level.html

Capítulo 6

Conclusiones

Hasta ahora, MDFourier ha mostrado resultados que son consistentes con los empíricos anteriores.
evaluaciones, y puede respaldar muchos de estos reclamos con datos. Espero que pueda proporcionar
La comunidad con un proceso que es repetible y objetivo que puede ser utilizado en cualquier proyecto donde alguien quiera preservar, comparar, replicar o jugar con los resultados.

Creo que estos casos respaldan la idea de que este proceso tiene valor y que se puede replicar en tantas plataformas como sea posible. El audio ha sido históricamente relegado a una posición secundaria, cuando la experiencia audiovisual es una todo. Los juegos no son lo mismo sin su experiencia acústica.

Esto podría ayudar a documentar las firmas de audio originales de los sistemas antiguos.
Y, por supuesto, para permitir que la comunidad juegue con variaciones y modificaciones.
que son tan válidos como los que los sistemas tenían originalmente en el lanzamiento.

********************************************************************************

Y bueno, hasta aqui esta breve introduccion al facinante mundo de MD Fourier,espero les sea de utilidad y si desea consultar el documento completo de este trabajo, por favor dirijase al este enlace ,
espero sus comentarios sobre esta publicación, así como sus sugerencias ,quejas y demás ya sea en la parte de comentarios , o a mi Twitter via DM gracias por su atención.

version 1.0