Tres pasos logran que estos vídeos con más de 100 años parezcan recién grabados

Te explicamos el proceso en el que intervienen tres algoritmos a los que hay que entrenar previamente

  • Comentar
  • Imprimir
Comparación del vídeo original de la llegada del tren a La Ciotat y de la versión mejorada
Comparación del vídeo original de la llegada del tren a La Ciotat y de la versión mejorada

Puede que en estas últimas semanas hayas visto circulando por las redes vídeos filmados hace más de un siglo, pero con una extraordinaria calidad e incluso a color. Un paseo por el Nueva York de 1911 o por el París de finales del siglo XIX, o la llegada de un tren a la villa de La Ciotat (Francia) en 1896 –filmada por los hermanos Lumière, los inventores del cinematógrafo, de cuya primera proyección en este 2020 celebramos 125 años– son algunos ejemplos creados por el programador ruso Denis Shiryaev, quien acumula muchos más ejemplos en su cuenta de Youtube. En Verne, te explicamos cómo Shiryaev ha conseguido, con la ayuda de la inteligencia artificial, que estos fragmentos de película analógica tengan ese toque tan actual.

Utilizaremos este vídeo de la llegada del tren a La Ciotat, de los hermanos Lumière, para ilustrar este proceso, que se divide en tres partes:

1. Mejorar la resolución

Recuerda que estos vídeos que ahora ves en tu móvil u ordenador fueron filmados analógicamente con un cinematógrafo sobre una película de celuloide. Para poder trabajar con ellos, es necesario digitalizarlos, convertirlos en información digital: píxeles. Ya hay muchos museos y archivos nacionales que han hecho este trabajo por nosotros y los tienen disponibles para descargar en sus páginas web. Tal y como explica en sus vídeos, Shiryaev utilizó esta grabación de otra cuenta de Youtube, pero el archivo original puede encontrarse, por ejemplo, en la web del Museo de Arte Moderno de Nueva York.

Lo primero que hizo el programador fue mejorar la calidad del vídeo, aumentando la resolución máxima con la que había sido digitalizado de 720 píxeles hasta una de 4K (capaz de alcanzar los 2160 píxeles). ¿Cómo? Decimos que lo hizo él, pero en realidad no es así. Este proceso, como los otros dos que veremos más adelante, lo realiza un sistema de inteligencia artificial sofisticado que no requiere de la supervisión directa de un humano –lo que se conoce como deep learning (aprendizaje profundo)– aunque sí de un entrenamiento previo.

Como se explica en este artículo de la consultora tecnológica Smart Panel, este aprendizaje profundo es una categoría de la inteligencia artificial capaz de crear algoritmos automáticos que emulan el aprendizaje humano con el fin de obtener ciertos conocimientos. Es decir, que se le entrena para efectuar determinadas tareas.

En este vídeo de la cuenta de Youtube Dot CSV explican cómo se entrena un algoritmo para que consiga ampliar la resolución de un vídeo a partir de dos acciones: la percepción de una imagen y la generación de otra imagen relacionada con esa percepción. Ante una imagen difusa de un objeto pero con ciertas pistas de lo que se puede ver en ella (por ejemplo, el color), nuestro cerebro es capaz de predecir qué es realmente. En el vídeo ponen de ejemplo una aparente mancha amarilla que, con alta probabilidad, nuestro cerebro identificará como un limón o una pelota de tenis gracias al registro de imágenes similares que almacenamos en nuestra memoria. Para que el algoritmo reaccione igual, debemos alimentarlo con un gran registro de imágenes, en eso consiste su entrenamiento. Una vez entrenado, el algoritmo estaría listo para percibir una imagen, identificar los elementos que hay en ella y generar más detalles (información en píxeles) de la misma, mejorando su calidad.

Para escalar la resolución del vídeo de los hermanos Lumière, Shiryaev utilizó el algoritmo Gigapixel, desarrollado por Topaz Labs, según cuenta el propio autor.

2. Más fotogramas por segundo, como en los móviles

En la grabación original de los Lumière hay pequeños saltos que le restan fluidez. Hay que retrotraerse a su época y los inicios del cine para entender por qué. La secuencia de imágenes fijas (fotogramas) proyectadas a una determinada velocidad producen la sensación de movimiento. Para el ojo humano esa velocidad es a partir de los 10 o 12 fotogramas por segundo (FPS). Aún así, a esta velocidad se pueden ver todavía pequeños saltos en el vídeo. El cine tal y como lo conocemos se rueda a 24 FPS, aunque los vídeos de los hermanos Lumière no llegaban a esa cifra. Con la irrupción del cine digital, se empezó a probar con formatos de 30 FPS y superiores.

Shiryaev intenta eliminar los saltos aumentando la frecuencia de fotogramas por segundo. ¿Cómo? De nuevo, vuelve a utilizar un algoritmo de deep learning, creado por ingenieros de Google y registrado con el nombre de DAIN. En este caso, ha sido entrenado para intercalar fotogramas entre los huecos que había en la secuencia original de 16 FPS y aumentarlos hasta los 60 FPS, generando esa sensación de fluidez del vídeo como la que presenta los vídeos que grabamos con nuestros móviles.

3. Del blanco y negro al color

Shiryaev ya tiene el vídeo del tren a su llegada a La Ciotat en una resolución 4K y a 60 fotogramas por segundo, pero le queda un último paso para conseguir que ese vídeo de 1896 parezca que fue grabado ayer: el color.

A estas alturas, ya podemos intuir de qué se vale el programador ruso para colorear un vídeo que fue filmado originalmente con una película en blanco y negro, y que por lo tanto no registró ningún tipo de color. Efectivamente, un algoritmo inteligente llamado DeOldify es el encargado de esta tarea.

Su creador, el ingeniero informático estadounidense Jason Antic, explica a Verne por email cómo funciona este algoritmo creado a partir de redes generativas antagónicas (GAN por sus siglas en inglés). “Para crear estas imágenes a color se emplean dos redes neuronales: una generadora y una crítica. La generadora sabe cómo reconocer las cosas en las imágenes y, por lo tanto, puede ver una imagen en blanco y negro y descubrir qué color debe usarse para la mayoría de las cosas en esa imagen. Si no lo sabe, hace todo lo posible para elegir un color que tenga sentido. La misión de la crítica es la de averiguar si esa imagen con esos colores es real. La red generadora está constantemente tratando de engañar a la crítica para que crea que las imágenes que genera son reales”. Es esta dinámica antagónica la que hace que las dos redes neuronales artificiales vayan mejorando el resultado de la imagen hasta dar con una que la crítica acepte como real. DeOldify funciona tanto para vídeo como para imágenes fijas.

Y voilá, ya podemos ver en el vídeo los tonos azules de la chaqueta del empleado de estación, los cremas de la falda de una pasajera o el chal a cuadros con tonos burdeos de otra señora.

Como detalla Shiryaev en la información de sus vídeos en Youtube, a estos tres procesos le añade un aumento de la definición de la imagen (mejora la nitidez y la resolución) con el programa After Effects y, en algunos casos, una reducción del ruido (elimina el grano de las películas antiguas). Por supuesto, para trabajar con estos algoritmos es necesario un ordenador con una memoria gráfica potente.

Si te has quedado con ganas de ver más, aquí te dejamos otros ejemplos de vídeos antiguos escalados a resolución 4K y coloreados con estas técnicas de inteligencia artificial:

* También puedes seguirnos en Instagram y Flipboard. ¡No te pierdas lo mejor de Verne!

  • Comentar
  • Imprimir

Comentar Normas

Lo más visto en Verne