Así impacta la Inteligencia Artificial al cine: Visión Computacional

Carlos Caridad-Montero

hace 7 años

Tal vez lo hayas notado. A veces, cuando la conexión está lenta y las imágenes de Facebook tardan en cargar, en vez de la foto aparece una breve descripción. Pero no se trata de una descripción exacta de la imagen faltante. Más bien es una descripción aproximada.

La imagen podría contener: una bicicleta, una persona…

Sucede que tal descripción no ha sido generada por medios humanos. Es el resultado de complejas operaciones matemáticas de un modelo computacional, que le permite a un sistema informático mirar y reconocer los objetos que aparecen en una fotografía. Y no sólo mirar y reconocerlos, sino además describirlos. Sin intervención humana.

La funcionalidad está destinada a personas con discapacidad visual. Para que puedan organizar y compartir sus fotografías en la red social. Los usuarios invidentes pueden utilizar las funciones de lectura de texto de dispositivos móviles y computadoras para escuchar esas descripciones generadas de forma artificial.

El modelo se basa en el aprendizaje profundo y automático (deep learning y machine learning, respectivamente), en el que algoritmos matemáticos son entrenados, en este caso, para clasificar y segmentar imágenes.

Este es apenas un pequeño ejemplo de las tantas aplicaciones que podría tener, o tiene, la Visión Artificial o Computacional. Desde el reconocimiento de objetos y rostros, hasta la restauración de una imagen. Pasando por la reconstrucción de una escena en 3D a partir de imágenes en 2D. O la transferencia de estilos entre imágenes.

Algo que quizás no le haga mucha gracia a directores de fotografía.

El lamento de Kaminski

La semana pasada, en una conferencia en el marco de la NAB 2018, el veterano director de fotografía Janusz Kaminski se hacía eco de una creciente preocupación entre sus colegas. Kaminski se lamentaba de que, debido a los avances tecnológicos, los directores de foto estaban perdiendo progresivamente el control de las imágenes que filmaban.

Advertía el dos veces ganador del Oscar que las técnicas, herramientas y procesos de producción y postproducción digitales estaban diluyendo la autoría de la imagen. Resulta que Kamiski es el director de fotografía del más reciente film de Steven Spielberg, Ready Player One. Pero su contribución fue de apenas del 40%, según explicó.

Hay muchas cucharas en la sopa. Siempre y cuando tengas un buen chef, como Steven Spielberg, los resultados son buenos. Pero cuando el director no está involucrado, el director de fotografía pierde por completo el control de la imagen.
La imagen está muy manipulada. Empezando desde el set, con el trabajo del técnico de imagen digital. Las posibilidades son infinitas.
La dirección de fotografía es el arte de la luz y las sombras, metáforas visuales y sus matices. Eso está desapareciendo. Evolucionará y regresará. Pero ahora no hay muchos directores de fotografía jóvenes que usan la dirección de fotografía para expresarse.

Kaminski se refiere a técnicas que acaso puedan considerarse ya como “tradicionales”. Sobre todo, si se les compara con los más recientes avances en Inteligencia Artificial aplicados a la imagen. Dentro de poco, no sólo los directores de fotografía perderán el control y la autoría sobre la imagen.

Ready Player One, Janusz Kaminski se encargó de las escenas reales que conformaban un 40% del metraje total

Del mismo modo en que los algoritmos de visión artificial de Facebook son capaces de clasificar y describir una fotografía y los objetos que contiene; hoy existen aplicaciones basadas en redes neuronales artificiales que pueden generar imágenes a partir de textos, modificar las condiciones de luz (e incluso, ¡las fuentes de luz!) de una imagen determinada. Y hasta cambiar las condiciones climatológicas y la hora del día de un video ya filmado.

Las redes neuronales artificiales son complejos modelos computacionales que imitan el funcionamiento de una red de neuronas biológicas.

Visualización profunda: imágenes sintéticas

La visualización profunda implica el uso de redes neuronales para el entrenamiento de algoritmos que sinteticen o generen imágenes. Es decir, cuando le pides a la aplicación que te muestre un gorila, los algoritmos generarán o sintetizarán la imagen del simio.

Para realizar esto, las redes neuronales son alimentadas y entrenadas con bases de datos de cientos de miles de fotografías. Una vez que absorben la información de las imágenes, son capaces de generar su propia versión de la imagen solicitada.

Deep Visualisation, las imágenes de esta galería han sido generadas por redes neuronales a partir de una palabra

Aplicar esta tecnología de inteligencia Artificial a la forma de hacer cine puede resultar realmente revolucionario. Si con una frase puedes generar artificialmente una imagen, en un futuro no muy lejano podrías saltarte completamente la fase de rodaje.

Con sólo alimentar con tu guión una red neuronal debidamente entrenada con miles de películas, los algoritmos se encargarían de generarla.

Deep visualisation: de igual forma, las imágenes de esta galería han sido generadas a partir de la descripción textual

“Traducción” de imágenes

A finales del año pasado, en la Conference on Neural Information Processing Systems, investigadores de Nvidia (sí, el fabricante de las famosas tarjetas gráficas) presentó un algoritmo de “traducción de imagen”. El algoritmo permite cambiar las condiciones climatológicas o la luz del día de una imagen o un video.

De esta forma, los investigadores de Nvidia pueden modificar una imagen de una carretera en pleno invierno, para que parezca que ha sido grabada en un día soleado de verano.

El proceso implica el uso de un método llamado Generative Adversarial Networks, en el que una red neuronal es entrenada para generar imágenes sintéticas y otra red, opuesta, es entrenada para discernir imágenes falsas de las reales.

De este forma, ambas redes se retroalimentan en sus tareas, perfeccionando los resultados para engañar a su contraparte. El producto final resulta muy depurado. Como esta imagen capturada a plena luz del día que ha sido “traducida” a imagen nocturna.

Esta tecnología ha sido desarrollada para ser utilizada en los sistemas de manejo de vehículos autónomos. Pero si eres cineasta o te dedicas a la postproducción de imágenes, a estas alturas ya sabes muy bien las posibles aplicaciones que tendría esta tecnología en el oficio.

Transferencia de estilo visual

De una forma similar, un grupo de investigadores de la Universidad de Cornell y Adobe han desarrollado una técnica llamada Deep Photo Style Transfer. Básicamente se trata de aplicarle el estilo y la apariencia de una imagen a otra.

Actualmente, esta tarea es una función de aplicaciones de corrección de color, de video y fotografía. La diferencia es que esta técnica está basada en redes neuronales de aprendizaje profundo, en las que no hace falta la intervención humana.

Los resultados son realmente asombrosos.

Deep Photo Style Transfer: en la primera columna, la foto original. En la segunda, la imagen de referencia. En la tercera, el resultado de la transferencia de estilo.

Actualmente, una tecnología similar es usada por la aplicación Prisma y Facebook para darle apariencia de pintura a fotografías. ¿Incluirá Adobe esta tecnología en algunas de sus aplicaciones de postproducción y tratamiento de imagen? Ténganlo por seguro.

Inteligencia Artificial, más ciencia que ficción

Puede que todo lo anterior suene a ciencia ficción. Pero lo cierto es que los avances en materia de Inteligencia Artificial vas más rápido de lo que pudiéramos imaginar. Prácticamente todas las semanas surgen nuevas y sorprendentes implementaciones. Como esta tecnología que permite manipular las fuentes de luz y las sombras en una imagen.

O esta otra implementación, jocosa, que permite poner calvo a Donald Trump, en una transmisión en vivo

La tecnología que permite el desarrollo de estos ejemplos de Inteligencia Artificial es, en su mayor parte gratuita. Y de libre acceso. Google mantiene en línea su proyecto TensorFlow, una librería de código abierto para el desarrollo de redes neuronales, y Machine y Deep Learning. Así mismo, el servicio de Cloud AI, que brinda recursos en la nube para implementaciones de Inteligencia Artificial.

Facebook también pone a disposición de usuarios y desarrolladores sus herramientas de Inteligencia Artificial; mientras que un un grupo liderado por Elon Musk, de Tesla y Space X también mantiene una plataforma abierta de AI, Open AI.

Pero a diferencia de Google y Facebook, OpenAI aboga por el desarrollo de una Inteligencia Artificial segura. Conscientes acaso del gran impacto que en el corto plazo esta tecnología tendrá en todo el mundo.

Al menos, en la industria cinematográfica, este impacto será completa y absolutamente disyuntivo, revolucionario.