Bot de dibujo de Microsoft, nueva tecnología de Inteligencia Artificial que dibuja imágenes a partir de descripciones de texto.

Microsoft esta desarrollando en sus laboratorios de Investigación, una nueva tecnología de Inteligencia Artificial , capaz de generar imágenes a partir de descripciones de texto similares a subtítulos. A esta tecnología la han llamado simplemente Bot de dibujo.

Bot de dibujo, puede generar todo tipo de imágenes, desde paisajes hasta escenas de lo absurdo con una capacidad impresionante y detallada, solo a través de descripciones del objeto.

Las imágenes realizadas por el Bot de dibujo, contienen detalles ausentes en las descripciones del texto, lo que indica que esta inteligencia artificial contiene una imaginación artificial. En la práctica, es posible pedirle que dibuje un «pájaro amarillo, con alas negras, posado en una rama» para que la IA le presente una imagen como ésta:

Es decir, el sistema no busca imágenes existentes que correspondan a su descripción, el software crea la imagen de raíz, materializando todos los detalles descritos «píxel a píxel», como explica uno de los investigadores del proyecto. «Estos pájaros pueden incluso no existir en el mundo real – son sólo fruto de la imaginación de la computadora», escribe Xiaodong He.

Esta IA tiene otros dos sistemas en su base: el CaptionBot, que genera descripciones automáticas para fotografías existentes y Seeing AI, que proporciona información adicional sobre las imágenes. A estos programas, Microsoft ha añadido otras funcionalidades que califican la calidad de la imagen generada.

El núcleo del bot de dibujo de Microsoft es una tecnología conocida como Red Adversarial Generativa, o GAN. La red consiste en dos modelos de aprendizaje automático, uno que genera imágenes a partir de descripciones de texto y otro conocido como discriminador, que utiliza descripciones de texto para juzgar la autenticidad de las imágenes generadas. El generador intenta que las fotos falsas pasen por encima del discriminador; el discriminador nunca quiere ser engañado. Trabajando juntos, el discriminador empuja al generador hacia la perfección.

Para que este Bot de dibujo logre esto, Microsoft lo entrenó con datos de imágenes con un título, lo cual le permitió entender como es la imagen que corresponde a cada palabra. Aprendió a dibujar un ave, cuando el título dice “ave” y aprendió como es que debería lucir la imagen de un ave. Por este motivo los investigadores creen que “una máquina puede aprender”.

El bot de dibujo de Microsoft, cierra un círculo de investigación alrededor de la interrelación entre de la visión por computadora y el procesamiento del lenguaje natural, campo que se ha estado desarrollando por Microsoft, durante la última media década. Empezaron con el «CaptionBot», una tecnología que escribe automáticamente una foto, luego pasaron a una tecnología que responde a las preguntas que los humanos hacen sobre una imagen, como la ubicación o atributos de los objetos, y ahora Bot de dibujo que dibuja a través de descripción. Sin duda tecnologías que serian especialmente útiles para las personas ciegas.