Cómo funciona el sistema que reconstruye el rostro desde la voz

(Por Eduardo Aguirre) Una pregunta recurrente tanto en charlas de café como en ámbitos académicos es ¿hasta dónde pueden llegar los desarrollos tecnológicos tales como machine learning e inteligencia artificial? La respuesta es cada vez más difícil de imaginar. 

Es que logros propios del cine y la literatura han abandonado el mundo de la ficción y hoy son realidades tangibles.

Uno de los más recientes y asombrosos ejemplos es Speech2Face, el sistema desarrollado por investigadores del MIT (Massachusetts Institute of Technology) que permite reconstruir el rostro de una persona con solo escuchar algunos segundos de su voz, tal como podés ver en el video que acompaña esta nota.

En la publicación en la cual expusieron los resultados de la investigación los seis responsables afirmaron: ¿Cuánto podemos inferir sobre la apariencia de una persona por la forma en que habla?
En este artículo, estudiamos la tarea de reconstruir una imagen facial de una persona a partir de una breve grabación de su voz hablando. Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas que hablan en sitios como YouTube. Durante la capacitación, nuestro modelo aprende sobre los rostros de las personas y sus correlaciones de voz. Esto le permite producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y la etnia. Esto se hace de manera auto-supervisada, utilizando la co-ocurrencia natural de rostros y habla en videos de Internet, sin la necesidad de modelar los atributos explícitamente. Nuestras reconstrucciones, obtenidas directamente del audio, revelan las correlaciones entre caras y voces. Evaluamos y cuantificamos numéricamente cómo, y de qué manera, nuestras reconstrucciones del audio de Speech2Face se asemejan a las verdaderas imágenes faciales de los altavoces.

Desde luego este tipo de experimentos conllevan un dilema ético al cual los investigadores no le rehúyen. “Aunque se trata de una investigación puramente académica, creemos que es importante discutir explícitamente en el documento un conjunto de consideraciones éticas debido a la posible sensibilidad de la información facial”, sostienen al abrir ese capítulo y añaden que el modelo informático no puede recuperar la verdadera identidad de una persona (es decir, una imagen exacta de su rostro). Esto se debe a que está capacitado para capturar características visuales (relacionadas con la edad, el género, etnia, etc.) que son comunes a muchas personas, y solo en los casos en que existe evidencia lo suficientemente sólida como para conectar esas características visuales con los atributos. Como tal, el modelo solo producirá caras de apariencia promedio, con características visuales que se correlacionan con el habla de entrada. No producirá imágenes de individuos específicos.

Los científicos utilizaron en el momento de la prueba para las reconstrucciones de rostros segmentos de voz de entrada de 3 segundos y 6 segundos respectivamente (en ambos casos usamos el mismo modelo). Como se observa en la imagen que acompaña esta nota, con una mayor duración del habla las caras reconstruidas capturan mejor los atributos faciales. Por cierto, en algunos casos, los resultados obtenidos son realmente asombrosos.

¿Qué más podrán lograr estas tecnologías de redes neuronales? No hay límites a la vista.

El paper completo con los resultados de la experiencia está aquí.

De distribuidora familiar a gigante nacional: Biocups produce 45.000 cucuruchos por hora (“primos” de Grido, abastecen a Arcor, Freddo y más)

(Por Juliana Pino) Lo que hace más de 40 años comenzó en Córdoba con Raúl Santiago junto a sus hermanos, fundadores de la empresa, para cubrir una necesidad insatisfecha en el rubro heladero, hoy se consolidó como la mayor fábrica argentina de envases de oblea. Con alcance nacional, exportaciones en crecimiento y certificaciones internacionales, Biocups abastece a grandes marcas como Grido, Mostaza, Arcor, Freddo, Caseratto y entre otras.

Nuevo Audi A5 en Argentina: versiones, diseño y precios del sedán premium

Audi Argentina suma un nuevo modelo a su gama local con la llegada del nuevo Audi A5, un sedán que marca un cambio de era para la marca en el segmento mediano premium. Treinta años después de la llegada del histórico Audi A4, esta nueva generación adopta la denominación A5, combinando diseño deportivo, tecnología avanzada y una experiencia de manejo más eficiente y refinada.

Argentina lanza su Primer Censo Nacional del Sector Solar Fotovoltaico

El miércoles 2 de julio se realizó el webinar de presentación del Primer Relevamiento Oficial del Sector Solar Fotovoltaico en Argentina, una iniciativa impulsada por el Instituto Nacional de Tecnología Industrial (INTI) en conjunto con la Cámara Argentina de Energías Renovables (CADER). Este relevamiento busca obtener un panorama actualizado de una de las actividades con mayor proyección de crecimiento en el país.

Neuquén consigue apoyo clave del BID y el Banco Mundial para potenciar Vaca Muerta e infraestructura provincial

El gobernador de Neuquén, Rolando Figueroa, culminó una intensa gira por Estados Unidos que dejó resultados concretos para el desarrollo de la provincia. Durante su paso por Washington y Nueva York, obtuvo el respaldo del Banco Mundial y el Banco Interamericano de Desarrollo (BID), que comprometieron financiamiento estratégico para obras viales, proyectos energéticos y planes de transición digital orientados a fortalecer el ecosistema productivo de Vaca Muerta.

El gobierno traslada a los usuarios el costo de subsidiar el gas en zonas frías (y aplicará aumentos en las facturas)

El gobierno nacional decidió que los usuarios de gas de todo el país deberán afrontar desde este mes un recargo destinado a financiar el consumo residencial en las regiones más frías de la Argentina. La medida, que ya fue oficializada por el Ente Nacional Regulador del Gas (Enargas), implicará un incremento de alrededor del 2 por ciento en el monto total de las boletas.