La semana pasada, Nvidia lanzó una nueva versión de Nvidia Broadcast (se abre en una nueva pestaña): el software de aprendizaje profundo basado en inteligencia artificial que puede eliminar el ruido, eliminar/reemplazar el fondo, enmarcar la cámara y ahora… Contacto visual. Ese último está actualmente en beta y… probablemente debería permanecer en beta.
La IA y el aprendizaje profundo han estado mucho en las noticias últimamente, y por una buena razón. Cosas como Dall-E, Midjourney y Stable Diffusion están creando arte a partir de texto, a menudo con resultados impresionantes. Por supuesto, otras veces terminas con criaturas mutadas mutiladas con dos cabezas y media y muchas extremidades. En el lado del texto, ChatGPT está produciendo una escritura legible que muchos temen significa la sentencia de muerte para los ensayos y el periodismo en inglés (y no, él no escribió esta publicación de noticias).
La idea detrás del contacto visual es bastante simple: cuando estás en un webcast o en una reunión, a menudo apartas la mirada de la cámara. De hecho, existe una posibilidad real de que siempre estés mirando hacia otro lado de la cámara, porque está en la parte superior de la pantalla y las cosas que quieres ver están en la pantalla. Pero, ¿y si hubiera una manera de hacer que parezca que estás mirando tu cámara sin mirarla?
¿Qué pasaría si pudiera entrenar un modelo de IA en rostros y enseñarle cómo corregir la imagen donde alguien no está mirando directamente a la lente? Obtenga millones de imágenes correctamente etiquetadas, introdúzcalas en la red y es una herramienta increíble, ¿verdad?
Implementarlo no es tan simple; Nvidia ha estado hablando sobre su función de contacto visual durante más de un año, y ahora se está lanzando al público (beta). Las diferencias entre una miríada de caras alrededor del mundo hacen que sea un problema difícil de «resolver» y, aún ahora, los resultados son… imperfectos (y eso es algo bueno).
Seguí adelante y lo probé de todos modos, en un sistema con un RTX 3090 Ti:
Una de las cosas que noté en las pruebas es que muchas veces la transmisión de video en vivo fluctuaba entre mirar a la cámara y mirar hacia otro lado, aunque mi enfoque permanecía en el mismo lugar. Creo que esto podría ser intencional, porque hacer que alguien mire directamente a la cámara durante todo un chat de video sería un poco espeluznante, pero si es así, se deben hacer algunos ajustes de tiempo.
Lo que es más difícil de decir es si este tipo de efecto es beneficioso en primer lugar. Si quieres lucir como si estuvieras mirando a la cámara, probablemente deberías aprender a mirar… a la cámara. Abordar el error humano a través de la IA podría terminar fomentando malos hábitos: ¿qué sucede si termina en una transmisión de video que no corrige el contacto visual?
Independientemente, Nvidia Broadcast with Eye Contact ahora está disponible para que los propietarios de RTX lo prueben. Lo probé con un RTX 3090 Ti, pero Nvidia enumera el RTX 2060 como punto de entrada (y eso debería incluir las GPU móviles RTX 3050, hasta donde yo sé). A más largo plazo, sospecho que en algún momento Nvidia eliminará algunos modelos de IA que son más complejos y requieren un hardware más rápido que un RTX 2060, al igual que la función Frame Generation de DLSS 3 requiere una tarjeta gráfica de la serie RTX 40, pero por ahora cualquier GPU RTX fabricada en los últimos cuatro años puede impulsar esta función.
¿Te gusta el efecto, lo odias, lo encuentras espeluznante o algo más? Háganos saber en los comentarios, junto con cualquier otro efecto que prefiera ver. Personalmente, espero con ansias el momento en que todos podamos tener avatares de dibujos animados virtuales como Toy Jensen hablando en lugar de personas reales, tal vez leyendo artículos escritos por IA, con los videos y artículos siendo consumidos por la IA.
¡Son bots todo el camino desde allí!