Es inevitable que a estas alturas todos hayan escuchado de Sora, el modelo de inteligencia artificial generativa que produce video a partir de texto. Desde su revelación al mundo hace un par de semanas, este nuevo producto desarrollado por OpenAI no ha hecho sino acapararse la atención de los medios, y no es para menos, su presentación cambia muchas de las predicciones en el campo de la IA a la vez que augura una transformación de la industria audiovisual y la animación, pero ¿será un cambio para bien o para mal? Pues hay mucha tela para cortar aquí y todavía no podemos prever todas las implicaciones, pero que no queda duda de que estamos ante una tecnología altamente disruptiva.
Vamos por partes, en primer lugar, Sora es un modelo generativo de vídeo a partir de texto que puede producir clips de 60 segundos con calidad 1080p (por ahora). Según OpenAI, puede manejar múltiples personajes, diferentes tipos de movimientos y fondos en sus creaciones. Encima de eso, se dice que podrá extender clips de videos existentes, aunque eso todavía no lo hemos en acción.
Every single one of these videos is AI-generated, and if this doesn't concern you at least a little bit, nothing will
The newest model: https://t.co/zkDWU8Be9S
(Remember Will Smith eating spaghetti? I have so many questions) pic.twitter.com/TQ44wvNlQw
— Marques Brownlee (@MKBHD) February 15, 2024
Volviendo al tema principal, la compañía responsable afirma que Sora tiene “una comprensión profunda del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes. El modelo comprende lo que el usuario ha pedido en el mensaje y cómo existen esas cosas en el mundo físico.”
De igual manera, hemos visto que Sora puede manejar un amplio rango de estilos, como realista y cinematográfico, así como también animación 3D, metraje que parece filmado en cámaras GoPro e incluso tipo videojuego. Hablar de lo que puede hacer Sora es una cosa, pero verlo en acción es otra cosa.
Esto es lo que puede hacer Sora
El modelo todavía no está disponible al público, pero ya hay bastantes ejemplos flotando en Internet y algunos pueden pasar como clips de películas o metraje de stock si no examinamos la toma con detenimiento.
Para nosotros, lo más impresionante es el avance de esta tecnología en tan poco tiempo. Hace un año nos reíamos de los primeros ejemplos (no de OpenAI, cabe añadir) de generación de vídeo a partir de texto. Quizás recuerden el infame video de Will Smith comiendo spaghetti hecho con IA, ese que parecía sacado de un sueño febril y que llevaba la marca de agua de Shutterstock por todas partes. No obstante, ahora suena otra tonada, y los vídeos generados por IA lucen así y solo hay un año de diferencia entre ambos ejemplos:
How it started (1 year ago) vs how it's going: pic.twitter.com/vOrQd7wyBb
— Garrett Scott 🕳 (@thegarrettscott) February 15, 2024
Otro aspecto igualmente impresionante de Sora es su versatilidad y capacidad de seguir cosas en movimiento. En el siguiente ejemplo, se le pidió que genere un metraje que siguiese desde atrás a un SUV viejo por un camino rústico rodeado de pinos en una empinada ladera de montaña; los resultados hablan por sí solos.
Honestamente, si no hubiese visto este clip por primera vez en el sitio oficial de Sora pensaría que se trata de un video totalmente real, y estamos seguros de que fuera de contexto puede engañar a más de uno.
En una vena similar a lo anterior, tenemos el siguiente clip de una carrera de Fórmula 1 a través de las calles de San Francisco. Si no fuese por lo desubicado que está el puente Golden Gate en el escenario y la falta de una escudería reconocible en el vehículo sería más convincente.
3: OpenAI Sora: A scuba diver discovering a hidden shipwreck from the future pic.twitter.com/UJxAoNiKwy
— Rowan Cheung (@rowancheung) February 25, 2024
Mi clip favorito de Sora hasta el momento es de los caninos haciendo un podcast en una montaña:
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
Sora no es perfecto, pero apenas es el principio
Naturalmente, podemos encontrar muchas imperfecciones y detalles que delatan la naturaleza o, mejor dicho, la artificialidad de estos clips, como por ejemplo lo incoherente del rayado peatonal en el clip de la mujer en Tokio (el primer ejemplo), eso por no mencionar lo antinatural que luce el movimiento de ciertos peatones en el fondo, pero aun así sigue siendo impresionante la coherencia y nivel de detalles del personaje principal.
De igual manera, Sora puede fallar y cuando lo hace es de manera estrepitosa e inquietante. No he podido encontrar muchos ejemplos de esto, pues obviamente esa no es manera de promocionar un producto, pero abajo encontrarán un clip de lo que pasa cuando falla:
⚡️ Se acaba de anunciar Sora, un modelo IA de @OpenAI que genera vídeo-a-partir-de-texto. Parece un NUEVO SALTO que eclipsa lo que había.
De los ejemplos lo que más impresiona es verlo “fallar”, como aquí, porque se ve real y al mismo tiempo artificial, generado: pic.twitter.com/ho9jAPfCDo
— Kiko Llaneras (@kikollan) February 15, 2024
Como verán, los resultados tienen una cualidad surrealista, quizás comparable a sueños sin lógica, y es curioso que todo menos la silla parezca convincente.
Con eso en mente, podríamos seguir con los ejemplos de lo que está mal en los clips mostrados hasta ahora, pues innegablemente las rarezas de la IA quedan expuestas cuando sacamos la lupa, pero hay que considerar tres cosas. Primero, en muchos casos hay que mirar bien el vídeo antes de determinar que está hecho con IA, algo que hasta hace poco era evidente a simple vista, y esto ya es un logro considerable.
En segundo lugar, esto es lo peor que se verá esta tecnología, en 5 o 10 años quien sabe cómo se verán los resultados si sigue mejorando constantemente. En tercer lugar, OpenAI tiene planes más grandes para Sora que ser un generador de vídeo y, de hecho, sus capacidades van más allá de eso.
Sora va más allá de un generador de vídeo
Lo interesante no termina aquí, pues según la propia OpenAI, el objetivo de todos sus modelos es ayudar a personas resolver problemas que requieren interacción con el mundo real. ¿Cómo Sora puede ayudar exactamente con eso? De momento lo desconocemos, pues sus creadores no se han explicado, aunque ya podemos dar por sentado que ayudará a la siguiente generación de cineastas y artistas visuales a materializar su visión. Como mínimo, estamos seguros de que les ahorrará unos billetes a las productoras en el futuro.
Sea como sea, Sora ya ha demostrado tener más potencial que solo generar vídeos, ya hemos visto a la IA renderizar un videojuego. El clip que verán a continuación no es realmente Minecraft con algún shader vistoso, sino que fue generado por IA:
OpenAI Sora can simulate Minecraft I guess. Maybe next generation game console will be "Sora box" and games are distributed as 2-3 paragraphs of text. pic.twitter.com/9BZUIoruOV
— Andrew White (@andrewwhite01) February 16, 2024
Esto es posible debido a que Sora se parece más a un “motor de físicas basado en datos” que a un generador de imágenes. El modelo realiza miles de cálculos para predecir cómo interactúa un objeto con su entorno. Esto crea un “modelo mundial” que, según expertos, lo hace perfecto para generar videojuegos. Es muy temprano para hablar de juegos generados por IA, pues hay miles de retos técnicos que superar, pero es un comienzo y, además, no es la única aplicación de esta tecnología que mira más allá de la creación de vídeos.
Un documento técnico de OpenAI sobre Sora sugiere que la ampliación continua de los modelos de vídeo es un camino prometedor hacia el desarrollo de simuladores altamente capaces del mundo físico y digital. De igual manera, no se descarta que un futuro se use como un motor gráfico capaz de reemplazar los canales de gráficos diseñados a mano, al menos esto es lo que teoriza el Dr. Jim Fan, investigador principal de Nvidia.
If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, "intuitive" physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
¿El fin de lo real y autentico?
La revelación de Sora ha reavivado el debate de la autenticidad en los medios durante la era digital y también ha sonado las alarmas en cuanto a seguridad, pues es otra tecnología que se suma a la lista de herramientas que pueden generar desinformación, contenido de odio y dañar la imagen de personas.
Hay que reconocer que, junto a los deepfakes, esta tecnología tiene su lado potencialmente oscuro. En este orden de ideas, sabemos que OpenAI ya está trabajando arduamente en medidas para contrarrestar el abuso de esta tecnología, como políticas de uso que prohíben la generación de videos con violencia extrema, contenido sexual, la imagen de figuras públicas/celebridades y contenido de propiedades intelectuales ajenas. No obstante, los malos actores siempre encuentran una manera de circunvenir estas limitantes y aunque OpenAI mantenga a su modelo correctamente adiestrado, es solo cuestión de tiempo para que aparezca otro competidor sin tantas limitaciones éticas y morales, algo así como el caso de ChatGPT y FraudGPT del que hablamos el otro día.
De igual manera, es preocupante que ya pusimos pie en la época dónde no podemos creer lo que vemos en pantalla, y si bien algunos dirán que este ha sido el caso por décadas, les recordamos que tecnologías como Sora bajarán significativamente la barrera de entrada para crear contenido audiovisual manipulado. Dentro de poco cualquiera podrá generar videos convincentes de casi cualquier cosa imaginable con solo unos cuantos prompts, y este prospecto aterra y asombra por igual.
También afectará al arte en la industria audiovisual y cambiará las reglas del juego
Como cabe esperar, la introducción de una tecnología altamente disruptiva como ésta ya ha encendido fuertes discusiones y nos ha dado muchísimo que pensar.
Por un lado, entendemos que herramientas como Sora seguramente agilizarán los flujos de trabajo y reducirán los costos en producciones audiovisuales, pero también hay que tomar en cuenta que esto implicará la desaparición de varios equipos artísticos involucrados en estas producciones. Aquí no solo estamos contemplando la pérdida de más puestos trabajos, sino también del toque humano. El “arte”, cine y vídeo se mercantilizarán y corporativizarán aún más, y todo gracias a unas pocas empresas con ánimo de lucro.
Por otro lado, está el contraargumento que reitera que el arte siempre lo harán humanos, y que las áreas más afectadas son las que prioricen el diseño funcional sobre el arte en sí, pues la gente siempre valorará el aporte humano. Aun así, esto no quita que a futuro veremos mucho más contenido sin alma o “esencia” como dicen algunos. Y quizás sea muy temprano para empezar a preocuparnos por la era de las películas y vídeos generados por inteligencia artificial, pero el punto es que nos estamos acercando a ese momento, y esto naturalmente genera inquietudes y da que pensar.
Si algo podemos dar por sentado, es que se perderán trabajos, lo cual siempre es algo lamentable, y para muestra un botón, hace poco el cineasta Tyler Perry suspendió la expansión de su estudio (valorada en 800 millones de dólares) después de ver a Sora en acción.
Sin embargo, también se dice que este invento permitirá a más personas acercarse a la industria del cine y hacer sus propias películas, lo cual es algo positivo, aunque hemos de advertir que en un principio habrá más cantidad que calidad.
Esto es lo que está haciendo OpenAI para garantizar la seguridad del modelo
Como ya dejamos establecido, Sora es una tecnología altamente disruptiva con potencial de ser abusada, y es por estas razones que ya OpenAI trabaja en salvaguardas para prevenir el desuso de la herramienta. En su blog oficial la compañía menciona que tendrá un clasificador de texto que rechazará solicitudes que violen las políticas de uso de la compañía.
En resumen, no se le podrá solicitar al modelo que genere contenido muy violento, sexual, de incitación al odio o con la imagen de figuras públicas y/o celebridades. Encima de eso, han desarrollado clasificadores de imágenes que revisarán cada frame con el objetivo de garantizar que el contenido se adhiera a las políticas de uso.
Otra medida que está tomando OpenAI es el desarrollo de una herramienta para ayudar a detectar y clasificar clips de vídeo generados por Sora, lo que debería ayudar a combatir el contenido engañoso y la desinformación. Adicionalmente, contará con todas las medidas de seguridad que ya están presentes en otras herramientas IA de la compañía como DALL·E 3 y ChatGPT.
Por último, OpenAI ha prometido ponerse en contacto con legisladores, educadores y artistas para así tomar notas de sus preocupaciones de esta tecnología e identificar tanto casos de uso positivos como negativos.
Si bien podemos aplaudir los esfuerzos de OpenAI para regular su producto, no es esta compañía ni herramienta la que nos preocupa, sino las otras que vendrán y que quizás no tendrán tantos tapujos a la hora de generar vídeo, pues una vez que el genio está fuera de la botella, no es posible dar marcha atrás.