Las imágenes generadas por IA y una cuenta pendiente: por qué les cuesta tanto hacer manos realistas

La inteligencia artificial generativa saltó a la fama desde dos frentes: uno de ellos popularizado a partir del ChatGPT, tuvo que ver con lograr modelizar el lenguaje para que estos sistemas comprendan el lenguaje natural y entreguen respuestas elaboradas a partir de los patrones que se forman en sus redes neuronales. Se entrenaron con grandes cantidades de texto.

El otro frente fue el de realizar entrenamientos a partir de imágenes. En este caso el objetivo es a partir de una descripción en texto que da el usuario la IA nos da una imagen. Pero al usar estos sistemas pronto aparece un problema: se logran imágenes muy buenas pero los errores más imporantes están en las manos: es común verlas con 4 o 6 dedos u otras alteraciones.

En ambos casos el principio es el mismo se trata de entrenar los sistemas con muchos datos que van alimentando el LLM (modelo de lenguaje grande, aunque una mejor traducción sería modelo de lenguaje extendido, ya que lo que hace el modelo es partir el lenguajes muchas subpartítculas). Pero hay diferencias en sus arquitecturas. ChatGPT, Gemini, y los demás utiliza principalmente redes neuronales recurrentes (RNNs), que son buenas para procesar secuencias de datos como el lenguaje. En cambio los generadores de imágenes se basan en redes neuronales convolucionales (CNNs), que son buenas para procesar imágenes y reconocer patrones espaciales.

Y resulta que encontrar los patrones de las manos es desafiante. Las manos humanas contienen una ingeniería maravillosa. Poseen una estructura compleja con 27 huesos, 39 articulaciones y numerosos músculos, tendones y ligamentos que les permiten realizar una amplia gama de movimientos y acciones.

Sin embargo, esta complejidad representa un desafío importante para las IAs generativas de imágenes. A diferencia de otras partes del cuerpo como la cara o el torso, las manos presentan una topología más cambiante, es decir, su forma y estructura pueden variar significativamente dependiendo de la pose, el gesto o la acción que se esté realizando.

Además, las manos suelen ser más pequeñas y tener más detalles que otras partes del cuerpo, lo que dificulta que los modelos de IA aprendan a representarlas con precisión. Las imágenes con las que son entrenadas las IA no parecen otorgarlas la suficiente información como para que encuentren los patrones adecuados para su representación.

Por estas razones, las IAs generativas de imágenes suelen tener más dificultades para generar imágenes de manos realistas que de otras partes del cuerpo. Las manos pueden aparecer con dedos deformados, proporciones incorrectas o poses extrañas. Cosas que son evidentes para nosotros no lo son para ellas.

A pesar de estos desafíos, los investigadores están trabajando constantemente para mejorar la capacidad de las IAs para generar imágenes de manos realistas. Se están desarrollando nuevas técnicas e investigaciones para abordar los problemas mencionados, como el uso de conjuntos de datos más grandes y diversos, el desarrollo de algoritmos específicos para las manos y la incorporación de conocimientos anatómicos en los modelos de IA. El problema de la manos muestra la necesidad de una “orquestación de la IA” donde varios modelos de IA trabajan en conjunto.

En la actualidad, una de las IA que se destacan por su versatilidad en la generación de imágenes es Ideogram. También tiene errores pero muchas veces logra representar las manos de una forma aceptable. En general estas IA dan cuatro imágenes por cada pedido que realiza el usuario, con la idea de que al menos una se acerque a lo que necesita. Hay buena chances en este caso que al menos una de esas imágenes tenga imágenes aceptables.

Otro tema que no deja de ser notable es que aunque el usuario repita su pedido, por ejemplo: “una imagen de un árbol de manzanas con mariposas”, el sistema generará imágenes diferentes. Ya no “sabe” cómo logró hacer la imagen anterior. Las redes neuronales no son como los sistemas convencionales. Son sistemas que entregan una respuesta y puede bien suceder que no la repitan. A no ser que los patrones estén lo suficientemente reforzados, como sucede con una pregunta como cuánto es dos mas dos.

Sin embargo la mayoría de las veces los patrones logran hacer algo general, como un árbol, mas que algo bien particular como para repertir determinado árbol. Es por eso que se requiere que el usuario agregue mucho contexto y detalles para que los resultados se parezcan. El caso de las imágenes por el tipo de redes neuronales con las que trabajan las diferencias se hacen más notbles.

El avance de las IA es sin dudas sorprendente, y hasta sorprendió a sus propios creadores. Nadie estaba pensando seriamente en que la técnica de los Transformers revelada en el mítico paper por 8 investigadores de Google llevara la tecnología hasta estas tierras de una inteligencia artificial generativa. Se pretendía traducir texto no crear una especie de criatura digital inteligente. Pero el tiempo pasó, Google no pudo retener ni a uno de los investigadores que realizaron el descubrimiento basal de la IA que se fueron a fundar sus propias starups. Y, se solucionaron muchísimos problemas, sin embargo las manos, nuestras manos, tienen algo especial. Las manos mágicas te dirán la forma de aprender bonitos trucos que de magia son… y que la IA aún no puede aprender.

Las imágenes generadas por IA y una cuenta pendiente: por qué les cuesta tanto hacer manos realistas

Una de las herramietas de IA generativas más utilizadas es la generación de imágenes. Sin embargo, y pese a los avances, aún tienen dificultades con las manos. ¿Qué sucede?

Tags

Tigo dejó atrás su unidad financiera para apostar al próximo objetivo: el 5G en Paraguay.

De la transformación digital a la excelencia: itti en el Ranking de los Mejores Lugares para Trabajar™ para Mujeres

La aerolínea paraguaya Paranair pasa a manos de Grupo canadiense

Casa Albirroja, el corazón del aliento a la selección desde el Puerto de Asunción: proyecta 10.000 visitantes diarios

Camino al green: Asunción Golf Club busca acercar más personas al golf

Más noticias

Así funciona la startup que usa un ejército de 15.000 hackers para poner a prueba a GPT-5, Claude y Gemini

Cuesta US$ 20.000 y se agotó en cinco días: el robot humanoide que busca revolucionar las tareas de cuidado y del hogar

Cuál es el peligro de convertir el espacio en un campo de batalla: una guerra sin ganadores posibles

La startup respaldada por Sam Altman y Peter Thiel que sueña con aviones comerciales de velocidad supersónica

La carrera del billón de dólares: Anthropic acelera su IPO y desafía el dominio de OpenAI

La insurtech de IA que se convirtió en unicornio y duplicó su valuación a US$ 2.600 millones en semanas

Revés para Jeff Bezos: Blue Origin tuvo la mayor explosión de un cohete en 69 años

Anthropic ahora vale casi un billón de dólares, más que OpenAI

Una membresía. Posibilidades ilimitadas.

Las imágenes generadas por IA y una cuenta pendiente: por qué les cuesta tanto hacer manos realistas

Una de las herramietas de IA generativas más utilizadas es la generación de imágenes. Sin embargo, y pese a los avances, aún tienen dificultades con las manos. ¿Qué sucede?

Tags

Más noticias

Iniciá sesión en Forbes

Crear una cuenta

Iniciar sesión