Apple lanza una IA de código abierto para editar imágenes con lenguaje natural

Loading

Los esfuerzos de Apple en el campo de la inteligencia artificial avanzan a paso firme, pese a que muchos piensen lo contrario. Investigadores de la firma de Cupertino se aliaron con la Universidad de California en Santa Bárbara (UCSB) para crear MGIE, un nuevo modelo de código abierto que permite editar imágenes usando lenguaje natural.

Es cierto que la web hoy se encuentra abarrotada de herramientas que permiten crear imágenes a partir de la inteligencia artificial generativa. Sin embargo, el esfuerzo de Apple y los expertos de la citada Universidad se ha enfocado en la «edición guiada», sacando provecho de los modelos de lenguaje multimodales de gran escala (MLLM, por sus sigas en inglés).

De acuerdo con los desarrolladores de esta herramienta, MGIE interpreta la imagen y la orden que el usuario ingresa y procede a realizar la edición, incluso sin poseer mayor contexto sobre el material o la solicitud en sí misma. Así, por ejemplo, uno de los casos presentados es el de la fotografía de una pizza. Utilizando solamente la descripción «hazla más saludable», la inteligencia artificial de Apple modificó la imagen para incluir tomates y hierbas sobre ella.

«MGIE consta de un MLLM y un modelo de difusión. El MLLM aprende a derivar instrucciones expresivas concisas y ofrece orientación visual explícita. El modelo de difusión se actualiza conjuntamente y realiza la edición de imágenes con la imaginación latente del objetivo previsto mediante un entrenamiento de extremo a extremo. De esta manera, MGIE se beneficia de la derivación visual inherente y aborda comandos humanos ambiguos para lograr una edición razonable. En el ejemplo […], es difícil captar lo que significa «saludable» sin un contexto adicional. Nuestro MGIE puede conectar con precisión ‘ingredientes vegetales’ con la pizza y conducir a la edición correspondiente según las expectativas humanas».

De la mano de MGIE, los investigadores de Apple y la UCSB quieren demostrar que los modelos de lenguaje multimodales de gran escala pueden ayudar a que la edición de imágenes con inteligencia artificial sea más sencilla. En especial, facilitando las instrucciones necesarias para obtener los resultados deseados.

La nueva inteligencia artificial de Apple puede editar imágenes con lenguaje natural

Los responsables del proyecto indican que las instrucciones humanas suelen ser demasiado breves para que los actuales métodos de edición con IA las entiendan y procesen correctamente. Así, afirman que usar un MLLM para esta tarea «mejora el control y la flexibilidad» al editar imágenes, sin necesidad de máscaras regionales o descripciones demasiado elaboradas.

Los ejemplos que han presentado hacen más sencillo comprender de qué se trata toda esta historia. Además de lo que ya mencionamos de la pizza, la inteligencia artificial de Apple puede realizar ediciones al estilo Photoshop. En una imagen se ve a un hombre en primer plano y a una mujer detrás de él, a lo lejos, sentada en un sillón. Con el comando «elimina a la mujer en el fondo», MGIE modifica la foto para que solo el sujeto en primer plano sea visible. Pero no se limita a borrar a la mujer; también cambia el enfoque y lo centra en la expresión en el rostro del hombre.

Los expertos de UCSB y Apple han logrado, además, que la inteligencia artificial realice ediciones locales. Por ejemplo, que cambie lo que aparece en la pantalla de la foto de un ordenador, sin tocar el resto de la imagen. Como así también que pueda concretar optimizaciones globales, como subir el brillo o ajustar la definición del material, entre otras posibilidades.

Al tratarse de un proyecto de investigación, todavía no se sabe si Apple planea incorporar esta inteligencia artificial en su software disponible al público. No obstante, como indicamos al comienzo, deja en claro que los de Cupertino están prestándole cada vez más atención a este tipo de tecnologías. No olvidemos que los de la manzana introdujeron recientemente MLX, una herramienta que permite crear modelos de aprendizaje automático.

(hipertextual.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones de infraestructura de Data centers y edge computing, componentes activos (UPS, AAC, generadores, tableros eléctricos, PDU) y pasivos (cables, gabinetes, pisos, accesorios, conectores), ciberseguridad, seguridad (perimétrica y de data) y controles (cámaras, extinguidores de gas, tableros de acceso). Energia limpia: generadores solares de energía para Data centers. Equipamiento integral para y hacia la nube. Buenas prácticas ambientales”, que estamos preparando para nuestra edición 207 y publicaremos en el mes de febrero.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Notas Relacionadas