Meta presentó Llama 3.2, un modelo de lenguaje multimodal de código abierto que procesa imágenes y texto simultáneamente. Este avance llega meses después del lanzamiento de Llama 3.1.
El nuevo modelo de Meta comprende imágenes, genera texto en múltiples idiomas, y está optimizado para ejecutarse en procesadores ARM. Promete revolucionar el uso de la IA en aplicaciones cotidianas.
Capacidad multimodal para procesamiento de imágenes
Llama 3.2 destaca por su capacidad multimodal, permitiendo procesar tanto texto como imágenes. De acuerdo con Meta, este modelo puede comprender imágenes complejas, generar subtítulos, identificar objetos en fotos y analizar gráficos. La habilidad para extraer detalles visuales y redactar descripciones cortas hace de Llama 3.2 un recurso invaluable para profesionales y desarrolladores.
Además, su capacidad de razonamiento visual le permite realizar tareas complejas como la localización de objetos y la comprensión de tablas y gráficos, expandiendo el abanico de casos de uso para empresas y usuarios finales.
Integración en aplicaciones populares
Durante su presentación en la keynote de Meta Connect, Mark Zuckerberg mostró la integración de Llama 3.2 en WhatsApp, Messenger, Instagram y Facebook. En estas plataformas, el asistente de IA de Meta puede analizar imágenes enviadas por los usuarios y ofrecer respuestas contextuales o sugerencias útiles.
Por ejemplo, los usuarios pueden enviar una fotografía de un platillo y obtener una receta de preparación en cuestión de segundos. Esta capacidad de interpretar imágenes y generar respuestas detalladas es una de las características clave que diferencia a Llama 3.2 de sus competidores.
Edición de imágenes con IA
Otro de los puntos más llamativos de Llama 3.2 es su habilidad para editar fotografías basándose en comandos específicos. Zuckerberg mostró una demostración en la que, con un simple prompt, la IA añadía patines, rodilleras y un casco a una imagen existente. Este nivel de personalización en la edición de fotos es algo que puede revolucionar tanto el entretenimiento como la productividad en redes sociales.
Además de cambios estéticos, Llama 3.2 es capaz de modificar el fondo de las imágenes, cambiar el atuendo de una persona y realizar múltiples ajustes de manera eficiente y precisa.
Competencia con modelos comerciales
Meta asegura que Llama 3.2 es competitivo frente a modelos comerciales de IA como GPT-4o mini y Claude 3 Haiku. En pruebas de reconocimiento visual, el modelo de Meta ha demostrado un rendimiento sobresaliente, posicionándose como una alternativa viable a modelos cerrados que dominan el mercado.
Llama 3.2 incluye dos modelos multimodales principales: uno con 90.000 millones de parámetros y otro con 11.000 millones. A esto se suma una gama de modelos más ligeros que admiten contextos extensos y optimización para procesadores ARM, lo que permite un rendimiento ágil incluso en dispositivos locales.
Compromiso con el código abierto
Meta ha reafirmado su compromiso con el código abierto, asegurando que la nueva versión de Llama 3.2 mantiene esta filosofía. Zuckerberg resaltó la rápida evolución de los modelos de código abierto, que cada vez están más cerca de igualar a los modelos cerrados líderes del sector.
El modelo Llama 3.2 está disponible para todos los desarrolladores a partir de hoy. Junto con el lanzamiento, Meta ha puesto a disposición una guía de uso responsable y herramientas para sacar el máximo provecho de esta IA.