LM#4: Google Strikes Back
Las novedades de IA en el Google I/O 2023 y la respuesta de OpenAI
Esta semana se celebró Google I/O, donde Sundar Pichai presentó un set impresionante de novedades. Google ha desplegado capacidades IA que venía trabajando este tiempo atrás en más de 25 productos.
He de decir que siempre he sido muy fan de Google, de su cultura y de sus productos tanto como usuario como a nivel empresarial.
Dirigiendo una empresa que tiene relación de partnership con los principales fabricantes de software empresarial (Microsoft, Google, etc.) confieso que me gusta especialmente trabajar con Google.
Destacaría lo accesibles que son, es muy, muy, muy sencillo trabajar codo a codo con ellos y ofrecen un montón de recursos y facilidades a sus clientes y partners. Cada vez que hay una oportunidad comercial, un cliente, una duda técnica, etc. cuesta muy poco tener acceso a la persona adecuada y que se remangue contigo para aportar valor. Es realmente admirable su agilidad.
Lo hacen muy bien y por ese excelente comminment toda la comunidad llevaba tiempo esperando la respuesta de Google y su posicionamiento en IA y en especial en IAs Generativas.
Se le ha venido mirando con lupa y algunos anuncios suyos han venido siendo muy criticados, en mi opinión también sacando de contexto algunos puntos.
He recopilado los anuncios más interesantes para que podáis ver las capacidades de los nuevos productos desarrollados por Google. Y eso sin contar los teléfonos inteligentes Pixel, las tablets y otros dispositivos de hardware presentados en la misma conferencia.
GOOGLE IA Y LLMS
PaLM 2
La versión actualizada del modelo de lenguaje grande PaLM es más potente y flexible.
PaLM 2 se entrena con datos en más de 100 idiomas y permite colaborar en proyectos de codificación, matemáticas y escritura creativa.
El modelo de lenguaje grande Med-PaLM 2 relacionado, se orienta a diagnosticar condiciones médicas y alcanzó un 85% de precisión en el Examen de Licencia Médica de EE. UU.
El modelo de base multimodal de próxima generación Gemini está actualmente en entrenamiento.
Bard
El LLM generativo conversacional de Google ahora está accesible al público general en más de 180 países, ha aprendido japonés y coreano, y está en camino de hablar 40 idiomas.
Desafortunadamente y debido a la especial legislación Europa sobre GDPR y las nuevas directivas IAs no está aun disponible en los países de la UE.
Aquí dejo un interesante hilo de mi admirada Elen Idiazabal donde analiza la desventaja competitiva que supuso el GDPR y como estamos repitiendo el patrón con la nueva normativa IA que quieren implementar en UE.
Pronto llegarán capacidades visuales, incluyendo imágenes en las respuestas y la opción de incluir imágenes en los prompts aprovechando Google Lens para obtener subtítulos para las fotos y otros comentarios.
Los modelos de IA generativa Adobe Firefly ejecutarán la función de texto a imagen de Bard y simplificarán la edición en Adobe Express.
Se están trabajando integraciones con otros servicios de terceros, incluyendo Kayak, OpenTable, Instacart, Wolfram, etc.
Bard chat tiene la capacidad de exportar y ejecutar código con Replit, comenzando con Python.
Vertex AI
Tres nuevos modelos base están disponibles a través de API, Generative AI Studio, o Data Science Notebook.
El modelo base de texto a código Codey puede añadirse a SDKs o aplicaciones para la creación y edición de código.
El modelo base de texto a imagen Imagen proporciona producción de medios sintéticos y ha estado en una demo de pruebas durante un año.
Los nuevos modelos base de voz a texto Chirp están diseñados como una especie de traductor universal para el servicio al cliente y asistentes de IA habilitados para voz.
BÚSQUEDA Y CREACIÓN
Google Search
Google incluirá snapshots generadas por IA en los resultados de búsqueda y con resúmenes de preguntas y modo conversacional para continuar la búsqueda sin que la IA olvide el contexto relevante.
El nuevo sistema de búsquedas de Google, basado en Bard, se centra más en hacer preguntas que en usar palabras clave. Este cambio podría alterar la forma en que interactuamos con la web, y nos obliga a repensar cómo buscamos y procesamos la información.
Google Photos
Google Photos está lanzando una nueva herramienta Magic Editor con la capacidad de mover y editar objetos, extendiendo la herramienta Magic Eraser y permitiendo la manipulación de la iluminación y otros elementos.
La nueva herramienta "About this Image" evalúa el contenido visual para rastrear su historia y determinar si podría ser un deepfake.
Google Duet
Portfolio de IA generativa para Google Workspace denominada Google Duet. (Recordemos este nombre que va a ser importante en el futuro).
La nueva herramienta "Help Me Write" de Gmail redactará correos electrónicos, incluyendo el llenado automático de nombres y otra información relevante.
La herramienta de texto a imagen estará incrustada en Google Slides.
Google Sheets automatizará la clasificación de datos y creará planes personalizados.
Google Meet aprovecha la IA generativa para crear fondos únicos y enmascarar el entorno de un usuario.
Google también introdujo Duet AI para Google Cloud, un colaborador basado en IA generativa que acelera la producción de código, genera funciones completas en tiempo real y ayuda en la revisión del código. Con Duet AI, Google está haciendo que su plataforma cloud sea más accesible y productiva.
Conclusiones
Google, con su amplio despliegue de innovaciones, y en particular con PaLM2, ha avanzado significativamente. Y en mi opinión ha cubierto las expectativas creadas con suficiencia.
PaLM2 es un modelo multimodal (texto, imágenes, etc.) que se adapta a diferentes tamaños para ofrecer una solución eficiente.
PaLM2 sobresale cuando se personaliza para dominios específicos de los clientes, manteniendo la más estricta confidencialidad de sus datos privados.
Se puede usar incluso en dispositivos que no están conectados a la red.
Un escenario inicial y que nos estamos encontrando en multitud de clientes sería volcar tus documentos internos, regulaciones, manuales operativos, correos electrónicos y luego interactuar de manera natural y segura con ellos.
Uno de los puntos débiles que requiere mucho esfuerzo en la comunicación es que el hecho de no haber liberado BARD en la UE puede dar a entender que los modelos PaLM2 no están listos para ser utilizados en clientes. Nada más lejos de la realidad, se anunció que múltiples clientes ya están utilizando modelos de este tipo en sus propias soluciones, incluyendo eDreams en España, Deutsche Bank, Orange, Uber, entre otros.
Gemini y la respuesta de OpenAI
Uno de los anuncios, en mi opinión, más importantes de la I/O y que ha quedado algo soterrado es el avance de GEMINI el proyecto que viene a competir con GPT4 y que están realizando Google Brain y Deep Mind.
GEMINI es un LLM que tendrá un billón de parámetros como GPT-4. Se dice que el proyecto está utilizando decenas de miles de chips de IA TPU de Google para el entrenamiento y será multimodal.
Así mismo, la importancia del proyecto para Google se demuestra por el hecho de que incluso Jeff Dean, el jefe de Google Brain y el ejecutivo de investigación de IA de mayor rango en Google, está desempeñando un papel técnico en el proyecto y está escribiendo código para este nuevo modelo.
Por otra parte, todos estos anuncios han desencadenado una reacción en OpenAI que ha tomado posiciones para cubrir su mayor debilidad (datos solo hasta 2021). Por ello han decidido liberar los Plugins y Browse a todos los usuarios de ChatGPT Plus con el fin de poder darle capacidades de navegación a internet a su sistema.
What’s next?