#LM5: ¿Por qué las nuevas Apple Vision Pro van a acelerar el ecosistema de modelos IA?

Analizamos el posicionamiento de Apple y Meta y cómo usan la IA en su camino al Metaverso/Realidad aumentada/Mixta o como se quiera llamar ahora.

jun 11, 2023

Durante su evento anual WWDC y tras años de especulaciones, Apple presentó sus primeras gafas de realidad mixta Vision Pro que, según la empresa son “el dispositivo personal más avanzado” de la historia y ponen sobre la mesa una nueva revolución tecnológica. Las características del hardware, soluciones tecnológicas y conceptos nuevos que incorporan sus más de 500 patentes hacen que el producto prometa abrir una nueva vía en la adopción masiva de la realidad aumentada/mixta/Metaverso.

El problema del Metaverso

El Metaverso (o como quiera que se llame ahora) se proyecta como el siguiente nivel evolutivo de la navegación por Internet, transformándose en la interfaz a través de la cual exploraremos la web en busca de contenido, interacciones, entretenimiento y una variedad de servicios. El Metaverso es una amalgama de diversas tecnologías y conceptos, incluyendo mundos virtuales tridimensionales, inmersión y fusión con la realidad por medio de dispositivos de Realidad Aumentada y Mixta.

El problema es que hacer esto no es fácil, ni lo va a hacer una sola empresa y principalmente ha habido mucho FOMO (miedo a quedarse fuera) y esto ha provocado que se hayan hecho inversiones un tanto decepcionantes. Muchas de las empresas que paralizado recientemente el gasto en el desarrollo, no eran tecnológicas sino de contenido, y aún no era su momento.

A pesar de las numerosas críticas que el hype y el “overpromise” han provocado sobre el concepto de Metaverso, considero que es un estupendo catalizador para la innovación. Tardará pero se terminará por hacer realidad. En este artículo de Forbes, se aclara parte de los errores que tenemos interiorizados en su concepto.

La IA que hay que crear para llegar al Metaverso

Además de Apple, Meta ha liderado el desarrollo de innovaciones en el camino de la Realidad Mixta. Uno de los puntos claves es la cantidad de modelos de IA necesarios para poder producir contenido de calidad y que sean lo suficientemente potentes como para poder ofrecer una buena experiencia de usuario. Lo resumía muy bien el gran Jose Manuel de la Chica:

Ambas empresas han estado incorporando la inteligencia artificial (IA) en sus dispositivos de realidad virtual (RV) y realidad aumentada (RA).

Estos dispositivos utilizan IA entre otras cosas para escanear el entorno en tiempo real y señalar obstáculos, lo que permite a los usuarios trazar límites virtuales con una precisión de centímetros. Los movimientos de las manos se capturan en tiempo real con una sobrecarga computacional mínima, una tarea que antes requería mucho hardware y que ahora se realiza en un dispositivo móvil. Este tipo de aplicación de IA es lo que forma la base de la realidad mixta, que es la fusión de la realidad analógica y digital que tanto Meta como Apple están apuntando con sus últimos hardwares.

La estrategia de Apple y la IA Generativa

La actitud que ha tenido habitualmente Apple con sus innovaciones y patentes ha sido obviamente utilizarla como una ventaja competitiva. Los de Cupertino no suelen crear ecosistemas abiertos de innovación ni suelen publicar demasiados proyectos OpenSource más allá de aquellos que les sirve para crear comunidad de developers para sus propios productos.

Además Apple, ha sido muy criticado por no “coger el tren de las IA Generativas”, una pregunta interesante es cómo se va a desarrollar de forma rápida y profesional todos los mundos 3D que se necesitan. Las primeras informaciones apuntan a que los desarrollos serán con Swift (su propio lenguaje de programación para Apps) y Unity (que tiene una interesante inversión en IA Gen), pero Apple no parece que vaya a desarrollar modelos de generación de entornos y contenido para su nuevo dispositivo por su propia cuenta.

Las conjeturas acerca del futuro de Apple en relación a los modelos generativos se intensificaron en la antesala de la WWDC, en especial tras la publicación de diversos empleos vinculados con la Inteligencia Artificial (IA) generativa por parte de la empresa, así como una serie de anuncios procedentes de algunos de sus principales rivales.

Algunos analistas comentan que la ausencia de debates acerca de la IA generativa parece ser una decisión de marketing por parte de Apple. La verdad es que Apple está un rezagada en cuanto a IA generativa si se compara con otros como Microsoft y Google. Por lo tanto, ha decidido sabiamente posicionarse como una empresa que sigue su propio camino en la IA, en lugar de intentar alcanzar a los demás.

Apple parece centrada en ofrecer hardware de gama alta en lugar de entrar en la enrevesada y especializada carrera de la IA generativa. Apple se refiere a sus gafas Vision Pro como un “dispositivo de computación espacial”, y por eso su CEO, Tim Cook, declara que Apple evita la palabra metaverso, un término manchado por el “bajo rendimiento” de Meta.

El brillante papel de META AI

Meta, en cambio, ha estado lanzando un montón de novedades y modelos IA a la comunidad que les servían como soporte para ir construyendo su roadmap hacia el Metaverso. Además lo han hecho en formato OpenSource con lo que cualquiera puede tener modelos e innovaciones de clase mundial accesibles.

Esta es una una cuestión estratégica que difiere en ambas compañías y que muy probablemente tiene que ver con la propia visión de sus líderes acerca del metaverso. Para Cook el uso es más personal. Para Zuckerberg es más social.

Es algo que el propio Zuckerberg expresó esta semana en un encuentro con sus empleados. En The Verge fueron testigos de la charla, y explicaron cómo según el CEO de Meta el dispositivo de Apple no le había parecido especialmente destacable:

"Diría que la buena noticia es que no tienen ninguna solución mágica a ninguna de las limitaciones de las leyes de la física que nuestros equipos no hayan explorado y pensado ya. Han optado por una pantalla de mayor resolución, y entre eso y toda la tecnología que han introducido para alimentarla, cuesta siete veces más y ahora requiere tanta energía que se necesita una batería y un cable conectado a ella para utilizarla. Hicieron esa compensación de diseño y podría tener sentido para los casos que están buscando".

Lo más relevante fue cuando indicó que las Vision Pro "podrían ser la visión del futuro de la computación, pero , en fin, no es el futuro que yo quiero". Para él ambas concepciones de producto y plataforma son muy distintas:

"Creo que su anuncio pone de manifiesto la diferencia en los valores y la visión que nuestras empresas aportan de una manera que considero realmente importante".

La reflexión a “grosso modo” es que las experiencias que mostró Apple son eminentemente personales: ver una peli, trabajar con documentos o ver un partido de la NBA. El enfoque de Meta ha sido desde el inicio mucho más social, y el mensaje era el de poder realizar reuniones de trabajo o de ocio —como aquel llamativo combate virtual de esgrima que distaba mucho de lo que luego mostraron las primeras implementaciones— con ayuda de esas gafas de realidad virtual.

Repasando, algunas de las últimas contribuciones y modelos que META AI ha publicado a la comunidad en los últimos meses, tenemos cosas tan destacadas como:

Meta MusicGEN: Modelo text-to-music que permite la generación de canciones y música desde textos descriptivos.
MegaByte: Modelo que permite superar el concepto limitante de tokens en los LLMs. El nuevo sistema Megabyte de Meta abandona la tokenización en favor de una novedosa arquitectura de predicción multicapa capaz de modelar de extremo a extremo más de un millón de bytes de datos. La mayoría de los sistemas de codificación estándar de la lengua inglesa utilizan la codificación estándar de 8 bits. En este paradigma, cada carácter ocupa un byte de datos. Por tanto, un sistema de inteligencia artificial capaz de procesar un millón de bytes de datos sin tokenización podría trabajar con documentos de texto que contuvieran 750,000 palabras, lo que supone un aumento del 3,025% respecto a GPT-4.
ImageBind: Modelo que aprende de forma multisensorial. Busca emular nuestra percepción y nuestra forma de aprender natural.
SAM: Segment Anything Model. Un modelo de computer vision que sirve para reconocer cualquier tipo de objeto en imágenes y video.
Generative AI for Advertisment: Meta sacó una feature para generar anuncios en plataformas como Facebook o instragram.
MMS: Masive Multilingual Speech. Modelo text to speech que es capaz de generar texto y audio en más de mil lenguajes.
LLaMa: Una familia de modelos LLM OpenSource que han sido usados como base para otros muchos modelos como Vicuna (un modelo OpenSource con un 90% de aproximación GPT4).

Retomando el tema central de este artículo, lo que resalta del comunicado de Apple -más allá del sorprendente dispositivo introducido- es que dirige de nuevo la atención mediática y de recursos hacia la hoja de ruta del Metaverso (o Computación Espacial, como se prefiera). Además, recalca que este largo recorrido está plagado de desafíos tecnológicos relacionados con el reconocimiento de patrones visuales y la creación de contenidos de audio, video y 3D.

Estos obstáculos o serán superados mediante el uso de la Inteligencia Artificial o no se podrán resolver de ninguna otra manera.

Por lo tanto, la labor de estas grandes empresas tecnológicas se centrará en fomentar la investigación y en vencer desafíos relacionados con la Inteligencia Artificial y nuevos modelos y técnicas, esfuerzos que seguramente redundarán en beneficios para todos en un futuro próximo.

Bienvenido sea este nuevo resurgir del Metaverso.

Lerende Machine

Discusión sobre este post