Daring Fireball: WWDC 2024: Inteligencia de Apple

Una historia a menudo contada es que en 2009, dos años después de que debutara Dropbox, dos años antes de que Apple presentara iCloud, Steve Jobs invitó a los cofundadores de Dropbox, Drew Houston y Arash Ferdowsi, a Cupertino para convencerlos de vender la compañía a Apple. Jobs les dijo a Houston y Ferdowsi que Dropbox era “una característica, no un producto”.

Hoy en día es fácil olvidar lo revolucionario que fue Dropbox. Una instalación simple en tu Mac y ¡boom!, tenías una carpeta que se sincronizaba entre cada Mac que utilizabas, automáticamente, de manera confiable y rápida. En ese momento, Dropbox tenía un gran letrero en su sede que decía, simplemente, “It Just Works”, y cumplieron con ese ideal, en un momento en el que ningún otro servicio de sincronización lo hacía. Jobs, por supuesto, estaba tratando de convencer a Houston y Ferdowsi de vender, pero eso no significa que estuviera equivocado al decir que, en última instancia, era una característica, no un producto. Una característica tremendamente útil, pero una característica no obstante.

Previo a la WWDC de la semana pasada, estuve pensando que esta misma descripción se aplica, de manera aún más destacada, al LLM generative AI. Fantásticamente útil, increíble a veces, pero características. No productos. O al menos no productos universalmente abarcadores. Los chatbots son productos, por supuesto. La gente paga por acceder a los mejores de ellos, o por un uso prolongado de los mismos. Pero la gente también paga por Dropbox.

Los chatbots pueden ser útiles. Hay personas haciendo trabajos increíbles a través de ellos. Pero son similares al terminal y a las herramientas de línea de comandos. La mayoría de las personas simplemente no piensan de esa manera.

Lo que Apple presentó la semana pasada con Apple Intelligence no fueron tanto nuevos productos, sino nuevas características, una gran cantidad de ellas, para productos existentes, potenciados por generative AI.

¿Safari? Mejor ahora, con resúmenes de página generados por AI. ¿Messages? Más divertido, con Genmoji. ¿Notas, Correo, Páginas (y cualquier otra aplicación que utilice los marcos de texto del sistema)? Mejor ahora, con herramientas de corrección y reescritura integradas. ¿Fotos? Incluso mejores recomendaciones de recuerdos y categorización automática de fotos en colecciones inteligentes. ¿Siri? ¿Esa frustrante e idiota Siri? Quizás, en realidad, bastante útil y ahora algo inteligente. Estos no son aplicaciones nuevas o productos nuevos. Son las aplicaciones más utilizadas, más importantes que Apple hace, las aplicaciones centrales que definen el ecosistema de plataformas de Apple, y Apple está utilizando generative AI para hacerlas mejores y más útiles, sin, de ninguna manera, volverlas desconocidas.

Teníamos muchas preguntas sobre la estrategia de generative AI de Apple antes de la WWDC. Ahora que tenemos las respuestas, todo parece muy obvio y en su mayoría sencillo. En primer lugar, sus modelos se basan casi en su totalidad en el contexto personal, a través de un índice semántico en el dispositivo. En líneas generales, este índice semántico en el dispositivo se puede considerar como un Spotlight de próxima generación. Apple se está enfocando en lo que puede hacer que nadie más puede en los dispositivos de Apple, y ni siquiera está intentando competir contra ChatGPT y otros por el contexto del conocimiento mundial. Se están enfocando en una diferenciación única y evitando la comoditización.

En segundo lugar, están realizando tanto procesamiento en el dispositivo, para tareas más pequeñas/simples, como procesamiento en la nube (bajo el nombre de Computación en Nube Privada) para tareas más complejas. Todo esto es enteramente trabajo de Apple: los modelos, los servidores (basados en silicio de Apple), toda la pila de software que se ejecuta en los servidores y los centros de datos donde residen los servidores. Esto representa una cantidad enorme de trabajo y aparentemente desmiente informes que indican que los ejecutivos de Apple solo se interesaron en generative AI hace 18 meses. Y si lograron todo esto en solo 18 meses, es un logro notable.

Cualquiera puede hacer un chatbot. (Y, al parecer, todo el mundo lo está haciendo: buscar “chatbot” en la App Store es tan útil como buscar “juego”.) Apple, conspicuamente, no ha creado uno. Benedict Evans observa agudamente:

LEAR  La transición de microLED de Apple podría retrasarse debido a problemas de cadena de suministro y producción.

Para comenzar, entonces: Apple ha construido un LLM sin chatbot. Apple ha construido sus propios modelos base, que (según las pruebas que publicaron) son comparables a cualquier otra cosa en el mercado, pero no hay ningún lugar donde puedas conectar directamente un estímulo crudo en el modelo y obtener una salida cruda, siempre hay conjuntos de botones y opciones que dan forma a lo que preguntas, y eso se presenta al usuario de diferentes maneras para diferentes características. En la mayoría de estas características, ni siquiera hay un bot visible. No haces una pregunta y obtienes una respuesta: en su lugar, tus correos electrónicos se priorizan, o presionas ‘resumir’ y aparece un resumen. Puedes escribir una solicitud en Siri (y Siri mismo es solo una de las numerosas características que utilizan los modelos de Apple), pero, incluso entonces, no obtienes la salida cruda del modelo: obtienes una interfaz gráfica de usuario. El LLM está abstracto como una llamada de API.

En lugar de eso, Apple está haciendo lo que nadie más puede hacer: integrar generative AI en los marcos en iOS y MacOS utilizados por los desarrolladores para crear aplicaciones nativas. Las aplicaciones construidas sobre los APIs y marcos del sistema obtendrán características de generative AI de forma gratuita, tanto en el sentido de que las características se obtienen automáticamente cuando la aplicación se ejecuta en un dispositivo que cumple con las especificaciones mínimas para calificar para Apple Intelligence, como en el sentido de que Apple no está cobrando a los desarrolladores ni a los usuarios por utilizar estas características.

La presentación de Apple fue excepcionalmente bien estructurada y conducida. Sin embargo, fue ampliamente malinterpretada, sospecho, porque las expectativas estaban equivocadas. Aquellos que creían que Apple estaba muy por detrás del estado del arte en tecnología de generative AI vieron erróneamente el epílogo de la presentación, el anuncio de una asociación con OpenAI para integrar su último modelo, ChatGPT-4o, como una capa opcional de “conocimiento mundial” sobre el propio Apple Intelligence, como una indicación de que la mayoría o incluso todas las características geniales que Apple reveló estaban siendo alimentadas por OpenAI. Todo lo contrario. Casi nada de lo que Apple mostró en la presentación provenía de OpenAI.

Lo que considero como los puntos principales son:

Apple continúa construyendo funciones de machine learning y generative AI en sus plataformas principales, iOS y MacOS. Han estado agregando dichas características durante años y anunciaron muchas nuevas este año. Nada de lo que Apple anunció en toda la primera hora de la presentación está bajo el paraguas de “Apple Intelligence”. Math Notes (matemáticas escritas a mano o escritas de forma libre, en Apple Notes y la aplicación Calculator, que finalmente llega a iPadOS) llegará a todos los dispositivos que ejecuten iOS 18 y MacOS 15 Sequoia. Smart Script: la nueva función de escritura personalizada al usar Apple Pencil, que tiene como objetivo mejorar la legibilidad de tu escritura a mano mientras escribes e simula tu escritura al pegar texto o generar respuestas en Math Notes, llegará a todos los iPads con un chip A14 o mejor. La categorización de bandeja de entrada y los resúmenes inteligentes de mensajes llegarán a Apple Mail en todos los dispositivos. Los resúmenes de páginas web de Safari llegarán a todos los dispositivos. Mejor recorte de fondo (“pantalla verde”) para videoconferencias. Ninguna de estas características está bajo el paraguas de “Apple Intelligence”. Son para todos los dispositivos elegibles para las actualizaciones de SO de este año.

Las especificaciones mínimas de los dispositivos para Apple Intelligence son comprensibles, pero lamentables, en particular el hecho de que los únicos iPhones actuales elegibles son el iPhone 15 Pro y Pro Max. Incluso los modelos del iPhone 15, con solo nueve meses de antigüedad, no cumplen con los requisitos. Cuando pregunté a John Giannandrea (junto con Craig Federighi y Greg Joswiak) sobre esto en el escenario en The Talk Show Live la semana pasada, su respuesta fue simple: los dispositivos de menor calidad no son lo suficientemente rápidos para ofrecer una buena experiencia. Esa es la forma en que Apple aborda las cosas: es mejor no ofrecer la función en absoluto que ofrecerla con una mala (lenta) experiencia. Los chips de la serie A anteriores al A17 Pro no tienen suficiente RAM y no tienen Neural Engines lo suficientemente potentes. Pero para cuando las características de Apple Intelligence estén disponibles, incluso en forma de beta (no están habilitadas en las betas actuales de desarrolladores), seguramente el iPhone 15 Pro será acompañado por todos los modelos de iPhone 16, tanto Pro como no profesionales. Apple Intelligence se está moviendo hacia donde estará el puck en unos años, no hacia donde está ahora.

LEAR  Lo siento, nunca podrás conducir un carro de Apple

Seguramente Apple también está siendo quisquilloso con los requisitos del dispositivo para reducir la carga en sus servidores de computación en la nube. Y si esto impulsa a más personas a actualizar a un nuevo iPhone este año, dudo que Tim Cook lo vea como un problema.

Una pregunta que me han hecho repetidamente es por qué los dispositivos que no califican para Apple Intelligence no pueden hacer todo a través de Private Cloud Compute. Todos comprenden que si un dispositivo no es lo suficientemente rápido o potente para el procesamiento en el dispositivo, eso es todo. Pero ¿por qué los iPhones más antiguos (o en el caso de los iPhones no profesionales 15, los nuevos iPhones con chips de dos años de antigüedad) no pueden simplemente utilizar Private Cloud Compute para todo? Por lo que tengo entendido, simplemente no es así como está diseñado Apple Intelligence. Los modelos que se ejecutan en el dispositivo son completamente diferentes a los que se ejecutan en la nube, y uno de esos modelos en el dispositivo es la heurística que determina qué tareas pueden ejecutarse con el procesamiento en el dispositivo y cuáles requieren Private Cloud Compute o ChatGPT. Pero, también ver el ítem anterior de esta lista, seguramente Apple también tiene preocupaciones de escalabilidad. Tal como están las cosas, con solo los dispositivos que utilizan chips de la serie M o el A17 o posterior elegibles, Apple tendría una cantidad enorme de procesamiento del lado del servidor con Private Cloud Compute. Se verían obligados a multiplicar esa escala si habilitaran Apple Intelligence para los iPhones más antiguos, con esos iPhones haciendo todo el procesamiento en la nube. El componente de procesamiento en el dispositivo de Apple Intelligence no es simplemente algo agradable de tener, es una piedra angular de todo el sistema.

Apple podría haber evitado, o simplemente retrasado el anuncio hasta el otoño, toda la asociación con OpenAI, y aún así habría tenido una impresionante variedad de características de generative AI con un amplio y práctico atractivo. Y claramente habrían recibido mucho más crédito por sus logros en el resumen de la presentación. Sigo siendo escéptico de que la integración de ChatGPT (y cualquier futuro socio LLM de chatbot basado en conocimiento mundial) a nivel de SO traerá alguna ventaja práctica significativa para los usuarios en comparación con simplemente utilizar las aplicaciones de chatbot de los fabricantes de esos LLM. Pero tal vez eliminar algunos pasos y eliminar la necesidad de elegir, descargar e inscribirse en un chatbot de terceros expondrá dichas características a muchos más usuarios de los que las están utilizando actualmente. Pero no puedo evitar sentir que la integración de estos chatbots de terceros en los SO también es tanto o más un movimiento de ingresos por servicios que un movimiento de experiencia de usuario.

El aspecto más pasado por alto de Apple Intelligence es que los centros de datos que Apple está construyendo para Private Cloud Compute no solo son neutrales en carbono, sino que operan completamente con fuentes de energía renovable. Eso es extraordinario y creo que es único en toda la industria. Pero ha pasado en gran medida inadvertido, porque Apple mismo no mencionó esto durante la presentación de la WWDC. Craig Federighi mencionó esto por primera vez en una entrevista de pospresentación con Justine Ezarik, y lo reiteró en el escenario conmigo en The Talk Show Live From WWDC. En retrospectiva, desearía haber preguntado, en el escenario, por qué Apple ni siquiera mencionó esto durante la presentación, y mucho menos lo elogió. Sospecho que la verdadera respuesta es que Apple sintió que no podía jactarse de que sus propios centros de datos funcionan completamente con energía renovable durante el mismo evento en el que anunciaron una asociación con OpenAI, cuyos centros de datos no pueden hacer tales afirmaciones. La huella de carbono de OpenAI es un secreto, y los expertos sospechan que es mala. No es decoroso echar a tu propio socio bajo el autobús, pero esto elimina el punto de venta de Apple Intelligence como neutral en carbono. Otra razón por la que siento que Apple podría haber sido mejor no anunciando esta asociación la semana pasada.

LEAR  Qualcomm afirma que el nuevo Snapdragon 8 Elite SoC tiene la 'CPU móvil más rápida del mundo'

Si no deseas o no confías en Apple Intelligence (o simplemente aún no lo deseas), podrás desactivarlo. Y tendrás que optar por utilizar la función integrada de ChatGPT, y, cada vez que Apple Intelligence decida enviarte a ChatGPT para manejar una tarea, deberás permitirlo explícitamente. Según el diseño actual, nadie va a interactuar accidentalmente, o exponer información personal, con ChatGPT. Si acaso, sospecho que la queja más común vendrá de personas que desean usar ChatGPT sin confirmación cada vez. Algunas personas querrán una opción de “Permitir siempre” para enviar solicitudes a ChatGPT, pero según los representantes de Apple con los que he hablado, aún no existe tal opción.

A nivel técnico, Apple está utilizando la indirección para anonimizar los dispositivos de ChatGPT. OpenAI nunca verá tu dirección IP o ubicación precisa. A nivel de política, OpenAI ha acordado no almacenar datos de usuario, ni utilizar datos para fines de capacitación, a menos que los usuarios hayan iniciado sesión en una cuenta de ChatGPT. Si deseas utilizar Apple Intelligence pero no ChatGPT, puedes hacerlo. Si deseas utilizar ChatGPT de forma anónima, puedes hacerlo. Y si deseas que ChatGPT lleve un historial de tus interacciones, también puedes hacerlo, iniciando la sesión en tu cuenta. Los usuarios tienen total control, como debería ser.

VisiónOS 2 no está recibiendo ninguna función de Apple Intelligence, a pesar de que el Vision Pro tiene un chip M2. Una razón es que VisionOS sigue siendo una plataforma muy nueva, Apple todavía está ocupada construyendo los fundamentos, como reorganizar y organizar aplicaciones en la vista de inicio. VisionOS 2 ni siquiera está recibiendo características como Math Notes, que, como mencioné anteriormente, ni siquiera está bajo el paraguas de Apple Intelligence. Pero otra razón es que, según pajaritos bien informados, Vision Pro ya está haciendo un uso significativo del Motor Neural del M2 para complementar el chip R1 para fines de procesamiento en tiempo real: oclusión y detección de objetos, cosas así. Con las Mac y iPads equipadas con chips de la serie M, el Motor Neural está básicamente allí, totalmente disponible para las características de Apple Intelligence. Con el Vision Pro, ya se está utilizando.

“Apple Intelligence” no es una sola cosa o un solo modelo. O incluso dos modelos, local y en la nube. Es una sombrilla para docenas de modelos, algunos de ellos muy específicos. Uno de los mejores, potencialmente, es un nuevo modelo que permitirá a Siri responder preguntas de soporte técnico sobre los productos y servicios de Apple. Este modelo ha sido entrenado en la extensa Base de Conocimiento de documentación de soporte de Apple. La queja eterna es que “nadie lee la documentación”, pero tal vez ahora eso ya no es un problema porque Siri está leyéndola. Las plataformas de Apple son tan ricas y profundas, pero el conocimiento de la mayoría de los usuarios es superficial; obtener respuestas correctas de Siri a preguntas específicas sobre cómo hacer las cosas podría ser un cambio de juego. La porquería generada por IA está contaminando los resultados de búsqueda web para obtener ayuda técnica; Apple está utilizando IA dirigida entrenada en su propia documentación para evitar la necesidad de buscar en la web en primer lugar. La documentación técnica no es emocionante, pero exponerla toda a través de consultas en lenguaje natural podría ser uno de los éxitos sorpresa