¿Qué es la inferencia de IA en el borde, y por qué es importante para las empresas?

La inferencia de IA en el borde se refiere a la ejecución de modelos de aprendizaje automático (ML) entrenados más cerca de los usuarios finales en comparación con la inferencia de IA en la nube tradicional. La inferencia en el borde acelera el tiempo de respuesta de los modelos de ML, lo que permite aplicaciones de IA en tiempo real en industrias como juegos, salud y retail.

¿Qué es la inferencia de IA en el borde?

Antes de analizar específicamente la inferencia de IA en el borde, vale la pena comprender qué es la inferencia de IA en general. En el ciclo de desarrollo de IA/ML, la inferencia es donde un modelo de ML entrenado realiza tareas en datos nuevos, previamente no vistos, como hacer predicciones o generar contenido. La inferencia de IA ocurre cuando los usuarios finales interactúan directamente con un modelo de ML incrustado en una aplicación. Por ejemplo, cuando un usuario ingresa un comando a ChatGPT y recibe una respuesta, el momento en que ChatGPT está “pensando” es cuando se produce la inferencia, y la salida es el resultado de esa inferencia.

La inferencia de IA en el borde es un subconjunto de la inferencia de IA donde un modelo de ML se ejecuta en un servidor cerca de los usuarios finales; por ejemplo, en la misma región o incluso en la misma ciudad. Esta proximidad reduce la latencia a milisegundos para una respuesta del modelo más rápida, lo que es beneficioso para aplicaciones en tiempo real como reconocimiento de imágenes, detección de fraudes o generación de mapas de juegos.

Michele Taroni

Enlaces sociales de navegación

Jefe de Producto de IA en Gcore.

Cómo se relaciona la inferencia de IA en el borde con la IA en el borde

La inferencia de IA en el borde es un subconjunto de la IA en el borde. La IA en el borde implica procesar datos y ejecutar modelos de ML más cerca de la fuente de datos en lugar de en la nube. La IA en el borde abarca todo lo relacionado con la informática de IA en el borde, desde servidores en el borde (el borde metropolitano) hasta dispositivos IoT y estaciones base de telecomunicaciones (el borde lejano). La IA en el borde también incluye el entrenamiento en el borde, no solo la inferencia. En este artículo, nos centraremos en la inferencia de IA en servidores en el borde.

Cómo se compara la inferencia en el borde con la inferencia en la nube

Con la inferencia de IA en la nube, se ejecuta un modelo de ML en el servidor remoto de la nube, y los datos del usuario se envían y procesan en la nube. En este caso, un usuario final puede interactuar con el modelo desde una región, país o incluso un continente diferente. Como resultado, la latencia de la inferencia en la nube varía desde cientos de milisegundos hasta segundos. Este tipo de inferencia de IA es adecuado para aplicaciones que no requieren procesamiento de datos local o baja latencia, como ChatGPT, DALL-E y otras herramientas GenAI populares. La inferencia en el borde difiere en dos aspectos relacionados:

LEAR  El regreso de Lowry para "Slave", una obra que ayudó a cambiar la ley

La inferencia se realiza más cerca del usuario final
La latencia es más baja

Cómo funciona la inferencia de IA en el borde

La inferencia de IA en el borde se basa en una infraestructura de TI con dos componentes arquitectónicos principales: una red de baja latencia y servidores con chips de IA. Si necesitas una inferencia de IA escalable que pueda manejar picos de carga, también necesitas un servicio de orquestación de contenedores, como Kubernetes; esto se ejecuta en servidores en el borde y permite que tus modelos de ML se escalen hacia arriba y hacia abajo rápidamente y de forma automática. Hoy en día, solo algunos proveedores tienen la infraestructura para ofrecer inferencia global de IA en el borde que cumpla con estos requisitos.

Red de baja latencia: Un proveedor que ofrece inferencia de IA en el borde debería tener una red distribuida de puntos de presencia en el borde (PoPs) donde se encuentran los servidores. Cuantos más PoPs en el borde, más rápido será el tiempo de ida y vuelta de la red, lo que significa que las respuestas de los modelos de ML ocurren más rápido para los usuarios finales. Un proveedor debería tener decenas, o incluso cientos, de PoPs en todo el mundo y debería ofrecer enrutamiento inteligente, que dirige una solicitud de usuario al servidor en el borde más cercano para utilizar la red distribuida global de manera eficiente y efectiva.

Por favor regístrese en el boletín de TechRadar Pro para obtener todas las principales noticias, opiniones, características y orientación que su negocio necesita para tener éxito!

Servidores con aceleradores de IA: Para reducir el tiempo de cálculo, necesitas ejecutar tu modelo de ML en un servidor o máquina virtual con un acelerador de IA, como las GPU de NVIDIA. Hay GPUs diseñadas específicamente para inferencia de IA. Por ejemplo, uno de los modelos más recientes, la GPU NVIDIA L40S, tiene hasta 5 veces mejor rendimiento de inferencia que las GPUs A100 y H100, que están diseñadas principalmente para entrenar grandes modelos de ML pero también se utilizan para la inferencia. La GPU NVIDIA L40S es actualmente el mejor acelerador de IA para realizar inferencia de IA.

Orquestación de contenedores: Desplegar modelos de ML en contenedores hace que los modelos sean escalables y portátiles. Un proveedor puede gestionar una herramienta de orquestación de contenedores subyacente en tu nombre. En esa configuración, un ingeniero de ML que busca integrar un modelo en una aplicación simplemente cargaría una imagen de contenedor con un modelo de ML y obtendría un punto de salida de modelo de ML listo para usar. Cuando ocurre un pico de carga, los contenedores con tu modelo de ML se escalan automáticamente hacia arriba y luego se escalan hacia abajo cuando la carga disminuye.

Principales beneficios de la inferencia de IA en el borde

La inferencia de IA en el borde ofrece tres beneficios clave en diversas industrias o casos de uso: baja latencia, seguridad y soberanía, y eficiencia de costos.

LEAR  Manzana superará las ganancias pero probablemente guiará por debajo del consenso: JPMorgan según Investing.com.

Baja latencia

Cuanto menor sea la latencia de red, más rápido responderá tu modelo. Si la latencia promedio de un proveedor es inferior a 50 ms, es adecuada para la mayoría de las aplicaciones que requieren una respuesta casi instantánea. En comparación, la latencia en la nube puede ser de varios cientos de milisegundos, dependiendo de tu ubicación en relación con el servidor en la nube. Esta es una diferencia notable para un usuario final, ya que la latencia en la nube podría provocar frustración mientras los usuarios esperan respuestas de IA.

Ten en cuenta que una red de baja latencia solo representa el tiempo de viaje de los datos. Una latencia de red de 50 ms no significa que los usuarios obtendrán una salida de IA en 50 ms; debes sumar el tiempo que el modelo de ML tarda en realizar la inferencia. Ese tiempo de procesamiento del modelo de ML depende del modelo que se esté utilizando y puede representar la mayor parte del tiempo de procesamiento para los usuarios finales. Por eso es importante garantizar que estás utilizando una red de baja latencia, para que tus usuarios obtengan el mejor tiempo de respuesta posible mientras los desarrolladores de modelos de ML continúan mejorando la velocidad de inferencia del modelo.

Seguridad y soberanía

Mantener los datos en el borde, es decir, localmente para el usuario, simplifica el cumplimiento de las leyes y regulaciones locales, como el GDPR y sus equivalentes en otros países. Un proveedor de inferencia en el borde debería configurar su infraestructura de inferencia para cumplir con las leyes locales y garantizar que tú y tus usuarios estén protegidos de manera adecuada.

La inferencia en el borde también aumenta la confidencialidad y privacidad de los datos de tus usuarios finales porque se procesan localmente en lugar de enviarse a servidores remotos en la nube. Esto reduce la superficie de ataque y minimiza el riesgo de exposición de datos durante la transmisión.

Eficiencia de costos

Normalmente, un proveedor cobra solo por los recursos computacionales utilizados por el modelo de ML. Esto, junto con el escalado automático cuidadosamente configurado y los horarios de ejecución del modelo, puede reducir significativamente los costos de inferencia. ¿Quién debería utilizar la inferencia de IA en el borde?

Aquí tienes algunos escenarios comunes donde la inferencia en el borde sería la elección óptima:

La baja latencia es crítica para tu aplicación y usuarios. Una amplia gama de aplicaciones en tiempo real, desde reconocimiento facial hasta análisis de operaciones comerciales, requieren baja latencia. La inferencia en el borde brinda la opción de inferencia con la menor latencia.
Tu base de usuarios está distribuida en múltiples ubicaciones geográficas. En este caso, necesitas proporcionar la misma experiencia de usuario, es decir, la misma baja latencia, a todos tus usuarios, independientemente de su ubicación. Esto requiere una red en el borde distribuida globalmente.
No quieres lidiar con el mantenimiento de la infraestructura. Si el soporte de la infraestructura en la nube y de IA no es parte de tu negocio principal, puede valer la pena delegar estos procesos a un socio experimentado y experto. Así puedes centrar tus recursos en el desarrollo de tu aplicación.
Deseas mantener tus datos locales, por ejemplo, dentro del país donde se generan. En este caso, debes realizar la inferencia de IA lo más cerca posible de tus usuarios finales. Una red en el borde distribuida globalmente puede satisfacer esta necesidad, mientras que es poco probable que la nube ofrezca el alcance de distribución que necesitas.

LEAR  Aquí te explicamos por qué deberías comprarlo a manos llenas en este momento.

¿Qué industrias se benefician de la inferencia de IA en el borde?

La inferencia de IA en el borde beneficia a cualquier industria donde se utilice IA/ML, pero especialmente a aquellas que desarrollan aplicaciones en tiempo real. En el sector tecnológico, esto incluiría aplicaciones de IA generativa, chatbots y asistentes virtuales, ampliación de datos y herramientas de IA para ingenieros de software. En los juegos, sería la generación de contenido y mapas de IA, análisis en tiempo real de jugadores y personalización y conversación en tiempo real de bots de IA. Para el mercado minorista, las aplicaciones típicas serían la compra inteligente con auto-pago y merchandising, la prueba virtual de ropa y la generación de contenido, predicciones y recomendaciones. 

En la manufactura, los beneficios se ven en la detección de defectos en tiempo real en las tuberías de producción, aplicaciones de RV/VX y retroalimentación de respuesta rápida, mientras que en la industria de los medios y el entretenimiento sería el análisis de contenido, traducción en tiempo real y transcripción automatizada. Otro sector que desarrolla aplicaciones en tiempo real es el automotriz, y particularmente la respuesta rápida para vehículos autónomos, personalización de vehículos, asistencia avanzada al conductor y actualizaciones de tráfico en tiempo real.

Conclusión

Para las organizaciones que buscan implementar aplicaciones en tiempo real, la inferencia de IA en el borde es un componente esencial de su infraestructura. Reduce significativamente la latencia, garantizando tiempos de respuesta ultra rápidos. Para los usuarios finales, esto significa una experiencia fluida y más atractiva, ya sea jugando en línea, usando chatbots o comprando en línea con un servicio de prueba de ropa virtual. Una mayor seguridad de los datos significa que las empresas pueden ofrecer servicios de IA superiores mientras protegen los datos de los usuarios. La inferencia de IA en el borde es un habilitador crítico para la implementación de IA/ML a escala de producción, impulsando la innovación y la eficiencia de IA/ML en varias industrias.

Listamos el mejor alojamiento en metal desnudo.

Este artículo fue producido como parte del canal Expert Insights de TechRadarPro, donde presentamos las mentes más brillantes y mejores de la industria tecnológica de hoy. Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si estás interesado en contribuir, averigua más aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro