Data Science
Artificial Intelligence
Cómo escalamos Bert para atender más de mil millones de solicitudes diarias en CPU
Author
Venue
Cumbre de Datos e IA 2021
Abstract
El aprendizaje automático es una parte fundamental de nuestra capacidad para escalar servicios importantes para nuestra enorme comunidad. En esta charla, compartimos nuestro proceso de escalado de nuestros clasificadores de texto de aprendizaje profundo para procesar más de 50 000 solicitudes por segundo con latencias inferiores a 20 ms. Explicaremos cómo conseguimos que BERT no solo fuera lo suficientemente rápido para nuestros usuarios, sino también lo suficientemente económico como para ejecutarse en producción a un coste manejable en la CPU.
