Data Science
Artificial Intelligence
Como escalamos o Bert para atender a mais de 1 bilhão de solicitações diárias na CPU
Author
Venue
Cúpula de Dados + IA 2021
Abstract
O aprendizado de máquina é uma parte essencial da nossa capacidade de escalar serviços importantes para nossa enorme comunidade. Nesta palestra, compartilhamos nossa jornada de escalonamento de nossos classificadores de texto de aprendizado profundo para processar mais de 50 mil solicitações por segundo com latências inferiores a 20 ms. Compartilharemos como conseguimos não apenas tornar o BERT rápido o suficiente para nossos usuários, mas também econômico o suficiente para ser executado em produção a um custo gerenciável na CPU.
