Comment nous avons fait évoluer Bert pour traiter plus d'un milliard de requêtes quotidiennes sur CPU
Author
Venue
Sommet Data + IA 2021
Abstract
L'apprentissage automatique est un élément clé de notre capacité à faire évoluer des services importants pour notre immense communauté. Dans cette présentation, nous partageons notre parcours dans l'évolution de nos classificateurs de texte basés sur l'apprentissage profond afin de traiter plus de 50 000 requêtes par seconde avec des latences inférieures à 20 ms. Nous expliquerons comment nous avons réussi non seulement à rendre BERT suffisamment rapide pour nos utilisateurs, mais aussi suffisamment économique pour fonctionner en production à un coût raisonnable sur le processeur.
