Les SLI, ou indicateurs de niveau de service, sont des mesures puissantes de la santé du service. Ils sont souvent construits à partir de mesures plus simples qui sont surveillées à partir du système. Les SLI transforment les données machine de niveau inférieur en quelque chose qui capture le bonheur des utilisateurs.
Votre organisation peut déjà avoir des processus avec ce même objectif. Des techniques telles que la télémétrie en temps réel et l’utilisation de données synthétiques créent également des métriques qui représentent de manière significative la santé du service. Dans cet article, nous expliquerons comment ces techniques varient et les avantages uniques de l’adoption des SLI.
Que sont les SLI ?
Les indicateurs de niveau de service, ou SLI, sont des mesures qui représentent la santé de votre service dans des domaines spécifiques. Il peut s’agir de métriques simples comme le centile de latence de la demande pour une méthode, ou de métriques complexes comme un histogramme de latence de 3 méthodes différentes. Mis à part la complexité, l’objectif le plus important d’un SLI est de quantifier la satisfaction du client.
Par exemple, vous pouvez avoir des SLI qui reflètent l’expérience de l’utilisateur lors de l’ajout d’un article à son panier, ce qui provoque une fenêtre contextuelle pour afficher le contenu actuel du panier. Ces métriques peuvent inclure :
- Combien de temps faut-il à la base de données pour mettre à jour le panier en interne
- Combien de temps faut-il à la base de données pour mettre à jour le coût total actuel du client
- Combien de temps faut-il pour que la fenêtre contextuelle du panier se charge
Vous savez peut-être également que la plupart des utilisateurs ne cliquent pas immédiatement sur la fenêtre contextuelle pour voir la page complète du panier. Si vous expérimentez des SLI avancés, vous pouvez alors diminuer la présence de métriques pour les liens contextuels dans le SLI par rapport aux autres. Le résultat final est un seul SLI composite composé de tous les petits indicateurs ci-dessus qui représentent le degré de satisfaction du client à l’idée d’ajouter quelque chose à son panier.
Les SLI sont toujours liés à un SLO ou objectif de niveau de service. Le SLO fixe le point auquel l’entreprise n’accepte plus le manque de fiabilité du SLI et les inconvénients qui en résultent pour les clients. Dans notre exemple, vous pourriez déterminer que 99 % du temps, ajouter quelque chose au panier devrait prendre 500 ms ou moins. Le maintien de ce SLO, ou le fait que ce SLI de latence reste supérieur à 99%, garantit que vos clients restent satisfaits.
Maintenant que nous avons examiné ce que sont les SLI, regardons ce que les SLI NE SONT PAS.
Qu’est-ce que la télémétrie en temps réel ?
La télémétrie en temps réel consiste à observer les données provenant d’un système pendant son fonctionnement. Le concept de télémétrie est utilisé dans une grande variété d’industries, notamment :
- La télémétrie agricole place des stations de surveillance dans les champs pour relayer les données sur les conditions des cultures
- La télémétrie médicale comprend des appareils intégrés dans le corps qui transmettent des rapports sur les conditions de santé
- La télémétrie aérospatiale utilise des capteurs pour relayer les conditions de l’avion aux pilotes
- La télémétrie de vente au détail suit les ventes de chaque produit à chaque emplacement et les met en corrélation pour trouver des tendances
- La surveillance du serveur suit l’utilisation du processeur au fil du temps pour indiquer une surutilisation ou une sous-utilisation
Dans chaque exemple, le processus de base est le même : un outil de surveillance est déployé au sein du système qui rend ensuite compte à un référentiel central. Le référentiel est ensuite analysé pour prendre des décisions éclairées concernant le système.
Ce processus est le même pour la télémétrie dans le logiciel. Du code est ajouté à chaque service qui met continuellement à jour un journal du comportement du service. Le journal est ensuite surveillé pour déterminer la santé du système.
En quoi les SLI et la télémétrie en temps réel sont-ils différents ?
Les SLI et la télémétrie en temps réel rendent compte de la santé et de la fiabilité de votre système. Cependant, Les SLI sont plus axés sur l’expérience utilisateur que la santé globale du système. La fiabilité est un terme subjectif reflétant la façon dont les utilisateurs perçoivent la réactivité de votre service. Les SLI sont basés sur les aspects de votre service qui quantifient la satisfaction client, alors que la télémétrie rend généralement compte de manière neutre.
En raison de cette focalisation sur l’expérience utilisateur, Les SLI utilisent plus de surveillance par boîte noire que la télémétrie. La surveillance de la boîte noire et de la boîte blanche fait référence au fait que les données sont collectées ou non à partir du code du système (boîte blanche) ou en testant le système de l’extérieur, comme le ferait un utilisateur (boîte noire). Les SLI veulent prendre en compte chaque facteur dans les expériences utilisateur les plus critiques, il est donc utile de collecter des données du point de vue de l’utilisateur.
Aussi en raison de l’accent mis sur l’expérience utilisateur, Les SLI sont toujours liés à un SLO, ou objectif de niveau de service. Les SLO sont définis au point où l’utilisateur est peiné par le manque de fiabilité du SLI. Contrairement à la télémétrie, qui rend compte de manière neutre de l’état du système, les SLI sont toujours considérés dans le contexte d’un SLO. Tant que le SLO ne risque pas d’être violé, les modifications du SLI ne sont pas toujours alarmantes. Vous pouvez surveiller la vitesse à laquelle le SLI se rapproche du SLO et ajuster votre vélocité en conséquence. Les SLI vous permettent de hiérarchiser les réponses en fonction de l’impact client.
Qu’est-ce que les données synthétiques ?
Les données synthétiques font référence à des données qui ne sont pas directement observées à partir d’un système, mais proviennent de simulations du système. Cela vous aide à recueillir des informations sur la façon dont le système réagirait dans des situations rares ou difficiles à mesurer directement.
Les données synthétiques peuvent également faire référence à la simulation de l’utilisation de votre système réel afin de recueillir des résultats. Cela vous aide à voir les effets des cas d’utilisation rares ou extrêmes, ou des cas d’utilisation difficiles à observer lorsqu’ils se produisent naturellement.
Dans les deux cas, vous vous éloignez de votre système réel ou de vos utilisateurs réels pour accéder à de nouvelles informations. Obtenir des résultats précis nécessite des modèles précis. Vous devez déterminer si l’investissement dans la construction de modèles vaut les informations obtenues.
En quoi les SLI et les données synthétiques sont-ils différents ?
Alors que les données synthétiques sont utiles pour les cas extrêmes, Les SLI se concentrent sur les cas d’utilisation les plus courants et les plus importants. Les SLI peuvent être construits en étudiant les parcours des utilisateurs, qui suivent la manière dont un utilisateur interagit généralement avec votre service. L’objectif est d’encapsuler les manières les plus courantes dont les utilisateurs se fient à votre service dans des métriques.
Les SLI et les données synthétiques diffèrent également dans leur intention. Les données synthétiques sont généralement créées pour une expérience ou un test particulier. Le service est modélisé dans les conditions choisies ou est accessible avec les cas d’utilisation choisis. Une fois le scénario exploré, cette utilisation particulière de données synthétiques est probablement interrompue. D’autre part, Les SLI reflètent en permanence l’utilisation réelle des services en production. Plutôt que de rechercher de nouveaux scénarios, vous vous assurez que les incidents n’affectent pas les opérations régulières.
Voici un résumé des principales différences entre les SLI, la télémétrie en temps réel et les données synthétiques :
Pourquoi essayer les SLI ?
Les SLI présentent de nombreux avantages uniques pour votre organisation. En voici quelques-uns qui méritent d’être pris en considération :
Les SLI alignent les objectifs sur le bonheur des clients
Il peut être difficile de savoir où allouer vos ressources pour améliorer la fiabilité. En fin de compte, vous savez que le bonheur des clients est le facteur le plus important pour votre organisation. Mais comment savez-vous que vos efforts rendront vos clients heureux ? Les SLI fournissent la solution.
Les SLI sont construits en étudiant les parcours utilisateurs. Ceux-ci modélisent les manières les plus courantes dont les clients utilisent vos services. Si la plupart de vos clients utilisent les fonctions de recherche et la page de connexion de votre site, vous pouvez donner la priorité à ces domaines de service dans vos SLI. Inversement, si très peu de clients utilisent une autre zone de service, vous pouvez réduire le nombre de SLI ou même les éliminer pour ce service.
Lorsque vous envisagez des projets de développement ou des politiques d’exploitation, vous pouvez considérer comment ils affecteront le SLI. Reprenons notre exemple de la mise à jour du panier SLI. Si vous deviez modifier la façon dont la base de données relie les articles à vendre aux clients, cela pourrait changer la vitesse des métriques impliquées. Vous pouvez estimer comment un tel changement se propagerait au SLI. Si cela risque de violer le SLO, vous devez réévaluer la décision. Sinon, vous pouvez être plus confiant pour aller de l’avant.
Cela crée un pont entre les données de surveillance les plus élémentaires et l’objectif ultime du bonheur du client. Toutes les équipes peuvent examiner l’impact de leurs choix sur les mesures de base et aligner leur prise de décision en fonction du SLI.
Les SLI quantifient le bonheur des clients de manière exploitable
Étant donné que les SLI reflètent les domaines qui ont un impact sur le bonheur des clients, ils vous permettent de suivre le bonheur des clients en tant que mesure. Les SLI sont également toujours liés à un SLO, qui définit le point où le SLI devient inacceptable pour le client. Ces métriques vous permettent de voir dans quelle mesure un incident impacte vos clients. Cela vous permet de trier et de classer les incidents de manière significative et exploitable.
Par exemple, si vous rencontrez une panne de serveur qui entraîne l’arrêt de certaines zones de service, il peut être difficile de comprendre exactement quel a été l’impact. Une toute petite interruption dans la disponibilité d’un service crucial peut déranger davantage les clients qu’une panne plus longue d’un service rarement utilisé. Les SLI peuvent mettre tout cela dans un contexte exploitable. Les incidents qui causent de gros impacts sur les clients recevront des réponses proportionnellement importantes.
Les SLI stimulent l’apprentissage et la croissance
Vos SLI et SLO ne doivent pas être définis une seule fois puis oubliés. Au lieu de cela, ils doivent être continuellement revus et révisés au fur et à mesure que les besoins de vos clients changent. Ne considérez pas cela comme un fardeau, mais comme une opportunité. Revisiter vos SLI est l’occasion rêvée d’étudier à nouveau les comportements de vos utilisateurs. Remettez en question vos hypothèses sur ce dont les clients ont le plus besoin de vos services. Les leçons que les SLI vous enseignent peuvent améliorer même vos plus grandes feuilles de route stratégiques.