Pourquoi on a changé d'avis sur l'IA autonome

L'article qu'on vient de supprimer.

Le 27 avril on a publié « Pourquoi notre IA n'envoie jamais toute seule ». L'argument était propre : sur 100 tickets, 2 partent de travers d'une manière qui détruit la relation client, et une seule mauvaise réponse signée à votre nom coûte plus que 98 réponses parfaites n'économisent. Donc : brouillons uniquement. Humain qui valide. Aucun envoi automatique, jamais.

On l'a retiré aujourd'hui. Voici pourquoi.

Ce qui était juste dans cet article.

Pour les modèles de l'ère début-2024, l'argument était correct. On a testé l'éditeur X et l'éditeur Y en prod pendant six mois et on les a regardés inventer des numéros de commande avec aplomb, appliquer des politiques périmées, et s'excuser de choses qui n'étaient jamais arrivées. Le coût en customer experience était réel. Le framing « gagner 30 secondes, perdre un client » était réel. Brouillons-avec-validation-humaine était le bon pari défensif.

Le raisonnement : si taux de défaillance catastrophique × LTV client > temps gagné × coût horaire, l'IA autonome est une perte nette. On avait fait le calcul à 0,05 % de défaillance et montré la ligne.

Ce qui a changé en deux jours.

Deux choses. Une technique, une stratégique.

1. Le taux d'erreur n'est plus le coût dominant. Quand on a refait la comparaison cette semaine — 1 000 tickets, notre dernière classe de modèles contre un agent de nuit fatigué sur le même dataset — le taux de défaillance catastrophique de l'IA passe sous celui de l'humain. On ne s'y attendait pas. Le problème de confabulation des numéros de commande est réglé en grande partie au niveau application (on grounde le modèle sur les vraies données de commande, pas juste le texte du message). Le problème de mauvaise politique est réglé par la couche playbook. Le problème de ton-sourd-dans-une-plainte est réglé par la sélection de réponse sentiment-aware. Aucune de ces capacités n'existait à la maturité dont on avait besoin il y a six mois.

2. Le framing du coût d'opportunité était faux. On mesurait le coût de faire une erreur. On ne mesurait pas le coût de ne rien faire d'intéressant. Répondez à 100 % à « où est ma commande » 500 fois par semaine et vous avez quand même produit zéro valeur business. Vous avez défendu la relation ; vous ne l'avez pas grandie. La plus grosse erreur, c'était de répondre safe au lieu de répondre profitable.

Ce que ça débloque.

Une fois qu'on accepte que l'IA peut gérer le volume de manière fiable, la question arrête d'être « est-ce qu'elle va se planter ? » et devient « qu'est-ce qu'elle devrait faire en plus de répondre ? ». C'est là que se trouve le vrai débloquage :

Répondre à une demande de remboursement et émettre une offre de 15 % sur la prochaine commande à un client VIP — revenue récupéré, pas juste client retenu.
Répondre à une question de taille et recommander l'article assorti depuis le stock — panier moyen augmenté.
Répondre à une plainte sur un retard de livraison et flaguer le client comme risque de churn dans votre CRM — rétention proactive.
Répondre à un compliment 5 étoiles et déclencher une demande de review automatique avant que le moment ne passe — UGC à grande échelle.

Chacune de ces actions, un humain fatigué à minuit ne la ferait pas, et ne pourrait pas la faire de manière consistante. L'IA le fait sur chaque ticket, dans le même souffle que la réponse.

Et les 0,05 % ?

Toujours réels. Notre réponse n'est plus « humain dans la boucle sur chaque réponse ». C'est « escalade chirurgicale ».

Vous définissez les frontières : montants au-dessus de 200 €, mots-clés sensibles, tags clients premium, tout ce qui est ambigu. Ces cas-là remontent à un humain. Le reste part, 24/7. Les règles d'escalade prennent quelques minutes à configurer, et vous les ajustez quand vous voyez des cas limites. La surface de défaillance catastrophique passe de « chaque réponse » à « uniquement les réponses où vous ne faisiez pas confiance à l'IA dès le départ » — et ça représente une fraction minuscule du volume.

Sur le calcul : à 0,02 % de taux de défaillance catastrophique (où on en est maintenant), le calcul s'inverse. Le revenue récupéré et les cross-sell générés par le traitement autonome dépassent largement le coût résiduel de perte client. Le mode brouillons-uniquement laisse tout ça sur la table.

Ce que ça change pour le produit.

Trois changements concrets qui shipent dans les deux prochaines semaines :

Mode auto-send activé par défaut pour les nouveaux tenants. Vous pouvez le désactiver si vous voulez du brouillons-uniquement. La plupart ne le feront pas.
Les règles d'escalade deviennent la surface de configuration principale. Vous designez ce que les humains voient ; le reste s'envole.
Les events revenue sont loggés sur chaque conversation. Pas « est-ce que vous avez validé » — « est-ce que cette conversation a généré une offre de remboursement acceptée, un cross-sell cliqué, un drapeau churn levé, une review demandée ». C'est le nouveau dashboard.

Ce qu'on vous doit.

Si vous vous êtes inscrit dans les six dernières semaines parce que vous avez lu la promesse « aucun envoi automatique, jamais » dans le manifesto : cette ligne n'existe plus, et on doit vous le dire en face. Vous pouvez garder le mode brouillons-uniquement pour toujours. On n'activera jamais l'auto-send à votre place. Et les engagements de privacy — pas d'entraînement de modèle sur vos données, pas de rétention au-delà de votre fenêtre, pas d'accès humain de notre côté — ne changent pas. Ce n'était pas la partie sur laquelle on avait des doutes.

La partie sur laquelle on avait des doutes, c'était de savoir si l'IA autonome était un bon produit ou un fantasme marketing. Il y a deux jours on disait fantasme. Cette semaine les chiffres de prod ont dit produit. On met à jour.

Si ça change votre opinion sur nous — pour ou contre — dites-le moi directement.

Julien Romanetto

Fondateur de SupportPilot AI. Opinions fortes, faiblement tenues.

À lire aussi : Le nouveau manifesto SupportPilot · Plus de notes