Tech

Dans les coulisses de notre premier gros incident technique

Cette semaine, une partie de nos utilisateurs a rencontré un problème sérieux : des documents partagés depuis There n'arrivaient pas à leurs destinataires. Aucune erreur visible, aucun message de leur côté. Le document était "envoyé". Mais jamais reçu.

Il nous a fallu presque deux jours pour comprendre ce qui se passait vraiment. On vous raconte tout.

Édit du 30 juin

Bonne nouvelle : Microsoft a confirmé avoir retiré le blocage de notre domaine. Les liens app.there.do sont désormais de nouveau reconnus comme sûrs et les partages fonctionnent normalement pour les utilisateurs Microsoft, sans qu’il soit nécessaire de mettre en place une règle de liste blanche ou une configuration spécifique côté administrateur Microsoft 365.

Lundi : des signaux difficiles à lire

Lundi 22 juin à 10h54, un utilisateur nous appelle. Il s'envoie un document à lui-même depuis There et ne reçoit rien. Premier réflexe : les spams. On lui demande de nous partager le document de notre côté : ça fonctionne parfaitement. On pense à un cas isolé.

À 16h40, un deuxième rapport : un destinataire n'a pas pu ouvrir un lien de partage depuis son client mail, avec le message "l'ouverture de ce site web n'est peut-être pas sûre". On teste le lien en interne sur un environnement Windows avec Windows Defender activé. Aucun problème. On note le signal, on y voit un faux positif.

Dans la soirée, d'autres remontées arrivent. Certains destinataires reçoivent les documents, d'autres non. La situation commence à prendre une autre forme. En attendant d'y voir plus clair, on conseille aux utilisateurs concernés de télécharger le PDF de leur document et de l'envoyer par leurs propres moyens.

Mardi : on comprend qu'il y a un problème, mais pas encore lequel

Mardi matin, on lance les investigations. On identifie rapidement que le problème touche exclusivement les boîtes mail Microsoft (Outlook, Hotmail, Exchange, Microsoft 365). Et surtout : les emails ne vont pas en spam. Ils ne sont tout simplement pas remis aux destinataires.

Ce qui rend le diagnostic particulièrement difficile, c'est que de notre côté, les emails apparaissent comme parfaitement délivrés. Notre prestataire d'envoi (Mandrill) ne remonte aucune erreur. On cherche du côté du contenu des emails, de la réputation de domaine, des en-têtes techniques.

C'est là qu'on contacte le support de Mandrill, qui nous confirme qu'un incident technique est en cours de leur côté et qu'il affecte une partie des envois. Ils nous assurent que le problème vient d'eux et sera résolu rapidement. On tient une piste, on attend.

Dès le mardi matin, on affiche un bandeau d'alerte dans l'application et on met à jour notre page de statut (status.there.do) pour tenir nos utilisateurs informés en temps réel.

Mercredi : la fausse piste se referme, le vrai problème reste entier

Mercredi matin, l'incident Mandrill est résolu. Notre problème, lui, persiste.

On décide d'aller plus loin et de monter un environnement Windows avec Microsoft 365 Business en interne pour tester nos propres emails de bout en bout. C'est cette étape qui change tout.

On retrouve nos emails en quarantaine dans Microsoft Defender, catégorisés comme menace de type "Hameçonnage".

Tout s'assemble d'un coup. Le rapport du lundi après-midi, ce message "ce site n'est peut-être pas sûr", n'était pas un faux positif isolé. C'était le premier symptôme visible de ce qui se passait en silence depuis le début.

Après plusieurs tests, on confirme : le problème ne vient pas des emails eux-mêmes, mais des URLs app.there.do/*qui y sont incluses. Microsoft Defender les considère comme potentiellement malveillantes, pour une raison que Microsoft n'est pas en mesure de nous expliquer à ce jour.

On signale immédiatement nos URLs via leurs outils de soumission. Toutes les analyses reviennent avec le résultat "Aucune menace détectée". Les URLs restent pourtant signalées.

Jeudi : on contourne le problème

Plutôt qu'attendre une résolution côté Microsoft, on déploie dans la journée une mise à jour qui modifie les liens présents dans nos emails de partage pour contourner le signalement. Le partage redevient fonctionnel pour les destinataires Microsoft.

Ce qu'on retient

Cet incident a été particulièrement difficile à gérer parce qu'il cumule trois facteurs qui compliquent le diagnostic.

Une infrastructure tierce sans visibilité côté destinataire. Les emails apparaissaient comme délivrés côté Mandrill. Aucun signal d'erreur de notre côté. C'est seulement en reconstituant un environnement de test complet en interne qu'on a pu voir ce qui se passait réellement chez le destinataire.

Une fausse piste au mauvais moment. Le support de Mandrill nous a confirmé qu'un incident était en cours de leur côté, ce qui nous a orientés dans la mauvaise direction pendant une journée entière.

Une boîte noire côté Microsoft. Microsoft n'est pas en mesure de nous dire pourquoi app.there.do s'est retrouvé signalé du jour au lendemain. Pas de log accessible, pas de notification, pas d'explication. Un domaine sain peut se retrouver filtré en silence, avec des conséquences directes sur les entreprises qui en dépendent, sans qu'elles aient le moindre moyen de savoir ce qui a déclenché le signalement. C'est ce qu'on a trouvé le plus difficile à accepter dans cet incident.

Et maintenant ?

On continue à travailler avec Microsoft pour faire reconnaître app.there.do comme domaine de confiance, mais on ne peut pas garantir que la situation ne se reproduise pas d'ici là.

Ce qu'on peut faire en revanche, c'est renforcer notre propre infrastructure. La solution de contournement déployée jeudi n'est pas qu'un pansement : elle introduit une page intermédiaire qui va nous permettre de mieux distinguer une ouverture humaine d'un scan automatique par un bot de sécurité, c'est précisément ce mécanisme qui était à l'origine du faux positif chez Microsoft Defender. C'est une base sur laquelle on va continuer à construire.

On travaille aussi à mettre nos emails de partage en conformité avec les derniers standards de délivrabilité. Ça se traduira probablement par quelques évolutions visibles dans les semaines à venir sur la façon dont les notifications de partage arrivent chez vos destinataires.

On s'excuse sincèrement pour la gêne occasionnée cette semaine. Ce n'est pas le niveau de fiabilité qu'on veut offrir, et cet incident nous a donné des raisons concrètes d'aller plus loin.

Si vous avez des questions ou si vous souhaitez qu'on prenne un moment avec votre équipe technique, n'hésitez pas à nous contacter directement.

Antoine Gamond

CTO et co-fondateur de There