Catégories
Technique

[résolu] Forums Discourse très lents

Hello hello,

Depuis quelques semaines, les forums Discourse étaient devenus très lents, avec notamment un message de type « erreurs 502 » ou « mises à jour en cours » qui s’affichait régulièrement.

Nous avons mis du temps à le corriger car nous avons dû déplacer un logiciel que nous pensions héberger sur la même machine que les forums.

En effet, la machine qui héberge les forums est traditionnellement assez calme et peu chargée, nous avions donc décidé d’y installer un serveur d’objets S3 : un module de stockage de données que nous utilisons pour certains espaces Nextcloud.

Nous n’avions pas anticipé que ce module occasionnerait énormément d’accès disques, qui ralentiraient énormément l’intégralité des services.

Une fois le souci diagnostiqué, il nous a fallu trouver de la place sur une machine capable d’héberger ces données, ce qui nous a pris pas mal de temps.

Le service est normalement revenu à la normale, nous sommes vraiment désolé⋅es pour les difficultés à y accéder.

Catégories
Non classé Technique

🐛 Perturbations durant le mois de janvier 🐛

Bonjour tout le monde. Avec un peu de retard, nous souhaitions communiquer sur des difficultés que nous avons eues durant le mois de janvier :

  • L’indisponibilité d’un espace Nextcloud
  • Du retard dans l’acheminement des mails

Où il est question d’un disque peut-être fatigué

Tout a commencé au mois de décembre 2023. Nous remarquons une alerte sur un de nos serveurs, chif.fr. Cette alerte nous indique que le disque dur principal subit des erreurs de lecture.

Ce genre d’alerte est d’habitude un signe de « pre-fail » : aucune donnée n’est perdue pour l’instant, mais cela suggère que le disque est en fin de vie. chif.fr est le premier serveur que nous avions loué lorsque nous avions lancé le Cloud Girofle, en 2018. Six ans plus tard, il n’est pas absurde qu’un disque sollicité 24h/24 donne des signes de faiblesse.

Nous tentons d’en savoir plus sur l’erreur. Sur les quelques jours d’observation, le système d’alerte nous enverra une ou deux alertes supplémentaires, mais nous ne réussirons pas à la confirmer ou la préciser avec les outils d’analyse traditionnels. Nous nous demandons si c’est un faux-positf ou non.

L’architecture du serveur chif.fr

chif.fr est le premier serveur que nous avons loué. Il a traversé notre inexpérience, nos expérimentations, et nos déboires. C’est aussi le serveur qui accumule le plus de dette technique, et qui nous demande le plus de maintenance. Nous avons également identifié depuis plus d’un an qu’il constitue un « SPOF », un single-point of failure (un élément critique du système) pour plusieurs services :

  • Pour l’édition collaborative : c’est le serveur qui héberge OnlyOffice ;
  • Pour les mails : c’est la passerelle centrale par laquelle part tous les mails envoyés par le Cloud Girofle (y compris nos alertes par mail) ;
  • Pour les documents internes à l’association : c’est là qu’ils sont stockés. Sans ceux-là, nous perdons les informations liées à qui nous hébergeons ;
  • Pour certains collectifs hébergés (les premiers à nous avoir rejoints) ;
  • Pour notre système de monitoring : le nœud central du VPN est hébergé sur cette machine ;

Ainsi, en cas de panne du disque, tous ces services se seraient retrouvés impactés. Par ailleurs, le disque n’étant pas redondé (pas de RAID), nous nous trouvons contraints de réaliser un changement de disque avec une interruption de service. Enfin, la machine étant hébergée chez notre prestataire Kimsufi, nous ne pouvons ni réaliser le changement de disque nous-même, ni un clone du disque, nous devrons repartir depuis nos sauvegardes. Kimsufi nous informe que le changement de disque peut être anticipé à une heure précise, et que l’opération prend une demi-heure environ.

Après prise en compte de tous ces éléments, du risque de pertes de données et de service, et malgré le fait que nous n’arrivons pas à isoler l’erreur du disque ou à confirmer qu’il ne s’agit pas d’un faux-positif, nous décidons de programmer le remplacement du disque.

Anticiper le remplacement du disque

Tout d’abord, nous listons les services qui seront impactés par le changement de disque, et la réinstallation qui va s’en suivre. Pour pouvoir minimiser les effets sur les utilisateur⋅ices. Nous choisissons de profiter de ce changement de disque pour réduire la concentration des services sur cette machine, ou pour les déplacer (semi)-temporairement :

  • ✅ édition collaborative OnlyOffice : nous migrons le service vers une autre machine. Il y aura un impact pour un collectif que nous avons oublié
  • ✅ documents internes à l’association : nous migrons notre dossier Nextcloud vers un autre serveur
  • ✅ Monitoring/VPN : nous prenons note que notre système de monitoring sera hors-service pendant la coupure
  • 🛈 mails : le protocole de mails est normalement résilient à des coupures de plusieurs heures (les mails ne sont pas perdus). Nous décidons d’informer les utilisateur⋅ices de la coupure. Malheureusement, il y aura des effets de bord.
  • 🛈 collectifs hébergés : nous prenons la décision de les migrer vers d’autres instances

Ensuite, nous nous assurons que nous disposons de sauvegardes intégrales du serveur (d’habitude, nous sauvegardons seulement les données, ce qui oblige à tout réinstaller si nous perdons le serveur). Nous rajoutons la sauvegarde de la racine « / » du serveur à nos backups.

Le déroulement de l’opération

L’opération démarre le samedi 13/01 au matin. Au début, tout se passe bien, Kimsufi a remplacé le disque à 1h du matin, nous attaquons la restauration à 9h. Nous pouvons accéder à la console de secours, et commencer la restauration.

Le partitionnement se déroule bien. L’objectif étant de remonter le service le plus rapidement possible, on avait décidé de garder le même partitionnement que sur le précédent disque. Les partitions sont simples, sans LVM ni RAID.

Une fois le partitionnement en place, il nous faut remonter le système. Pour cela, on se base sur une archive Borg de tout le système (toute la racine /, sauf les dossiers /sys/, /proc/, /tmp/, /dev/ et /run/ ) que nous avions lancé la veille.

Le système maintenant en place, on peut quitter la console de secours et redémarrer le serveur. C’est là que les choses se compliquent: le système ne semble pas démarrer. Sur ce serveur, il n’y a pas malheureusement pas de console IPMI, il nous est donc impossible de diagnostiquer la panne. Après plusieurs longues tentatives de redémarrage/console de secours, nous changeons le fusil d’épaule et décidons de repartir sur l’installation d’un Debian via l’installateur Kimsufi 😿

A partir de là, on arrive bien à démarrer le système et à s’y connecter, mais c’est un système vierge, sans nos services et outils. Nous retournons donc sur la console de secours, et nous tentons de remplacer les dossiers du système par ceux de l’archive Borg. Le système démarre ensuite correctement mais nous avons rapidement des messages d’alertes nous indiquant que tout n’est pas opérationnel. Certain fichiers n’ont pas été restaurés correctement (les liens symboliques n’ont pas été restaurés). Cette erreur aurait pu être évitée en testant des restaurations au préalable, chose que nous n’avions pas fait par manque de temps.

Nous avons finalement réussi à remettre en route les services « à la mano » un à un, sur plusieurs jours, jusqu’au mardi 16/01, en priorisant les services les plus critiques.

L’impact sur les services et les utilisateur⋅ices

Au final, les utilisateur⋅ices ont été impactés de la manière suivante :

  • Mail : nous n’avions pas identifié que notre serveur DNS était centralisé sur la machine, et qu’il a eu des soucis à redémarrer. Cela a causé des problèmes d’expédition des mails pendant plusieurs jours.
  • OnlyOffice : un collectif a été oublié de la migration vers le nouveau serveur, les documents collaboratifs ont été indisponibles pour eux pendant quelques jours également
  • Nextcloud : les utilisateur⋅ices qui ont été déménagés vers de nouvelles instances ont eu peu de temps pour adapter leurs usage (utiliser la nouvelle adresse).

Ce que nous en retirons

Nous sommes capables d’effectuer des interventions en cas de problème matériel, sans perte de données.

Nous avons encore des progrès à faire dans l’anticipation de toutes les étapes, et à l’avenir nous nous assurerons que deux administrateur⋅ices « racine » sont bien présents pour la migration.

Pour en savoir plus : nous essayons de rédiger un rapport technique (parfois succinct) pour chaque intervention majeure sur nos serveurs. Celle liée au changement de disque est disponible sur notre wiki technique.

Où il est question d’édition collaborative qui saute

En parallèle des soucis de disques, vous avez été nombreureuse à nous signaler une panne sur l’ouverture des documents collaboratifs. En effet, sur certaines instances Nextcloud, lors de l’ouverture d’un fichier Office (Word, Excel, etc…) il était proposé de télécharger le fichier, alors qu’il devait simplement s’ouvrir dans le navigateur.

Nous pensons que cette panne est liée à une nouvelle fonctionnalité introduite en 2023 qui vient vérifier périodiquement si le service Onlyoffice (l’outil d’édition collaborative que nous utilisons) est bien joignable depuis chaque Nextcloud. Nous avons pour l’instant désactivé cette fonctionnalité car nous disposons déjà d’outils de suivi de notre instance Onlyoffice.

Faites nous signe si vous rencontrez à nouveau ce problème 🙏

Le mot de la fin

Nos services sont gérés par des bénévoles, sur leur temps libre. Nous faisons de notre mieux pour vous fournir des services performants et disponibles mais nous ne pouvons pas garantir une présence constante de nos équipes de support. Nous vous remercions donc de votre compréhension, patience et soutient 🥰

Catégories
Technique

⬆ Mise à jour des Nextcloud

Nous avons démarré une mise à jour des Nextcloud ce jeudi 16 novembre (hier soir) à 19h.

La mise à jour, qui devait durer 3h, a finalement duré plus de 30h 🤒 Nous présentons donc tous nos mots d’excuses aux collectifs impactés par la perte de service hors des horaires annoncées.

Nouveautés ✨

Pour cette mise à jour nous avons choisi de sauter une version, et de passer de la version 25 à la version 27 de Nextcloud (aussi appelée Hub 5).

Il y a beaucoup de nouveautés, voici un site qui décrit tout ça en détail:

On regarde l’arrivée de l’intelligence artificielle dans Nextcloud d’un mauvais œil d’écolos. Rien n’est activé par défaut. L’entreprise Nextcloud revient sur cette nouvelle fonctionnalité plus en détail dans ce billet de blog: https://nextcloud.com/fr/blog/lia-dans-nextcloud-quels-sont-les-enjeux-le-pourquoi-et-le-comment/
Pour les plus curieux.e.s d’entre vous, merci de ne pas foncer tête baissée dans l’IA, faites nous un petit signe avant de tester, histoire qu’on en discute 🤓

Du coté de ce qu’on aime bien, il y a plein de nouvelles fonctionnalité sur le calendrier, les Decks, une belle refonte visuelle de l’application de gestion des contacts et celle de prise de notes, et des améliorations de performances sur l’application Talk.

On aime aussi les avancées sur les dossiers de groupe. On a fait une page de documentation sur les dossiers de groupes ici, qui peuvent être très utiles pour les collectifs.

Détails de nos galères

On commence à avoir nos premiers soucis de volumes. Mais on aurait pu et du les voir venir. « No shit Sherlock » comme dirait l’autre.

Un chat trop choupi déguisé en Sherlock Holmes.

Résolution pour les prochaines mises à jour: on va pas faire ça tout d’un coup (et on veut une médaille pour se raisonnement sans faille).

On a eu aussi d’autres galères:

  • Un bug de Nextcloud qu’on avait pas vu passer qui affecte la version 27 de Nextcloud a provoqué de nombreuses erreur 504 sur notre Nextcloud historique chif.fr. Nous avons du appliquer une réparation manuelle car le problème n’est pas encore résolu dans la version officielle. On devra faire une nouvelle mise à jour (celle-ci beaucoup plus légère) lors de sa sortie officielle, très prochainement
  • Un problème de configuration de mail a empêché l’envoi de mail transactionnel (les mails de notification Nextcloud en gros) entre la mise à jour et le 20 novembre au soir. Nous envoyons un remerciement tout spécial aux équipes de Nextcloud pour leur documentation de mise à jour qui ne mentionnait pas qu’il fallait changer la configuration du serveur de mail (non en vrai ils font un travail de fou pour développer l’outil et on les remercie fort fort)

Actions de votre coté

Le logiciel de synchronisation

Si vous utilisez le logiciel de synchronisation (aussi appelé Nextcloud Desktop) pour synchroniser vos fichiers entre votre ordinateur et votre espace Nextcloud, il vous sera nécessaire de vous reconnecter.

Il vous suffira de cliquer sur le bouton « Login » depuis le logiciel de synchronisation. Cela vous renverra sur une page de votre navigateur avec une fenêtre de connexion.

Une impression d'écran de la fenêtre de connexion.

C’est tout !

Une impression d'écran montrant le message final: "Compte connecté. Votre client devrait maintenant être connecté ! Vous pouvez fermer cette fenêtre."

Voilà ! On vous laisse découvrir tout ça. N’hésitez pas à revenir vers nous si vous avez des questions ou suggestions !

Catégories
Technique

💾 Soucis de backups et nouvelle politique de sauvegarde

Suite à une malencontreuse commande manuelle (le 27 octobre) visant à réduire le volume de nos backup, nous avons supprimé une partie de notre historique de sauvegarde 😔

Un dessin animé de chat qui tape sur un clavier, avec un écran qui dit "ERROR"

Comme les emmerdes volent toujours en escadrille (merci chichi), remettre en place nos sauvegardes à froid prend du temps : on doit transférer de grosses quantités de données vers un serveur alimenté par panneaux solaires, mais comme il fait moche depuis 1 semaine, on va devoir y aller progressivement.

En attendant, on a remis en place des sauvegardes sur un serveur dans un Datacenter OVH.

Voici l’historique que nous avons:

  • Des backups tous les deux jours depuis le 27 octobre (avec la nouvelle politique décrite plus bas)
  • Le vieux backup quotidien de notre ancien serveur: du 9 avril au 11 juillet

Nouvelle politique de sauvegarde

Jusqu’à récemment, nous gardions un historique quotidien des sauvegardes, sur 90 jours.

Suite aux discussions de notre dernière AG sur l’impact écologique du numérique, et voyant grossir nos usage, on s’est dit qu’on allait revoir à la baisse.

Nous avons donc choisi de garder un historique quotidien sur les derniers 30 jours puis de ne garder qu’un historique par semaine sur les 31 à 90 jours.

Ce que ça veut dire en d’autres termes: si vous souhaitez restaurer la version d’un fichier d’il y a 32 jours, vous ne pourrez restaurer que la version d’il y a 30 jours ou 37 jours (ou tous les 7 jours entre 30 et 90 jours).

N’hésitez pas à revenir vers nous si ce n’est pas clair.

Catégories
Technique

[stabilisé] Espaces Nextcloud indisponibles

[edit de jeudi 11h : nous pensons que le souci est réglé]

Hello,

Pour une raison non encore identifiée, la charge sur notre serveur hébergeant les instances Nextcloud est très élevée, et il est quasi-impossible d’y accéder. Ça dure depuis mercredi 13/09 16h45.

Nous travaillons pour résoudre le problème.

Mise à jour du 14/09 12h : nous pensons avoir identifié l’installation d’une application non compatible comme une (mais pas la seule) des causes du souci. L’application a été désactivée. Les services sont stables depuis 11h.

Mise à jour du 14/09 11h : nous pensons avoir mis en place une configuration qui stabilise le serveur. Un fichier de configuration dupliqué rendait inopérant les modifications que nous avions mises en place la veille à 23h. Nous gardons un œil sur la charge du serveur.

Catégories
Technique

[résolu] Coupure Nextcloud

Hello,

C’est la rentrée 🎒✏️📒. Notre serveur ne l’a pas supporté et aurait aimé rester en vacances. Enfin bref, trop de personnes se sont connectées d’un coup, et les espaces Nextcloud ont été inaccessibles mercredi 6/09, de 17h à 19h30.

Depuis le service est de nouveau opérationnel. Nous sommes désolé⋅es pour la gêne occasionnée.

Catégories
Technique

[résolu] OnlyOffice indisponible

Hello, hier mercredi 19/07, l’équipe du Cloud Girofle a réalisé une mise à jour importante (mise à jour du noyau et mise à jour de Yunohost) sur un de nos serveurs (qui héberge notamment OnlyOffice).

La coupure du serveur, annoncée, a duré un peu plus d’une heure, mais suite à cela nous avons eu des soucis à rétablir l’édition de documents, et nous avons dû repartir d’une sauvegarde, qui n’a été disponible que le lendemain matin. Au final, la coupure de l’édition en ligne a duré de 22h à 9h du matin. Nous sommes désolé pour cette interruption.

Par ailleurs, si vous aviez des documents ouverts sur cette période, il peut arriver que certains aient été « corrompus ». Il est possible de revenir à la dernière version non compromise en suivant ce tutoriel.

Catégories
Technique

[résolu] perturbations de OnlyOffice

Il y a eu hier (dimanche 16/07/2023) une coupure d’environ une heure des documents OnlyOffice, entre 16h30 et 17h30.

Hier l’équipe du Cloud Girofle a commencé à mettre en place un nouveau service. La mise en place aurait dû être transparente, mais tout ne s’est pas bien passé et il y a eu plusieurs coupures successives du serveur OnlyOffice, s’étalant sur une heure. Le service est maintenant rétabli.

Catégories
Technique

[résolu] Coupure des services Nextcloud

[EDIT] les difficultés/ralentissements ont en fait duré jusqu’à samedi 15/04 8h environ. Nous sommes vraiment désolé pour les désagréments.

Ce matin (jeudi 13/04), les services Nextcloud on été indisponibles de 9h25 à 10h10 environ. Cela est dû à l’utilisation croissante de nos serveurs, qui nécessite d’ajuster le paramétrage pour accepter un plus grand nombre d’instances.

Pour les détails techniques, il s’agit cette fois-ci de la limite de nombre de connexions à un socket qui était atteinte. Le problème a été corrigé.

Catégories
Technique

[résolu] indisponibilité des forums

Hello hello,

Hier, en travaillant sur une des machines qui héberge les forums, l’équipe du Cloud Girofle a fait une mise à jour système, et patatras, les forums ont fini en carafe. Zut de zut.

On a rencontré ce bug là (pour info), et on n’a pu le corriger qu’aujourd’hui, il y a eu une coupure d’un peu moins de 24h, on est vraiment désolé⋅es pour ça.

Normalement tout est revenu à la normale, si vous rencontrez des soucis, n’hésitez pas.