Covid-19 : des malades égarés au Royaume-Uni à cause d’Excel

Nicolas Furno |

La Public Health England (PHE), l’équivalent de l’agence de la santé publique au Royaume-Uni, a « oublié » 15 874 malades connus dans la semaine du 25 septembre au 2 octobre. Elle a d’abord donné un compte de 50 786 personnes ayant contracté la maladie Covid-19, avant de réaliser son erreur et noter qu’il manquait en moyenne près de 2 000 cas par jour sur cette semaine.

Comment peut-on « oublier » autant de malades en pleine pandémie ? En utilisant les mauvais outils pour gérer les données, évidemment. La PHE est l’organisme qui rassemble les chiffres fournis par tous ceux qui font des tests dans le pays. Les informations sur les malades lui sont transmises sous la forme de fichiers CSV, un format texte qui est effectivement adapté pour transférer de larges quantités de données. L’agence doit ensuite importer ces fichiers dans une base centralisée, mais au lieu de reposer sur un vrai gestionnaire de base de données, comme MySQL ou PostgreSQL, elle utilisait… Excel.

Photo : Christiaan Colen (CC BY-SA 2.0)

Le tableur de Microsoft peut importer des fichiers CSV et vu de loin, on peut le comparer à un logiciel de base de données. Dans les deux cas, les informations sont stockées dans des tables, avec des colonnes qui décrivent le format de chaque donnée et des lignes pour chaque enregistrement. Mais un tableur n’est pas une base de données, ne serait-ce que parce qu’il n’est pas pensé pour stocker de grandes quantités d’informations.

Avec la version actuelle du format de fichier, le .xslx, Excel peut stocker jusqu’à 1 048 576 lignes, ce qui peut sembler beaucoup, mais ce qui est ridicule face à ce qu’une table SQL peut contenir1. Pour ne rien arranger à l’affaire, la PHE utilisait encore l’ancien format de fichiers du tableur, le .xls qui a été créé en 1987 et qui est limité à 65 536 lignes par tableau. Chaque cas était composé de plusieurs lignes, ce qui limitait encore le nombre de cas qu’un tableau pouvait contenir.

En important les données à partir des fichiers CSV — qui n’ont eux aussi aucune limite de longueur, en passant —, l’agence ne conservait sans le savoir qu’une partie des résultats et n’enregistrait pas les suivants. Quand l’erreur a été découverte, le processus d’import a été modifié pour créer plusieurs fichiers et ainsi éviter les limites d’Excel, quel que soit le nombre de cas remontés. C’est bien, utiliser le nouveau format de fichiers d’Excel disponible depuis 2007 serait un petit peu mieux, mais c’est surtout l’outil lui-même qu’il faudrait changer…

La BBC qui rapporte l’information souligne que l’agence a vérifié ses données antérieures et assure que l’erreur n’a commencé que pour la semaine du 25 septembre. Tous les cas oubliés ont été intégrés et pris en charge.


  1. Si vous vous posez la question, la seule véritable limite dans une base de données est l’espace disponible sur l’ordinateur qui sert à la faire tourner. Les performances peuvent poser problème à partir d’un certain nombre d’enregistrements, mais il est possible de stocker plusieurs dizaines de milliards (oui, milliards) de lignes dans une seule table d’une base de données.  ↩︎

avatar reborn | 

C’est dingue le nombre de boites qui tournent exclusivement sous Excel. Un collègue chez Ponant veut faire passer sa boite sous Tableau ou Power BI.

Réponse des supérieurs: non ça marche très bien comme ça

🤷‍♂️

avatar lkaritoo | 

@reborn

Les solutions BI sont très chères et il faut suivre les changements de version obligatoire pour avoir du support.... je peux comprendre certains directeurs.
Mais ils perdent beaucoup aussi à ne pas avoir des solutions BI dignes du nom.

Chacun est libre. Faut pas venir pleurer après.

avatar marc_os | 

Tu « peux comprendre certains directeurs » ?

Moi pas.
C'est une honte.
C'est « directeurs » sont juste incompétents et se moquent de leurs clients.

avatar morpheusz63 | 

@marc_os

👍🏿

avatar Paquito06 | 

@lkaritoo

"Les solutions BI sont très chères"

C’est vrai que ca a un certain cout. Mais on parle ici de la “Public Health England”, ne pas utiliser SAS ou Tableau, c’est ridicule pour ne pas dire scandaleux.
Sauf si le pays compte 10,000 habitants, mais j’en doute 🤓
Anecdote sympa meme si le domaine d’application est ici critique 😓

avatar occam | 

@Paquito06

"Mais on parle ici de la “Public Health England”, ne pas utiliser SAS ou Tableau, c’est ridicule pour ne pas dire scandaleux."

Pour avoir travaillé sur un projet du Medical Research Council, à une époque où le Royaume était en meilleure posture économique et financière, et les rênes du pouvoir dans des mains un peu plus éclairées, je puis vous assurer que l’accès à des licences de soft d’un certain niveau était, au mieux, aléatoire.

Le projet avait besoin d’une licence de JMP Pro, même pas de SAS plein pot ; rien à faire.
Mathematica, heureusement que je disposais de ma propre licence.
La gestion des données ? Je vous le donne en mille : Excel.
Et encore, l’étude était co-financée par le Wellcome Trust.

avatar Paquito06 | 

@occam

Ca craint de lire ca 😳
Excel est vraiment limite dès qu’on commence à avoir des lignes à 6 chiffres. VBA et les pivot table ne font pas tout non plus 🤦🏼‍♂️

avatar ancampolo | 

@lkaritoo

Aujourd’hui tu as des solutions de crm a peanuts bien plus puissants et securisés qu’excel pour moi c’est un mystere toutes ses societes sur excel en 2020..

avatar Hideyasu | 

@ancampolo

Excel ca reste largement suffisant pour les TPE et petites PME, pas besoin d’outils de dingue pour faire du contrôle de G par exemple.
Ca reste mon avis, on tape sur Excel, je l’utilise souvent, c’est pas le top mais suffisant pour 60% des entreprises

avatar fousfous | 

Sur Numbers la limite est de combien de ligne?
Parce que je trouve qu'il supporte très bien les très grandes quantités de données comparé aux même tableaux sous Excel.

avatar andr3 | 

@fousfous

Ici on parle de plus de 1 millions de lignes, voire beaucoup plus.

avatar r e m y | 

@fousfous

La dernière version de Numbers fait un peu moins bien qu'excel avec le format .xlsx:

Numbers 10.0, ainsi que les versions ultérieures sur iPhone, iPad, iPod touch et Mac, offre des performances améliorées pour l'importation, l'exportation et la cartographie des données. Créez, modifiez et affichez des feuilles de calcul avec des tableaux qui contiennent jusqu'à 1 000 000 de lignes et 1 000 colonnes.

Par contre attention si vous partagez vos tableaux via iCloud car:

Dans Numbers pour iCloud, vous pouvez créer et modifier des feuilles de calcul qui comportent des tableaux ayant jusqu’à 65 535 lignes ou 256 colonnes, et ouvrir et afficher des feuilles de calcul et des tableaux dépassant cette taille.

https://support.apple.com/fr-ca/HT211084

avatar heero | 

la limite est de 1.000.000 sur Numbers

https://support.apple.com/en-us/HT211084

avatar marc_os | 

@ fousfous

Un tableur ce n'est pas une base de données, quelque soit sa limite.
Utiliser un tableur en guise de bdd, c'est de l'incompétence pure.
On s'en fout dans le cadre privé et personnel, mais pas dans le monde professionnel !

avatar fousfous | 

@marc_os

Pour faire des graphiques c'est quand même bien pratique non?

avatar xDave | 

@fousfous

Et?
Là on parle de gérer des données massivement on s’en tape du camembert.

Le plus consternant c’est la série de moulinettes maison qui font office de téléphone arabe et pourrissent les données au fur et a mesure des échanges.

J’ai eu l’occasion avec un ministère bien de chez nous de voir les dégâts que peu faire un export DB -traitement Excel avec humain derrière le clavier- import DB.

En deux à trois étapes, les données étaient devenues une jolie bouillie incomplète. ET la routine pour en importer le résultat inexploitable d’une mise à jour sur l’autre.

avatar fousfous | 

@xDave

Pouvoir sortir des graphiques à partir de plusieurs milliers de données c'est quand même bien pratique.
En tout cas c'est nécessaire quand tu utilises des instruments scientifiques qui vont pas se priver de te donner 100 000 lignes.

avatar Kounkountchek | 

@fousfous

Csv et matplotlib

avatar Sindanarie | 

@xDave

"Là on parle de gérer des données massivement on s’en tape du camembert.
"

😄😃

Tu aurais mis « le camembert » à la place de « du camembert » ça aurait été parfait 👍🏽😆

avatar koko256 | 

@marc_os

"Utiliser un tableur en guise de bdd, c'est de l'incompétence pure."
Oui mais est-ce qu'une bdd avec une seule table est vraiment une base de données. Pas relationnelle en tout cas. Le problème reste l'incapacité d'excel à gérer beaucoup de lignes. Curieusement, la version gratuite en ligne fait bien mieux à ce sujet.

avatar marc_os | 

@ koko256
Même si tu n'as qu'une seule table la BDD gèrera un index pouvant être multi-colonnes et apporter des performances incomparable en lecture. De plus le langage SQL permet de faire autre chose que des requêtes basiques par filtres, par exemple en permettant de faire des regroupements et des statistiques sur les données de manière efficace. Ta bdd à une table permet même de sortir des statistiques par exemple au format CSV que tu pourras refourguer à Excel pour générer les graphiques chers à l'autre fou si tu veux. Et même, soyons encore plus fous, si on tient à l'environnement Microsoft, on peut développer une application VisualBasic qui automatisera le beans. Et tant qu'à faire, autant utiliser SQL Server (un vrai soft pro).

avatar minounet | 

Comme vous le faite remarquer, c’est le nombre de ligne par tableau et si on sait un tant soit peux utiliser Excel, il peux gérer assez le ligne pour comptabiliser le nombre de patient atteint par la Covid-19 dans le monde entier bien que ce ne soit pas une base de données.

Ensuite, je suis bien d’accord avec vous , une base de données est plus simple et efficace qu’excel dans ce genre de problème, mais Excel est partout et beaucoup plus répandu que n’importe quel autre logiciel informatique, professionnel ou non d’ailleurs

avatar marc_os | 

@ minounet
« mais Excel est partout et beaucoup plus répandu que n’importe quel autre logiciel informatique »
Oui, tu a raison, l'incompétence est largement répandue en SSII.

avatar Malouin | 

... Et vive le RGPD ! Toutes ces informations stockées sur Excel...

avatar Adodane | 

@Malouin

Aucun rapport ! De plus le royaume uni n’applique le RGPD que jusqu’à la fin de l’année.

avatar BordelInside | 

@Adodane
"Aucun rapport !"

Bah si un peu quand même : l'accès aux données et leur suppression dans un fichier Excel potentiellement dupliqué cent fois, envoyé par mail, posé on sait pas trop où...
Pour le RGPD ou la sécurité, les données dans Excel ou les macros locales, développées par des services en loucedé, c'est l'horreur.

avatar Adodane | 

@BordelInside

Pourquoi un fichier Excel serait plus dupliqué qu’un autre fichier ?
C’est juste des suppositions quoi ! Rien de concret !

avatar Ali Ibn Bachir Le Gros | 

N'empêche qu'ils ont trouvé la parade au Covid : un bon vieux tableau Excel et la pandémie recule. Pas besoin de fermer les bars.

avatar r e m y | 

C,était assez malin de la part des britanniques pour montrer que le nombre de cas atteignait un plateau... 😂

avatar kafy28 | 

A force de tirer sur la corde, à la fin elle se casse.

A force de raboter les budgets sur ce qui ne rapporte pas au nom du libéralisme économique, voilà où nous en sommes.

Combien de services publics en France ne fonctionnent que grâce aux best efforts des personnes en bout de chaîne ?

Et c’est pareil dans le privé, tout ne tiens que parce que les salariés en bout de chaîne ont une conscience envers leurs clients directs.

Plus on monte dans la hiérarchie, plus les yeux se détachent des clients pour regarder la progression de la marge.

J’invite chacun à vérifier si, à la fin de cette crise, les entreprises qui ont promis de ne pas verser de dividendes, vont respecter leurs engagements.

avatar PierreBondurant | 

@kafy28

Regarde bien le budget de la santé au U.K., il est énorme: £145 milliards en 2016!

https://en.wikipedia.org/wiki/Government_spending_in_the_United_Kingdom

C’est pas une question de moyen mais de compétences...

avatar morpheusz63 | 

@PierreBondurant

😃+10000000

avatar supermars | 

@kafy28

+ 1000000

avatar marc_os | 

@ kafy28
« A force de raboter les budgets ... »

Un budget non raboté est nécessaire, mais pas suffisant.
Il faut en effet confier le travail à des personnes compétentes et qui n'ont pas comme objectif premier de faire des économies avant tout, mais considèrent que le travail "bien fait", c'est aussi un critère valable.

avatar petergab64 | 

On importe le CSV dans FileMaker Pro et ça roule :)

avatar Adodane | 

Dans ce cas, ce n’est pas la faute de l’outil mais du développeur qui a mis au point l’import.
Il reste plus qu’à actualiser les anciennes données 💁‍♀️

avatar DrStax | 

Il y a aussi Access. Dans ce genre de cas cela serait déjà plus approprié.

avatar marc_os | 

@ DrStax

Si vous tenez à une solution payante chez Microsoft, choisissez SQL Server !
MS-Access, c'est un truc de "développement rapide" pour amateurs peu éclairés en SSII.

Ou pour "chefs de services qui ont envie de se faire plaisir en bidouillant un truc génial" pour leur travail. Et j'ai eu affaire à pas mal de tels cas quand j'étais envoyé pour "professionnaliser" le truc en utilisant les bons outils (selon l'environnement de l'entreprise). Par exemple, il y a qq. années, la banque où j'ai été envoyé avait décidé de revoir tous ces petits logiciels pour les incorporer en tant que "web apps" dans leur nouvel Intranet. Environnement : SQL Server sur serveur Windows évidemment + PHP sur serveur Linux + Javascript/JQuery côté client...

avatar Matlouf | 

J'espère que ce ne portera pas à conséquences pour les personnes oubliées.

Enfin, bon. Excel, ou "Quand le problème ressemble à un clou, tous les outils ressemblent à un marteau."

Cela me rappelle la salle de TP de physique, au lycée. Il y avait au mur des affiches de l'INRS (signées Chadebec, aujourd'hui des collectors), avec les bonnes pratiques à adopter pour éviter les accidents : "Toujours réfléchir avant d'agir", "Méfiez-vous d'un mécanisme inconnu"... Et surtout ma préférée aujourd'hui : "UTILISEZ L'OUTIL APPROPRIE !".

avatar pocketjpaul | 

@Matlouf

Tu as inversé le proverbe : "Si le seul outil que vous avez est un marteau*, vous verrez tout problème comme un clou**."

* une vieille licence "Excel 2003"
** une feuille de calcul

avatar IceWizard | 

L’amateurisme ça tue !

avatar frankm | 

Wesh les baltringues, comme ils disent !

avatar JOHN³ | 

Si quelqu’un peut m’expliquer les avantages de Number par rapport à Excel ?

Actuellement j’utilise RStudio pour la biostatique, ainsi que Excel pour trier mes données.

Cependant Je paie pour Excel alors que Number est fourni avec le mac...

avatar occam | 

@JOHN³

"Actuellement j’utilise RStudio pour la biostatique, ainsi que Excel pour trier mes données. "

Vous utilisez RStudio, donc R.
La première chose que j’enseigne à mes étudiants, c’est de ne pas induire de sources d’erreurs supplémentaires dans leurs opérations en croyant qu’Excel, c’est simple et fiable.

R et ses multiples packages offrent des possibilités de tri des données sur mesure, adaptables à chaque problème.
À commencer par sort() et order().

Si la complexité d’un tri dépasse ce que vous pouvez aisément faire en R, elle dépassera d’autant plus ce que peut Excel. Mieux vaut alors se tourner vers une base de données SQL. R fournit des interfaces pour l’échange des données.

avatar morpheusz63 | 

@occam

C' est ce qu' on apprend en développement web, à propos d'une BDD: les données ne sont jamais fiable, on ne peut pas faire confiance à 100% à une source de données

avatar mrfish84 | 

Il y’a des solutions biens plus appropriées et « nocode » comme Airtable ou Zoho creator.

avatar ChrisFL410 | 

Titre putaclic, il aurait fallu écrire à cause d’un mauvais usage d’Excel

avatar quentinf33 (non vérifié) | 

@ChrisFL410

Sans blague. Rien qu’en lisant le titre et en étant un minimum lucide, on se doute bien que c’est lié à l’usage d’Excel...

avatar ChrisFL410 | 

@quentinf33

Ben non. C’est du français de base. Y a des bugs aussi. Désolé d’avoir critiqué la bonne parole, apparemment ça fait perdre leur sens critique à certains.

avatar morpheusz63 | 

Je voudrais rappeller à l'auteur de l'article que le gouvernement Français gérer le nombres de fraudes à la , reçu avec le tableur excel, comme quoi l'incompétence existe aussi chez nous, et je serais près à mettre ma main au feux que derrière l'apps stopcovid, il dois y avoir du excel aussi. Perso plus rien ne me choc lorsque il s'agit d'info.

Pages

CONNEXION UTILISATEUR