Η κρίση του κορωνοϊού δεν έχει προηγούμενο, όχι διότι αποτελεί την πρώτη πανδημία της ανθρωπότητας, αλλά διότι είναι η πρώτη που παρακολουθείται σε σχεδόν πραγματικό χρόνο, σαν αγώνας μπάσκετ. Στις 22 Ιανουαρίου λειτούργησε για πρώτη φορά το online dashboard από το Center for Systems Science and Engineering (CSSE) στο Πανεπιστήμιο Johns Hopkins των ΗΠΑ, με τους εντυπωσιακούς πορτοκαλείς του κύκλους. Στην Ελλάδα, από την 1η Φεβρουαρίου μέχρι και τις 26 Μαΐου, καθημερινές ενημερώσεις διενεργούσαν οι κκ. Τσιόδρας και Χαρδαλιάς, τονίζοντας το επείγον της κατάστασης.
Για πρώτη φορά στην πρόσφατη μνήμη ο μέσος πολίτης κατακλυζόταν με τόσα δεδομένα σε καθημερινή βάση. Μάλιστα, τα δεδομένα αυτά έγιναν διαθέσιμα και από αποθετήριο GitHub, από το οποίο με μια απλή εντολή (git pull origin master) μπορεί κανείς πολύ εύκολα να τα κατεβάζει ημερησίως στον υπολογιστή του. Ο γράφων πέρασε αρκετές ώρες της καραντίνας γράφοντας ένα εργαλείο Matlab που επεξεργάζεται αυτά τα δεδομένα και κάνει συγκριτικά διαγράμματα μεταξύ χωρών.
Μια από τις πρώτες παρατηρήσεις που μπορούν να γίνουν κάνοντας μια τέτοια δουλειά είναι ότι απόλυτοι αριθμοί δεν οδηγούν σε συμπεράσματα. Τι νόημα έχει να συγκρίνουμε τους απόλυτους αριθμούς κρουσμάτων και θανάτων σε Κίνα και Ελλάδα, δεδομένης της τεράστιας διαφοράς πληθυσμού; Αναγκαστικά, για να γίνουν συγκρίσεις και να εξαχθούν συμπεράσματα απαιτείται η αναγωγή κατά κεφαλή, δηλαδή ανά εκατομμύριο κατοίκων. Αυτή η σχετικά απλή αναγωγή αρκεί όταν μιλάμε για θανάτους.
[Σημείωση: Με την παραδοχή ότι η διάγνωση είναι σωστή, ότι δηλαδή ο Covid-19 ήταν το αίτιο του θανάτου, έστω και αν υπήρχαν υποκείμενα νοσήματα, και όχι ότι ο θανών απλώς ήταν μολυσμένος όταν πέθανε, π.χ. σε τροχαίο]
Τι γίνεται όμως όταν μιλάμε για αριθμό κρουσμάτων; Είναι δόκιμο να κάνουμε αναγωγή στον πληθυσμό; Π.χ. αν μεταξύ δύο χωρών με ίδιους πληθυσμούς η μία διενεργεί ένα εκατομμύριο ελέγχους την εβδομάδα και η άλλη δέκα χιλιάδες, είναι προφανές ότι η πρώτη μπορεί να παρουσιάζει μεγαλύτερο απόλυτο και κατά κεφαλή αριθμό κρουσμάτων, χωρίς όμως αυτό να αποδεικνύει ότι η πανδημία εκεί εξελίσσεται ταχύτερα. Όσο ψάχνουμε, τόσο βρίσκουμε.
Με άλλα λόγια, δεν έχει νόημα να μιλάμε για αριθμό κρουσμάτων κατά κεφαλή κατοίκων, αλλά για το ποσοστό θετικών εργαστηριακών ελέγχων επί του συνόλου των ελέγχων.
Τα προβλήματα των δεδομένων του ΕΟΔΥ
Εδώ λοιπόν τα πράγματα δυσκολεύουν. Οι χρονοσειρές του CSSE περιλαμβάνουν αριθμό θανάτων και κρουσμάτων που εν γένει ταυτίζονται με τις ημερήσιες εκθέσεις επιδημιολογικής επιτήρησης που δημοσιεύει ο ΕΟΔΥ, και μπορούν να θεωρηθούν αξιόπιστες (αντιθέτως, τα στοιχεία για αναρρώσεις έχουν σταματήσει να ανανεώνονται, τουλάχιστον για την Ελλάδα).
Όμως αυτές οι χρονοσειρές του CSSE δεν περιλαμβάνουν των ημερήσιο αριθμό εργαστηριακών ελέγχων. Ο σωρευτικός τους αριθμός δημοσιεύεται στις ημερήσιες εκθέσεις του ΕΟΔΥ, όμως εκεί ανακύπτει μια σειρά προβλημάτων:
1. Αυτές οι εκθέσεις του ΕΟΔΥ δημοσιεύουν τον αριθμό ημερησίων ελέγχων υπό μορφή διαγράμματος, αλλά όχι και τα πρωτογενή δεδομένα (χρονοσειρά) του διαγράμματος αυτού, που σημαίνει ότι κανείς δεν μπορεί να τα αξιοποιήσει στατιστικά.
2. Ο ΕΟΔΥ δημοσιεύει υπό μορφή πρωτογενών δεδομένων μόνον τον σωρευτικό αριθμό ελέγχων. Αν και αυτό προϋποθέτει μια κοπιώδη διαδικασία, θεωρητικά οι ημερήσιοι έλεγχοι μπορούν να εξαχθούν αφαιρώντας από αυτόν τον κάθε αριθμό εκείνον της προηγουμένης. Όταν όμως το επιχειρήσουμε διαπιστώνουμε σειρά ασυνεχειών και ασυνεπειών:
Ενώ οι έλεγχοι είχαν ξεκινήσει από τον Ιανουάριο, οι εκθέσεις ξεκινούν να δημοσιεύονται από τις 20/3.
Για 14 ενδιάμεσες ημέρες δεν έχουν δημοσιευθεί ημερήσιες εκθέσεις που σημαίνει ότι η χρονοσειρά σπάει.
Σε δύο περιπτώσεις (10-11 και 24-25 Ιουνίου) οι σωρευτικοί έλεγχοι της ημέρας ν+1 είναι χαμηλότεροι εκείνων της ημέρας ν, σαν να εξαφανίστηκαν εργαστηριακοί έλεγχοι από την μια ημέρα στην άλλη (π.χ. 295.639 έλεγχοι στις 24/6 και 291.840 έλεγχοι στις 25/6, δηλαδή απώλεια 3799 δειγμάτων).
3. Στρεφόμενοι στα διαγράμματα αυτών των ημερησίων ελέγχων («Διάγραμμα 5» μέχρι και τις 18/8, «Διάγραμμα 6» κατόπιν) με την ελπίδα να εξάγουμε χονδρικώς αυτά τα δεδομένα με κατάλληλο λογισμικό, συναντάμε ένα άλλο αδιέξοδο: τα παλαιότερα δεδομένα αλλάζουν από έκθεση σε έκθεση. Ένα παράδειγμα φαίνεται στην Εικόνα 1, η οποία δείχνει τα διαγράμματα των εκθέσεων της 13/7, 20/8 και 31/8, και στα οποία η χαρακτηριστική κορύφωση της 3/7 αλλάζει σε μέγεθος, ή εξαφανίζεται τελείως.
Με τις παραπάνω παρατηρήσεις δεν υπονοώ ότι συμβαίνει κάτι ύποπτο. Ευλόγως υποθέτω ότι οι αναδρομικές μεταβολές των διαγραμμάτων είναι αποτέλεσμα ενσωμάτωσης δεδομένων εργαστηρίων (στις 29/7, 3/8 και 19/8), διόρθωσης ημερομηνιών διαγνώσεων κλπ. Σε κάθε περίπτωση όμως, αν οι κρατικές αρχές θεωρούν ότι αυτή είναι μια πανδημία για την οποία πρέπει να είμαστε ανά πάσα στιγμή πλήρως ενημερωμένοι, οφείλουν να μας παρέχουν με διαφάνεια τα πιο επικαιροποιημένα στοιχεία, και μαζί με αυτά τις μεθόδους συλλογής και επεξεργασίας τους. Είναι προφανές ότι η περίοδος χαρακτηρίζεται από φόρτο εργασίας, αλλά ο επιπλέον κόπος μιας πολιτικής ανοικτών δεδομένων (open data) κατά την οποία ενημερώνεται ένα λογισμικό φύλλο ανηρτημένο στην ιστοσελίδα του ΕΟΔΥ, είναι ελάχιστος, ειδικά όταν αυτό το λογισμικό φύλλο ούτως ή άλλως ενημερώνεται καθημερινώς για την σύνταξη της ημερήσιας έκθεσης.
Σημείωση 1: Αν και υπάρχει χρονοσειρά εργαστηριακών ελέγχων για κορωνοϊό από το European Centre for Disease Prevention and Control, αυτή δίνεται σε εβδομαδιαία βάση και επιπλέον τα περισσότερα δεδομένα για την Ελλάδα είναι από απροσδιόριστη πηγή («Other»).
Σημείωση 2: Παρά τις επανειλημμένες κρούσεις μου μέσω τηλεφώνου και email προς την Επιδημιολογική Επιτήρηση του ΕΟΔΥ, κανείς αρμόδιος δεν ήταν διαθέσιμος (ή διατεθειμένος) να μου απαντήσει.
Είμαστε λοιπόν εντελώς στα τυφλά; Όχι απαραιτήτως.
Ποσοστά θετικών ελέγχων
Όπως προανέφερα, η εξαγωγή των στοιχείων είναι εφικτή. Χρησιμοποιώντας το πρόσθετο Grabit για Matlab εξήγαγα αυτά τα δεδομένα από το Διάγραμμα 6 της 24/9/2020 με σχετικώς ικανοποιητική ακρίβεια. Από τις 25/9 και εξής συμπληρώνω την χρονοσειρά με τις ημερήσιες διαφορές του σωρευτικού αριθμού ελέγχων από τις εκθέσεις του ΕΟΔΥ. Συνδυάζοντας την προκύπτουσα χρονοσειρά τα με τα δεδομένα του CSSE ανασυγκροτώ την καμπύλη ποσοστού ημερησίων θετικών ελέγχων. Για να λάβω υπόψη τυχόν ασυνέπειες στον χρόνο δειγματοληψίας και αναφοράς ενός δείγματος, περνώ τον δείκτη αυτό από ένα κυλιόμενο μέσο όρο 5 ημερών (Εικόνα 2).
Ενώ στα τέλη Μαρτίου είχαμε φτάσει στο 7,5% θετικών δειγμάτων, μετά την καραντίνα (από 23/3 έως 4/5) αυτός ο δείκτης μειώθηκε σε κάτω από 0,1% τον Ιούνιο, για να ξαναρχίσει να αυξάνεται τον Αύγουστο. Στα τέλη Σεπτεμβρίου κυμαίνεται στο 2,5%. Σε αυτήν την συγκράτηση χωρίς συνθήκες καραντίνας και απαγόρευσης ταξιδίων, είναι ευλογοφανές να υποθέσουμε ότι συντελεί η χρήση μάσκας και η τήρηση αποστάσεων.
Να σημειωθεί η διαφορά από το αντίστοιχο ποσοστό που δημοσιεύει ο ΕΟΔΥ (π.χ. 4,9% στα τέλη Απριλίου, και 1,4% στα τέλη Σεπτεμβρίου). Αυτό είναι το σωρευτικό ποσοστό θετικών ελέγχων, για όλη την περίοδο της πανδημίας, και οι σημερινές του χαμηλές τιμές «επωφελούνται» από τις πολύ χαμηλές τιμές Μαΐου-Ιουλίου. Θα ήταν ενδιαφέρον να γνωρίζαμε τις σχετικές αναλογίες τύπων δείγματοληψίας (αυθόρμητη προσέλευση πολιτών, ιχνηλάτηση κρουσμάτων, τυχαία δειγματοληψία, κλπ) ώστε να γνωρίζουμε κατά πόσον μπορεί να αναχθεί στον γενικό πληθυσμό.
Δείκτες θνητότητας
Ενδιαφέρον επίσης έχει η σύγκριση νέων κρουσμάτων και θανάτων (Εικόνα 3). Για έναν τριπλασιασμό (χονδρικά) του απολύτου αριθμού κρουσμάτων τον Σεπτέμβριο από την κορύφωση του Απριλίου, μόλις που ξεπερνάμε τον ημερήσιο αριθμό θανάτων, ενώ οι διασωληνωμένοι βρίσκονται πολύ χαμηλότερα από το μέγιστο του Απριλίου (93 στις 5/4 έναντι 79 στις 29/9).
Ο μετρημένος δείκτης θνητότητας (case fatality rate, CFR), δηλαδή προσδιοριζόμενος βάσει διαγνωσμένων κρουσμάτων, έχει παρουσιάσει δραστική πτώση. Η στιγμιαία του τιμή για την 29/9 είναι μεταξύ 2,2-2,9% αναλόγως με το παράθυρο επώασης (Εικόνα 4), ενώ σωρευτικά από την αρχή της πανδημίας είναι 2,97%.
Αυτή η πτωτική τάση ίσως είναι ενδεικτική του διαφορετικού προφίλ των ασθενούντων (π.χ. πιο νέοι και ανθεκτικοί) ή και της απόκτησης εμπειρίας από το ιατρονοσηλευτικό προσωπικό στην φροντίδα τους. Ενδεχομένως να οφείλεται και στην διεύρυνση των ελέγχων, μέσω της οποίας τείνουμε στον πραγματικό δείκτη θνητότητας (infected fatality rate, IFR). Αυτός είναι ο υπολογιζόμενος βάσει όλων των νοσούντων, ακόμη και μη διαγνωσμένων, ο αριθμός των οποίων όμως δεν μπορεί να εκτιμηθεί χωρίς εκτεταμένους ελέγχους αντισωμάτων. Όμως αφού οι συνολικοί μολυνθέντες (διαγνωσμένοι+αδιάγνωστοι) είναι αναγκαστικά περισσότεροι από τους διαγνωσμένους, ο πραγματικός δείκτης θνητότητας θα είναι πάντα μικρότερος του μετρημένου (IFR < CFR), άρα κάτω από 2-3%.
Πραγματικός δείκτης θνητότητας (IFR): μια προσέγγιση
Η πιο κοντινή εκτίμηση που έχουμε σχετικά με τον συνολικό αριθμό μολυνθέντων είναι το ποσοστό θετικών ελέγχων. Το σωρευτικό ποσοστό του 1,39% που προκύπτει από τα στοιχεία του ΕΟΔΥ (29/9), αναγόμενο σε έναν πληθυσμό 10,7 εκατομμυρίων, αντιστοιχεί σε περίπου 148,3 χιλιάδες μολυνθέντες. Σε αυτόν τον πληθυσμό, 376 θάνατοι αντιστοιχούν σε έναν δείκτη θνητότητας 0.26%. Ο αριθμός αυτός προφανώς έχει ένα περιθώριο σφάλματος που σχετίζεται με την αντιπροσωπευτικότητα και τυχαιοποίηση του δείγματος. Σε κάθε περίπτωση όμως παραμένει μια τάξη μεγέθους χαμηλότερος από τον μετρημένο δείκτη θνητότητας. Να σημειωθεί ότι αυτός ο αριθμός είναι σχεδόν ταυτόσημος με το «ευνοϊκό» σενάριο του αμερικανικού CDC για την ηλικία 50-69 ετών (0,25%) και την εκτίμηση του 0.27% σε άρθρο preprint του Γιάννη Ιωαννίδη, Καθηγητή στο Stanford. Άλλες τρέχουσες εκτιμήσεις δίνουν μεγαλύτερα ποσοστά σε άλλες χώρες (π.χ. περί το 0.68% σε μια άλλη μεταέρευνα).
Συμπεράσματα
Παρά την πλημμυρίδα δεδομένων, είναι δύσκολο να έχει κανείς μια αντικειμενική αποτίμηση της κατάστασης. Δεν μιλάμε για junk data που δημοσιεύουν δικτατορίες αλα Τούρκα, μιλάμε όμως για ελλιπή δεδομένα, στερούμενα πλήρους ανάλυσης σχετικά με την μεθοδολογία συλλογής τους. Εδώ σχολίασα την περίπτωση της Ελλάδας, αλλά δεν είναι η μόνη. Π.χ. επεξεργαζόμενος τα στοιχεία του CSSE, είχα σχολιάσει στα τέλη Μαρτίου ότι για κάποιες χώρες (π.χ. Ελλάδα, Ελβετία, Ολλανδία, Αυστρία) το διάστημα μεταξύ πρώτου κρούσματος και πρώτου θανάτου ήταν 10-14 ημέρες, ενώ για άλλες (Γερμανία, ΗΠΑ) 40 ημέρες. Αποδεχόμενοι παρόμοιο ρυθμό μετάδοσης, είτε οι χώρες της πρώτης ομάδας είχαν μη διαγνωσμένα κρούσματα πολύ νωρίτερα, είτε οι χώρες της δεύτερης ομάδας συνέχιζαν να αποδίδουν θανάτους Covid-19 σε άλλα αίτια (ή και τα δύο).
Επί του προκειμένου, η έλλειψη στοιχείων σχετικά με τους ημερησίους ελέγχους στην Ελλάδα θολώνει την κατάσταση, αν και θα μπορούσε πολύ εύκολα να διορθωθεί με επίσημο τρόπο από τον ΕΟΔΥ και όχι με αυτοσχεδιασμούς ανεξαρτήτων ερευνητών όπως του γράφοντος. Ένα καλό παράδειγμα προς μίμηση είναι η αντίστοιχη ιστοσελίδα της γαλλικής κυβέρνησης.
Πολύ επιφυλακτικά, μπορούμε να πούμε ότι το «δεύτερο κύμα» δεν είναι τόσο μεγάλο όσο υπονοούν οι απόλυτοι αριθμοί κρουσμάτων, αν λάβουμε υπόψη τον μεγαλύτερο αριθμό ελέγχων και την επανέναρξη της κανονικής δραστηριότητας εκτός καραντίνας. Είναι όμως πολύ πιθανό ότι η χρήση της μάσκας και η τήρηση αποστάσεων να συμβάλλουν σε αυτήν την συγκράτηση, και θα πρέπει βάσει της αρχής της πρόληψης ως μέτρα να συνεχισθούν μέχρι να έχουμε καλύτερη κατανόηση.
Επίσης παρατηρούμε ότι μεταξύ ενός δείκτη θνητότητας IFR της τάξης του 0,25% που προκύπτει από το ποσοστό θετικών τεστ, και ενός δείκτη CFR 2,5% που προκύπτει από τον απόλυτο αριθμό θετικών τεστ, η απόσταση είναι μια ολόκληρη τάξη μεγέθους. Επίσης, είναι αυτό το 0,25% υψηλό ή χαμηλό; Σε σχέση με εκείνο της εποχικής γρίππης (που είναι μικρότερο από 0,1%) είναι πολλαπλάσιο: από τουλάχιστον τριπλάσιο στην Ελλάδα μέχρι δεκαπλάσιο αλλού. Παράλληλα δεν θα πρέπει να αγνοείται η μολυσματικότητα του κορωνοϊού που είναι αρκετά υψηλότερη από εκείνη της εποχικής γρίππης.
Είναι απαραίτητο να γνωρίζουμε ακριβώς προς τα πού τείνουμε, ώστε οι αντίστοιχες πολιτικές να προσαρμοσθούν καταλλήλως, και να μην είναι ούτε υπερβολικά περιοριστικές, ούτε υπερβολικά χαλαρές. Η πρόταση συγκεκριμένης πολιτικής απόκειται σε ειδικούς, όμως μπορεί βασίμως να υποστηριχθεί ότι είναι πιο παραγωγική η συνέχιση μέτρων όπως μάσκες και τήρηση αποστάσεων, καθώς και η αύξηση των κλινών ΜΕΘ, παρά μια νέα καραντίνα που θα ήταν μια μάλλον υπερβολική αντίδραση με πολλές παράπλευρες απώλειες (ψυχολογικές, κοινωνικές, οικονομικές κλπ).
Επίλογος
Κλείνοντας, θα ήθελα να σημειώσω ότι αυτό το σχόλιο δεν επεκτείνεται στον κοινωνικό διχασμό που έχει επιφέρει η πανδημία, με τους μεν να κατηγορούν τους δε ως «ψεκασμένους», και τους δε να ανταποδίδουν με τον χαρακτηρισμό «πρόβατα». Αυτό είναι ένα παράπλευρο κοινωνιολογικό φαινόμενο υπερβολικά ευρύ για τον παρόντα χώρο. Θα σχολιάσω μόνον το εξής: όποιος έχει ασχοληθεί έστω και ελάχιστα με την Επιστήμη κατανοεί ότι είναι μια διαδικασία σταδιακής ελάττωσης της αβεβαιότητας, και η οποία προϋποθέτει συμφιλίωση με ακριβώς αυτήν έννοια, της αβεβαιότητας. Δυστυχώς, αμφότερες πλευρές εκκινούν από άκαμπτες και απόλυτες θέσεις που προδίδουν δυσανεξία στην αβεβαιότητα, ψυχολογική προδιάθεση κατανοητή αλλά ελάχιστα παραγωγική. Καθόλου δεν βοηθά και το γεγονός ότι πολλά κρίσιμα δεδομένα για την πανδημία είναι τόσο δυσεύρετα και αδιαφανή.
Από την πλευρά της, η οργανωμένη Πολιτεία έχει δικαίωμα και καθήκον να λαμβάνει κατασταλτικά μέτρα όπου χρειάζεται, αλλά η Δημοκρατική Πολιτεία οφείλει προτού καταφύγει σε αυτά να έχει θέσει όλα τα δεδομένα στην διάθεση των πολιτών, και να έχει φροντίσει να γίνει μια ανοιχτή και ελεύθερη αντιπαράθεση, ώστε τέτοια μέτρα κατά το δυνατόν να αποφευχθούν. Δεν είναι απαραίτητο ότι όλοι θα μπορέσουν να κατανοήσουν την επεξεργασία των δεδομένων και την εξαγωγή συμπερασμάτων, αφού δεν διαθέτουν όλοι την αντίστοιχη εκπαίδευση. Τουλάχιστον όμως μια τέτοια τακτική θα εμπνεύσει μια ελάχιστη εμπιστοσύνη που θα μειώσει τις μάχες οπισθοφυλακής που πρέπει να δίνονται για τα αυτονόητα.
ΥΓ: Τα δεδομένα του άρθρου είναι διαθέσιμα στον οποιονδήποτε ενδιαφερόμενο.