Στην προηγούμενη φάση, το μοντέλο μας τα πήγε αρκετά καλά προβλέποντας σωστά 5 από τους 6 αγώνες( τον νικητή και όχι το σκορ) Ο μόνος ουσιαστικά χαμένος αγώνας, ήταν αυτός της Ουγγαρίας με τη Γερμανία το οποίο θεωρείται από όλους έκπληξη καθώς η Γερμανία κινδύνευσε να αποκλειστεί από ένα αξιόμαχο σύνολο που κανένας δεν περίμενε να παίξει τόσο καλά.
Να σημειώσουμε εδώ, ότι τόσο τα στατιστικά μοντέλα όσο και τα μοντέλα μηχανικής μάθησης δε θα προβλέψουν εκπλήξεις αλλά θα ποσοτικοποιήσουν αυτό που αναμένουμε να συμβεί με βάση την επίδοση των ομάδων ως αυτό το σημείο. Αν μια ομάδα δεν πάει καλά στους τελευταίους αγώνες τότε το μοντέλο μας θα «μάθει» και θα χαμηλώσει τις πιθανότητες νίκης της ομάδα αυτής χωρίς να κοιτάζει αν είναι «μεγάλη» ομάδα ή τι παίκτες έχει (αυτό γίνεται έμμεσα από τα ιστορικά δεδομένα). Επίσης αν τα ιστορικά δεδομένα είναι πολλά και οι 2-3 τελευταίοι αγώνες δεν είναι καλοί, τότε οι πιθανότητες ίσως δεν αλλάξουν πολύ. Σε αυτή την περίπτωση το μοντέλο δε «φταίει» για την αργή εκμάθηση του και την προσαρμογή του αλλά (κυρίως) τα δεδομένα που το τροφοδοτήσαμε που ίσως να μην αντικατοπτρίζουν την τωρινή κατάσταση της ομάδας (και δευτερευόντως ίσως η δομή του μοντέλου που δεν είναι τόσο ευέλικτο).
Τα αναφέρουμε αυτά για να μην θεωρήσετε ότι υπάρχει ένα μαγικό μοντέλο ή εξίσωση που θα μας βρίσκει πάντα τον νικητή. Αν υπήρχε τέτοιο μοντέλο, να ήσασταν σίγουροι ότι δε θα το είχαμε παρουσιάσει εδώ αλλά θα το είχαμε χρησιμοποιήσει προς δικό μας όφελος. Παρόλο λοιπόν που τα μοντέλα δε θα μας προβλέψουν ακριβώς το μέλλον, είναι εξαιρετικά χρήσιμα γιατί μας ποσοτικοποιούν αυτό που βλέπουμε μέσα από αριθμούς και μας κάνουν να κατανοούμε τη σπουδαιότητα μιας έκπληξης (δηλαδή ενός αγώνα του οποίου το αποτέλεσμα δεν περιμένουμε). Πριν προχωρήσουμε στις προβλέψεις, ας υπενθυμίσουμε κάποιες βασικές λεπτομέρειες σχετικές με τη μεθοδολογία που χρησιμοποιήσαμε.
Λίγα λόγια για το μοντέλο
Η τεχνική αλλά και τέχνη στατιστικής μοντελοποίησης έχει άμεση εφαρμογή στον τομέα του αθλητισμού και πιο συγκεκριμένα του ποδοσφαίρου με άμεση εφαρμογή στην λήψη αξιόπιστων προβλέψεων σε μελλοντικούς αγώνες ποδοσφαίρου όπου το ενδιαφέρον των φιλάθλων αυξάνει κατακόρυφα.
Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 με την εργασία του Michael Maher και την εργασία του Lee το 1997 όπου έθετε το ερώτημα αν πράγματι η Μάντσεστερ Γιουνάιτεντ τότε ήταν πράγματι η καλύτερη ομάδα. Το ερώτημα επιβεβαιώνονταν με την χρήση ενός απλοϊκού στατιστικού μοντέλου και προσομοίωσης. Η ανάλυση αυτή έθετε τα θεμέλια της σύγχρονης μοντελοποίησης στο Ποδόσφαιρο και στον αθλητισμό. Επόμενες σημαντικές δημοσιεύσεις ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.
Η βασική ιδέα του στατιστικού μοντέλου των καθηγητών του ΟΠΑ Καρλή και Ντζούφρα βασίζεται σε μια επέκταση μια γνωστής κατανομής που ονομάζεται Poisson για την πρόβλεψη του αριθμού των γκολ που θα σκοράρει κάθε ομάδα. Ο προβλεπόμενος αριθμός γκολ γράφεται ως συνάρτηση της επίδρασης της έδρας (home effect) που πλέον μπορεί να ποσοτικοποιηθεί και της επιθετικής και αμυντικής δυναμικότητας των ομάδων. Εδώ γίνεται χρήση μιας παραλλαγής αυτού του μοντέλου για να γίνει πρόβλεψη των αγώνων του EURO 2020. Επιπλέον χρησιμοποιούνται χρονό-δυναμικές παράμετροι που αντικατοπτρίζουν τις δυναμικότητες ομάδων και η διαφορά στο ranking μεταξύ των δύο αντίπαλων ομάδων με βάση τον δείκτη Coca-Cola FIFA ranking την 27η Μαΐου 2021. Το μοντέλο εκτιμήθηκε με χρήση της Μπευζιανής προσέγγισης (Bayesian approach) με του στατιστικών πακέτων R και STAN. Οι προβλέψεις αυτές είναι παρόμοιας ακρίβειας με αυτές που χρησιμοποιούν οι εταιρείες στοιχηματισμού.
Η ταυτότητα του μοντέλου δίδεται αναλυτικά στο τέλος αυτού του άρθρου.
Οι Προβλέψεις του Μοντέλου για την φάση των 16
Οι προβλέψεις του μοντέλου συνοψίζονται στον Πίνακα που ακολουθεί. Μαζί με τις πιθανότητες κάθε αποτελέσματος δίνεται και το σκορ με την μεγαλύτερη πιθανότητα εμφάνισης (η αντίστοιχη πιθανότητα δίνεται σε παρένθεση) και το αναμενόμενο σκορ βασισμένο στον αναμενόμενο αριθμό γκολ στρογγυλοποιημένο προς τον κοντινότερο ακέραιο.
Με βάση τα παραπάνω αποτελέσματα βλέπουμε ότι η Ιταλία, Βέλγιο, Γαλλία και Αγγλία έχουν μεγάλες πιθανότητες να περάσουν στον επόμενο γύρω με πιθανότητες μεγαλύτερες του 60%. Για την Ιταλία (έναντι της Αυστρίας) και την Γαλλία (έναντι της Ελβετίας) αυτά τα αποτελέσματα είναι αναμενόμενα. Η Ιταλία έκανε καλές εμφανίσεις με εξαιρετικά σκορ ενώ η Γαλλία (χωρίς εξαιρετική επίδοση) πήρε πολλούς πόντους έναντι πολύ δύσκολων αντιπάλων.
Οι υποδεικνυόμενες άνετες επικρατήσεις του Βελγίου έναντι της Πορτογαλίας (65.7% πιθανότητα νίκης) και της Αγγλίας έναντι της Γερμανίας (με 61.4%) είναι αρκετά αντίθετες με τη διαίσθηση των φιλάθλων που περιμένουν εξαιρετικούς αμφίρροπους και ενδιαφέροντες αγώνες. Ο λόγος που το μοντέλο ξεχωρίζει το Βέλγιο και την Αγγλία έναντι των αντιπάλων του είναι γιατί αυτές είχαν εξαιρετικά αποτελέσματα σε αντίθεση με την Πορτογαλία και Γερμανία που τα πήγαν χειρότερα του αναμενόμενου σε ένα δύσκολο όμιλο. Αυτό οφείλεται και στο γεγονός ότι οι δύο αυτές ομάδες δέχτηκαν αρκετά γκολ στους αγώνες των group (5 η Γερμανία και 6 η Πορτογαλία) με αποτέλεσμα το μοντέλο να διορθώσει τις αμυντικές τους δυναμικότητες και έτσι να τους δίνει μικρές πιθανότητες νίκης στη φάση των 16 (δηλαδή το κλειδί είναι η βελτίωση τους αμυντικά). Ta διαγράμματα που ακολουθούν δείχνουν την εξέλιξη των αμυντικών και επιθετικών δυναμικοτήτων (παραμέτρων του μοντέλου) για όλες τις ομάδες.
Δύο αγώνες μπορούν να χαρακτηριστούν ως αμφίρροποι με βάση τις προβλέψεις του μοντέλου. Ο αγώνας Ουαλίας-Δανίας εμφανίζεται εξαιρετικά αμφίρροπος με ελαφρό προβάδισμα της Ουαλίας. Για τον αγώνα αυτό όμως ας έχουμε υπόψη μας ότι η Δανία έχασε τον αγώνα από τη Φινλανδία επηρεασμένη πιθανά από το άτυχο γεγονός του ποδοσφαιριστή της Κριστιαν Ερικσεν. Ο δεύτερος αμφίρροπος αγώνας είναι αυτός μεταξύ Κροατίας με την Ισπανία η οποία έχει ελαφρύ προβάδισμα με πιθανότητα νίκης 40%.
Τέλος στους δύο τελευταίους αγώνες υπερτερούν ελαφρά η Σουηδία της Ουκρανίας με πιθανότητα νίκης της πρώτης 54% και η Ολλανδία της Τσεχίας με πιθανότητα της πρώτης 57%. Και στις δύο περιπτώσεις οι πιο αδύναμες ομάδες (Ουκρανία και Τσεχία) έχουν πιθανότητες να παλέψουν τον αγώνα και να πάνε σε παράταση ή να νικήσουν με πιθανότητα 46% και 43% αντίστοιχα. Στα ακόλουθα διαγράμματα απεικονίζονται οι πιθανότητες κάθε σκορ για κάθε αγώνα. Τα πιο σκούρα κουτάκια απεικονίζουν τα πιο πιθανά αποτελέσματα ενώ τα πιο ανοικτόχρωμα υποδεικνύουν αποτελέσματα με χαμηλή πιθανότητα εμφάνισης.
Οι προβλέψεις γίνονται για επιστημονικούς λόγους και δεν συνιστούν προτροπή ή συμβουλή για στοιχηματισμό.
Βιβλιογραφία για διαβαστερούς φιλάθλους
· Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
· Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393.
· Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best? Chance, 10, 15-19.
· Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
· Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.
Οι Μαγικές Εξισώσεις του στατιστικού μοντέλου
· i είναι ο δείκτης του αγώνα
· και είναι ο αριθμός των γκολ μεταξύ της 1ης και της 2ης ομάδας στον αγώνα i
· είναι η επίδραση της έδρας (μόνο για τους αγώνες που ισχύει αυτό). Συνήθως στο EURO οι περισσότεροι αγώνες είναι σε ουδέτερη έδρα οπότε αυτό το bonus δεν προστίθεται σε καμία από τις δύο αντίπαλες ομάδες
· και είναι η 1η και 2η ομάδα αντίστοιχα (ή η εντός και εκτός έδρα ομάδα – όπου ισχύει) για τον i αγώνα.
· και οι παράμετροι που εκτιμούν της επιθετική και αμυντική δυναμικότητα/ ικανότητα της ομάδας k την χρονική στιγμή t (δυναμικές παράμετροι που αλλάζουν στο χρόνο)
· δείκτης Coca-Cola FIFA ranking την 27η Μαΐου 2021 για την ομάδα k.
· είναι η επίδραση του Coca-Cola FIFA ranking στο λογάριθμο των αναμενόμενων γκολ
Λίγα λόγια για τους Συγγραφείς
Ο Leonardo Egidi είναι επίκουρος καθηγητής Στατιστικής στο Πανεπιστήμιο της Τεργέστης στην Ιταλία και μέλος της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group. Έχει διδακτορικό στην μοντελοποιηση και αναλυτική ποδοσφαίρου και έντονη ερευνητική δραστηριότητα στη Μπευζιανή Στατιστική μεθοδολογία.
O Ιωάννης Ντζούφρας είναι καθηγητής Στατιστικής και πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Δημήτρη Καρλή. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η Μπευζιανή στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, ψυχομετρία και αναλυτική των σπορ.
O Δημήτρης Καρλής είναι καθηγητής Στατιστικής και αναπληρωτής πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Ιωάννη Ντζούφρα. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, και αναλυτική των σπορ.
Οι τρεις συγγραφείς του άρθρου αυτή τη στιγμή συνεργάζονται για τη συγγραφή ενός βιβλίου σε Football Analytics σε διεθνή επιστημονικό οίκο ενώ στο τελευταίο workshop της ομάδας έδωσαν ένα σεμιναριακό μάθημα σε Football analytics.
Η ερευνητική ομάδα του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group ιδρύθηκε το 2015 από τους καθηγητές Ιωάννη Ντζούφρα και Δημήτρη Καρλή. Μέλη του είναι σημαντικά μέλη της κοινότητα της αναλυτικής των σπορ όπως οι Stefan Kesenne (Πανεπιστήμιο Antwerp & Leuven), Leonardo Egidi (Πανεπιστήμιο Trieste), Ιωάννης Κοσμίδης (Warwick), Κωνσταντίνος Πελεχρίνης (Pittsburg), Nial Friel (UCD) και Gianluca Baio (UCL) καθώς επίσης και ο πρώην προπονητής της εθνικής Ελλάδας Βόλεϊ, Σωτήρης Δρίκος. Η ερευνητική ομάδα είναι υπεύθυνη για της σειρά ετήσιων συνεδρίων με το όνομα AUEB Sports Analytics Workshop (5 συνολικά) ενώ το 2019 διοργάνωσε το διεθνές συνέδριο MathSport 2019 με 200 συμμετέχοντες επιστήμονες από όλο τον κόσμο. Τέλος η ομάδα έχει μια σειρά από σημαντικές επιστημονικές δημοσιεύσεις στο χώρο της αναλυτικής των σπορ.