Ήρθε η ώρα του Παγκοσμίου κυπέλου 2022 που φέτος διεξάγεται στο Κατάρ. Ένα περίεργο κύπελο καθώς είναι στη μέση του χειμώνα σε αντίθεση με τις προηγούμενες διοργανώσεις που διεξάγονταν κατά τους καλοκαιρινούς μήνες.
Η χρήση στατιστικών τεχνικών για την πρόβλεψη αγώνων ποδοσφαίρου πρώτο-εμφανίστηκε στην επιστημονική βιβλιογραφία το 1968 με την πρωτοπόρα επιστημονική δημοσίευση των Reep & Benjamin. Οι επόμενες πραγματικές καινοτομίες εμφανίζονται στη δεκαετία του 80 (με την εργασία του Michael Maher) και τη δεκαετία του 90 (με την εργασία του Lee το 1997). Οι πρώτες όμως σημαντικές δημοσιεύσεις στο χώρο, εισάγοντας μοντέλα στα οποία βασίζονται και μοντέλα που χρησιμοποιούμε ακόμα και σήμερα, ήταν οι εργασίες των Dixon & Coles το 1997 και το διμεταβλητό μοντέλο Poisson των Καρλή και Ντζούφρα το 2003 (δύο από τους συγγραφείς της συγκεκριμένης ανάλυσης). Τα δύο αυτά μοντέλα έθεσαν τη βάση των συγχρόνων μοντέλων πρόβλεψης των αποτελεσμάτων αγώνων ποδοσφαίρου.
Σε αυτή την ανάλυση χρησιμοποιούμε ακριβώς το μοντέλο των Καρλή και Ντζούφρα μέσω του πακέτου “footbayes” στη στατιστική γλώσσα προγραμματισμού R που έχουν αναπτύξει οι 2 πρώτοι συγγραφείς αυτού του άρθρου και της ανάλυσης. Το μοντέλο επίσης συμπεριλαμβάνει την εκτίμηση παραμέτρων που εκτιμούν την απόδοση κάθε ομάδας που αλλάζουν στον χρόνο. Για την εκμάθηση του μοντέλου χρησιμοποιήθηκαν περισσότερα από 3000 διεθνείς αγώνες της περιόδου 2018-2022. Κύρια επεξηγηματική μεταβλητή είναι η διαφορά μεταξύ των δύο ομάδων στο δείκτη Coca-Cola/FIFA ranking. Το μοντέλο, που προτάθηκε για πρώτη φορά από τους Καρλή &
Ντζούφρα το 2003, επεκτείνει το συνηθισμένο διμεταβλητό μοντέλο Poisson. Λεπτομέρειες για το μοντέλο στατιστικής και μηχανικής μάθησης που χρησιμοποιήθηκε θα βρείτε στο τέλος αυτού του άρθρου.
Απολογισμός 1ης αγωνιστικής
Δυστυχώς, με το παγκόσμιο κύπελο ποδοσφαίρου φέτον να είναι στη μέση του χειμώνα και στο απόγειο των οικονομικών και οικογενειακών υποχρεώσεων μας, ήταν αδύνατο να βρω χρόνο να γράψω αυτό το άρθρο νωρίτερα – και φυσικά ως αποτέλεσμα να μην έχω δει πάρα ελάχιστα λεπτά από το μουντιάλ (κατάφερα όμως και είδα ζωντανά το πέναλτι του Bale και ένα εξαιρετικό γκολ της Βραζιλίας).
Οπότε εδώ θα γράψω έναν απολογισμό του πόσο καλά πήγε το μοντέλο στο 1ο γύρο. Οι προβλέψεις είχαν αναρτηθεί στην ιστοσελίδα του συνεργάτη μας Leonardo Egidi πριν τους αγώνες φυσικά και είναι ακόμα διαθέσιμες εδώ.
Στον Πίνακα 1 θα βρείτε τις προβλέψεις των πρώτων 16 αγώνων (1η αγωνιστική). Όπως βλέπετε το μοντέλο κατάφερε να προβλέψει σωστά αρκετούς αγώνες (56%) ενώ σε 3 ακόμα αγώνες έδειχνε το τελικό αποτέλεσμα ήταν αρκετά πιθανό. Πιο συγκεκριμένα στον αγώνα Μεξικό-Πολωνία έχουμε αξιοσημείωτη πιθανότητα και στις δύο ομάδες (42% για το Μεξικό έναντι 30% για την Πολωνία) υποδεικνύοντας ότι οι δύο ομάδες είναι κοντά σε δυναμικότητα. Παρόμοια είναι η εικόνα στο Μαρόκο (29%) με την Κροατία (41%) με 30% την πιθανότητα ισοπαλίας. Αξιοσημείωτο είναι ότι το μοντέλο έδινε σημαντική πιθανότητα νίκης στην Ιαπωνία (31%) έναντι της Γερμανίας (42%) στο οποίο κέρδισε η πρώτη. Όσον αφορά την μεγάλη έκπληξη της Σαουδικής Αραβίας, το μοντέλο έδινε μόνο 6% πιθανότητα νίκης όπως και κάθε λογικό μοντέλο θα έδινε. Να σημειώσουμε εδώ ότι ένα λογικό μοντέλο στατιστικής και μηχανικής μάθησης σε καμία περίπτωση δε θα μπορέσει να πιάσει εκπλήξεις σαν και αυτές και μπορούν να συμβούν λόγω απλής τυχαιότητα ή καταστάσεων που δεν λαμβάνονται υπόψη από το μοντέλο.
Το Διάγραμμα 1 δίνει με πιο πολύ λεπτομέρεια τις πιθανότητες για το κάθε σκορ για καθένα από τους πρώτους 16 αγώνες.
Οι Προβλέψεις του Μοντέλου για την 2η Αγωνιστική
Οι προβλέψεις για τους αγώνες της 2ης αγωνιστικής δίνονται στον Πίνακα 2. Για τον υπολογισμό τους έχουν ληφθεί υπόψη και τα αποτελέσματα της 1ης αγωνιστικής.
Από τον πίνακα αυτό ξεχωρίζουμε του αγώνες
· Ουαλία – Ιράν
· Τυνησία – Αυστραλία
· Πολωνία – Σαουδική Αραβία
ως τους πιο αμφίρροπους αγώνες.
Ως φαβορί ξεχωρίζουν
1. Βραζιλία με πιθανότητα νίκης 70% έναντι της Ελβετίας
2. Ιαπωνία με πιθανότητα νίκης 65% έναντι της Κοστα Ρίκα
3. Ολλανδία με πιθανότητα νίκης 60% έναντι της Εκουαδόρ
4. Αργεντινή (παρόλο που έχασε τον 1ο αγώνα) με πιθανότητα νίκης 60% έναντι του Μεξικό
5. Νότια Κορέα με πιθανότητα νίκης 59% έναντι της Γκάνα
6. Βέλγιο με πιθανότητα νίκης 59% έναντι του Μαρόκο
7. Ισπανία με πιθανότητα νίκης 55% έναντι της Γερμανίας (και αν συμβεί αυτό η Γερμανία μενεί εκτός της διοργάνωσης).
Τέλος έχουμε άλλους έξι αγώνες που είναι σχετικά αμφίρροποι αλλά με ελαφρό προβάδισμα της μίας από τις δύο ομάδες. Σε αυτούς τους αγώνες θεωρούμε ότι οι ομάδες είναι σχετικά κοντά και μπορεί να έρθουν και ισοπαλία λόγω τακτικής και στρατηγικής. Συγκεκριμένα έχουμε
1. Σερβία (50%) να επικρατεί της Καμερούν (22%)
2. Αγγλία (49%) να επικρατεί των ΗΠΑ (23,5%)
3. Σενεγάλη (47%) να επικρατεί του Κατάρ (24%)
4. Κροατία (43%) να επικρατεί του Καναδά (28%)
5. Πορτογαλία (42,5%) να επικρατεί της Ουρουγουάης (29%)
6. Γαλλία (42%) να επικρατεί της Δανίας (29%)
Στο Διάγραμμα 2 μπορείτε να δείτε τις πιθανότητες για το κάθε σκορ για καθένα από τους 16 αγώνες της 2ης αγωνιστικής.
Βιβλιογραφία για διαβαστερούς φιλάθλους
· Dixon, M.J. and Coles, S.G. (1997), Modelling Association Football Scores and Inefficiencies in the Football Betting Market. Journal of the Royal Statistical Society: Series C (Applied Statistics), 46, 265-280.
· Karlis, D. and Ntzoufras, I. (2003), Analysis of sports data by using bivariate Poisson models. Journal of the Royal Statistical Society: Series D (The Statistician), 52, 381-393.
· Lee A.J. (1997). Modeling Scores in the Premier League: Is Manchester United Really the Best? Chance, 10, 15-19.
· Maher, M.J. (1982), Modelling association football scores. Statistica Neerlandica, 36, 109-118.
· Reep, C., & Benjamin, B. (1968). Skill and Chance in Association Football. Journal of the Royal Statistical Society. Series A (General), 131, 581-585.
· i είναι ο δείκτης του αγώνα
· 𝑋𝑖 και 𝛶𝑖 είναι ο αριθμός των γκολ μεταξύ της 1ης και της 2ης ομάδας στον αγώνα i
· ℎ𝑖 και 𝑎𝑖 είναι η 1η και 2η ομάδα αντίστοιχα (ή η εντός και εκτός έδρα ομάδα – όπου ισχύει) για τον i αγώνα.
· 𝑎𝑡𝑡𝑘,𝑡 και 𝑑𝑒𝑓𝑘,𝑡 οι παράμετροι που εκτιμούν της επιθετική και αμυντική δυναμικότητα/ ικανότητα της ομάδας k την χρονική στιγμή t (δυναμικές παράμετροι που αλλάζουν στο χρόνο)
· 𝑟𝑎𝑛𝑘𝑖𝑛𝑔𝑘 δείκτης Coca-Cola FIFA ranking την 6η Οκτωβρίου 2022 για την ομάδα k.
Λίγα λόγια για τους Συγγραφείς
O Leonardo Egidi είναι επίκουρος καθηγητής Στατιστικής στο Πανεπιστήμιο της Τεργέστης στην Ιταλία και μέλος της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group. Έχει διδακτορικό στην μοντελοποιηση και αναλυτική ποδοσφαίρου και έντονη ερευνητική δραστηριότητα στη Μπευζιανή Στατιστική μεθοδολογία.
O Βασίλης Παλάσκας είναι Στατιστικός Αναλυτής και Επιστήμονας Δεδομένων στην Fantasy Sports Interactive (FSI). Είναι ενεργό μέλος της ερευνητικής ομάδας AUEB Sports Analytics από το 2019 όπου τελείωσε το M.Sc. in Statistics του Οικονομικού Πανεπιστημίου Αθηνών.
O Ιωάννης Ντζούφρας είναι καθηγητής Στατιστικής και πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Δημήτρη Καρλή. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η Μπευζιανή στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, ψυχομετρία και αναλυτική των σπορ.
O Δημήτρης Καρλής είναι καθηγητής Στατιστικής και αναπληρωτής πρόεδρος στο Τμήμα Στατιστικής του Οικονομικού Πανεπιστημίου Αθηνών. Είναι ιδρυτικό μέλος της ερευνητικής ομάδας AUEB Sports Analytics Group μαζί με τον Ιωάννη Ντζούφρα. Έχει αναγνωρισμένη επιστημονική δραστηριότητα σε τομείς όπως η στατιστική μεθοδολογία, υπολογιστική στατιστική, Βιοστατιστική, και αναλυτική των σπορ.
Ενεργές Συνεργασίες των Συγγραφέων
Οι τρεις συγγραφείς (L. Egidi, Ι. Ντζούφρας και Δ. Καρλής) του άρθρου αυτή τη στιγμή συνεργάζονται για τη συγγραφή ενός βιβλίου σε Football Analytics σε διεθνή επιστημονικό οίκο ενώ στο τελευταίο workshop της ομάδας έδωσαν ένα σεμιναριακό μάθημα σε Football analytics.
Ο L. Egidi και Β. Παλάσκας συνεργάζονται στην ανάπτυξη του λογισμικού “footbayes” (βιβλιοθήκη της στατιστικής γλώσσας προγραμματισμού R).
Ο L. Egidi, Ι. Ντζούφρας και Β. Παλάσκας συνεργάζονται στην συγγραφή ενός επιστημονικού άρθρου αξιολόγησης παικτών στο Βόλεϊ.
Ο Ι. Ντζούφρας και Β. Παλάσκας συνεπιβλέπουν μια διπλωματική εργασία στα πλαίσια του M.Sc. in Statistics του ΟΠΑ και της συνεργασίας με την FSI (Fantasy Sports Interactive)
Η Ομάδα AUEB Sports Analytics
Η ερευνητική ομάδα του Οικονομικού Πανεπιστημίου Αθηνών AUEB Sports Analytics Group ιδρύθηκε το 2015 από τους καθηγητές Ιωάννη Ντζούφρα και Δημήτρη Καρλή. Μέλη του είναι σημαντικά μέλη της κοινότητα της αναλυτικής των σπορ όπως oι Leonardo Egidi (Πανεπιστήμιο Trieste), Ιωάννης Κοσμίδης (Warwick), Κωνσταντίνος Πελεχρίνης (Pittsburg), Nial Friel (UCD) και Gianluca Baio (UCL) καθώς επίσης και ο πρώην προπονητής της εθνικής Ελλάδας Βόλεϊ, Σωτήρης Δρίκος και ο νυν προπονητής της Εθνικής ομάδας Μπάσκετ του Κοσόβου, Χρήστος Μαρμαρινός. Η ερευνητική ομάδα είναι υπεύθυνη για της σειρά ετήσιων συνεδρίων με το όνομα AUEB Sports Analytics Workshop (6 συνολικά) ενώ το 2019 διοργάνωσε το διεθνές συνέδριο MathSport 2019 με 200 συμμετέχοντες επιστήμονες από όλο τον κόσμο. Η ομάδα έχει μια σειρά από σημαντικές επιστημονικές δημοσιεύσεις στο χώρο της αναλυτικής των σπορ. Τέλος θα θέλαμε να αναφέρουμε ότι η ομάδα ιδρύθηκε το 2015 λόγω της επίσκεψης του καθηγητή Stefan Kesenne (Πανεπιστήμιο Antwerp & Leuven), σπουδαίου Οικονομολόγου του Αθλητισμού που έπαιξε και ενεργό ρόλο στην υπόθεση Bosman. Ο Stefan Kesenne στήριξε ενεργά την ομάδα μέχρι και το 2021 όπου ξαφνικά απεβίωσε. Η ύπαρξη της ομάδας AUEB Sports Analytics Group οφείλεται σε μεγάλο ποσοστό στη συνδρομή και την έμπνευση που μας έδωσε ο κος Kesenne.
* Συγγραφέας του παρόντος άρθρου είναι ο Ιωάννης Ντζούφρας. Το άρθρο είναι βασισμένο στην ανάλυση των Leonardo Egidi (Πανεπιστήμιο της Τεργέστης) και του Βασίλειου Παλάσκα (Fantasy Sports Interactive) με τις συμβουλευτικές συνδρομές των Ι. Ντζούφρα και Δ. Καρλή. Και οι τέσσερεις συγγραφείς είναι ενεργά μέλη της ερευνητικής ομάδας του Οικονομικού Πανεπιστημίου Αθηνών: AUEB Sports Analytics Group.
Latest News
Ανθεκτική η ελληνική οικονομία, αγκάθι η καταναλωτική εμπιστοσύνη
Είναι κρίσιμη η ανάγκη για στοχευμένες πολιτικές παρεμβάσεις που θα ενισχύσουν τη ζήτηση, θα σταθεροποιήσουν την αγορά εργασίας και θα στηρίξουν τη βιομηχανική παραγωγή
Το ΕΚΠΑ συζητά για το Στρατηγικό Σχέδιό του – Ημερίδα της Μονάδας Στρατηγικού Σχεδιασμού
Μια πολύ ενδιαφέρουσα ημερίδα της Μονάδας Στρατηγικού Σχεδιασμού του ΕΚΠΑ για το Στρατηγικό Σχέδιο του ΕΚΠΑ
Τα τρία σενάρια για το παγκόσμιο ΑΕΠ μετά την εκλογή Τραμπ
Σύμφωνα με την Oxford Economics βραχυπρόθεσμα η νίκη του Ντόναλντ Τραμπ υποδηλώνει την πιθανότητα δημοσιονομικών κινήτρων που θα δώσουν μικρή ώθηση στο ΑΕΠ
Οι 5 προτεραιότητες του νέου οργανισμού του ΟΠΑ
Ο νέος Οργανισμός του ΟΠΑ έρχεται να αντικαταστήσει τον παλαιότερο που ίσχυε από το 1996
Φορολογικές Μεταρρυθμίσεις και Οικονομική Ανάπτυξη: Η καθιέρωση μια νέας Στρατηγικής
Η Ελλάδα αποτελεί ένα νέο παράδειγμα στο οποίο μελετάται η σχέση μεταξύ οικονομικής ανάπτυξης και φορολογικής πολιτικής
Στην 62η θέση παγκοσμίως στην ερευνητική δραστηριότητα το ΕΚΠΑ
Το ΕΚΠΑ ανέβηκε 30 θέσεις στη διεθνή ερευνητική κατάταξη Πανεπιστημίων AD Scientific Index World Top Universities Ranking 2024-2025
Τα αχνά σημάδια ανάκαμψης του δανεισμού – Οι εκτιμήσεις της Oxford Economics για τα επιτόκια
Αν η ΕΚΤ καθυστερήσει τον κύκλο χαλάρωσης η πιστωτική ανάπτυξη θα περιοριστεί, λέει η Oxford Economics