Ας υποθέσουμε ότι έχουμε ένα νόμισμα και το ρίχνουμε n φορές. Κάθε ρίψη Xi μπορεί να πάρει τιμή:
Θεωρούμε ότι η πιθανότητα να εμφανιστεί Head είναι p. Επειδή έχουμε ένα πείραμα με δύο πιθανά αποτελέσματα, με ίδια πιθανότητα το κάθε ένα, με ανεξάρτητες ρίψεις, κάθε ρίψη ακολουθεί κατανομή Bernoulli (p).
Στην περίπτωση του νομίσματος:Η πιθανότητα να παρατηρήσουμε ένα συγκεκριμένο αποτέλεσμα xi είναι:
P(Xi = xi) = pxi(1-p)1-xi
Επειδή οι ρίψεις είναι ανεξάρτητες και identically distributed (iid), η πιθανότητα να παρατηρήσουμε ολόκληρη τη σειρά αποτελεσμάτων x1, x2, ..., xn είναι το γινόμενο των πιθανοτήτων:
P(X1=x1, ..., Xn=xn) = ∏i=1n pxi(1-p)1-xi
Αν συμβολίσουμε με H τον αριθμό των Heads, τότε η παραπάνω έκφραση απλοποιείται σε:
pH(1-p)n-H
Ας υποθέσουμε ότι ρίχνουμε ένα νόμισμα n = 5 φορές και η πιθανότητα να εμφανιστεί Head είναι p = 0.6.
Έστω ότι η σειρά των αποτελεσμάτων είναι:
Αριθμός Heads: H = 3
Η πιθανότητα να εμφανιστεί αυτή η συγκεκριμένη σειρά είναι:
P(X1=1, X2=0, X3=1, X4=1, X5=0) = pH(1-p)n-H
Αντικαθιστώντας με αριθμούς:
P = 0.63 × (1 - 0.6)5-3 = 0.63 × 0.42 = 0.13824
Άρα, η πιθανότητα να παρατηρήσουμε ακριβώς αυτή τη σειρά είναι 0.13824.
Μέχρι τώρα θεωρούσαμε ότι το p είναι γνωστό και υπολογίζαμε την πιθανότητα των δεδομένων.
Στο Likelihood κάνουμε το αντίθετο:
Η συνάρτηση:
L(p) = pH(1-p)n-H
ονομάζεται likelihood function.
Η likelihood function δεν είναι πιθανότητα ως προς το p. Είναι μια συνάρτηση που μας δείχνει πόσο συμβατή είναι κάθε πιθανή τιμή του p με τα δεδομένα που παρατηρήσαμε. Ουσιαστικά μας λέει πόσο καλά ένα set από παραμέτρους εξηγεί τα παρατηρούμενα δεδομένα.
Αντικαθιστούμε τις τιμές:
L(p) = p3(1-p)2
Αυτή η συνάρτηση μας δείχνει πόσο πιθανό είναι να παρατηρήσουμε τα δεδομένα μας για διαφορετικές τιμές του p.
Η εκτίμηση Maximum Likelihood δίνεται από:
p̂ = H / n
Αντικαθιστώντας τις τιμές:
p̂ = 3 / 5 = 0.6
Άρα η εκτίμηση της πιθανότητας να εμφανιστεί Head είναι:
p̂ = 0.6
Δηλαδή, με βάση τα δεδομένα μας, το καλύτερο μοντέλο εκτιμά ότι το νόμισμα φέρνει Head περίπου στο 60% των ρίψεων.
Η likelihood function είναι:
L(p) = p3(1-p)2
Αν υπολογίσουμε τη likelihood για διαφορετικές τιμές του p:
Παρατηρούμε ότι η μεγαλύτερη τιμή της likelihood εμφανίζεται κοντά στο p = 0.6, που είναι ακριβώς το αποτέλεσμα του MLE.
Dutt, S., Chandramouli, S., & Das, A. K. (2018). Machine learning. Pearson.