Αρχή

ML11

Machine Learning 11: Maximum Likelihood Estimation

1. Likelihood

Ας υποθέσουμε ότι έχουμε ένα νόμισμα και το ρίχνουμε n φορές. Κάθε ρίψη Xi μπορεί να πάρει τιμή:

  • Xi = 1 αν το αποτέλεσμα είναι Head
  • Xi = 0 αν το αποτέλεσμα είναι Tail

Θεωρούμε ότι η πιθανότητα να εμφανιστεί Head είναι p. Επειδή έχουμε ένα πείραμα με δύο πιθανά αποτελέσματα, με ίδια πιθανότητα το κάθε ένα, με ανεξάρτητες ρίψεις, κάθε ρίψη ακολουθεί κατανομή Bernoulli (p).

Στην περίπτωση του νομίσματος:
  • P(X = 1) = p   (πιθανότητα να εμφανιστεί Head)
  • P(X = 0) = 1 - p   (πιθανότητα να εμφανιστεί Tail)

Η πιθανότητα να παρατηρήσουμε ένα συγκεκριμένο αποτέλεσμα xi είναι:

P(Xi = xi) = pxi(1-p)1-xi

Επειδή οι ρίψεις είναι ανεξάρτητες και identically distributed (iid), η πιθανότητα να παρατηρήσουμε ολόκληρη τη σειρά αποτελεσμάτων x1, x2, ..., xn είναι το γινόμενο των πιθανοτήτων:

P(X1=x1, ..., Xn=xn) = ∏i=1n pxi(1-p)1-xi

Αν συμβολίσουμε με H τον αριθμό των Heads, τότε η παραπάνω έκφραση απλοποιείται σε:

pH(1-p)n-H

Ας υποθέσουμε ότι ρίχνουμε ένα νόμισμα n = 5 φορές και η πιθανότητα να εμφανιστεί Head είναι p = 0.6.

Έστω ότι η σειρά των αποτελεσμάτων είναι:

  • X1 = Head → 1
  • X2 = Tail → 0
  • X3 = Head → 1
  • X4 = Head → 1
  • X5 = Tail → 0

Αριθμός Heads: H = 3

Η πιθανότητα να εμφανιστεί αυτή η συγκεκριμένη σειρά είναι:

P(X1=1, X2=0, X3=1, X4=1, X5=0) = pH(1-p)n-H

Αντικαθιστώντας με αριθμούς:

P = 0.63 × (1 - 0.6)5-3 = 0.63 × 0.42 = 0.13824

Άρα, η πιθανότητα να παρατηρήσουμε ακριβώς αυτή τη σειρά είναι 0.13824.

2. Από Probability σε Likelihood

Μέχρι τώρα θεωρούσαμε ότι το p είναι γνωστό και υπολογίζαμε την πιθανότητα των δεδομένων.

Στο Likelihood κάνουμε το αντίθετο:

  • Τα δεδομένα θεωρούνται γνωστά (π.χ. 3 Heads σε 5 ρίψεις)
  • Το p θεωρείται άγνωστο
  • Θέλουμε να δούμε ποια τιμή του p κάνει τα δεδομένα πιο πιθανά

Η συνάρτηση:

L(p) = pH(1-p)n-H

ονομάζεται likelihood function.

Η likelihood function δεν είναι πιθανότητα ως προς το p. Είναι μια συνάρτηση που μας δείχνει πόσο συμβατή είναι κάθε πιθανή τιμή του p με τα δεδομένα που παρατηρήσαμε. Ουσιαστικά μας λέει πόσο καλά ένα set από παραμέτρους εξηγεί τα παρατηρούμενα δεδομένα.

Αντικαθιστούμε τις τιμές:

L(p) = p3(1-p)2

Αυτή η συνάρτηση μας δείχνει πόσο πιθανό είναι να παρατηρήσουμε τα δεδομένα μας για διαφορετικές τιμές του p.

3. Maximum Likelihood Estimation (MLE)

  • Αριθμός ρίψεων: n = 5
  • Αριθμός Heads: H = 3
  • Αριθμός Tails: n - H = 2

Η εκτίμηση Maximum Likelihood δίνεται από:

p̂ = H / n

Αντικαθιστώντας τις τιμές:

p̂ = 3 / 5 = 0.6

Άρα η εκτίμηση της πιθανότητας να εμφανιστεί Head είναι:

p̂ = 0.6

Δηλαδή, με βάση τα δεδομένα μας, το καλύτερο μοντέλο εκτιμά ότι το νόμισμα φέρνει Head περίπου στο 60% των ρίψεων.

Έλεγχος μέσω Likelihood

Η likelihood function είναι:

L(p) = p3(1-p)2

Αν υπολογίσουμε τη likelihood για διαφορετικές τιμές του p:

  • p = 0.4 → L(0.4) = 0.43 × 0.62 = 0.02304
  • p = 0.6 → L(0.6) = 0.63 × 0.42 = 0.03456
  • p = 0.8 → L(0.8) = 0.83 × 0.22 = 0.02048

Παρατηρούμε ότι η μεγαλύτερη τιμή της likelihood εμφανίζεται κοντά στο p = 0.6, που είναι ακριβώς το αποτέλεσμα του MLE.

Βιβλιογραφία

Dutt, S., Chandramouli, S., & Das, A. K. (2018). Machine learning. Pearson.