ML 3

Η D είναι η (άγνωστη) κατανομή πιθανοτήτων που περιγράφει πόσο συχνά εμφανίζεται κάθε είσοδος x στον πραγματικό κόσμο. Την D δεν την γνωρίζει ο learner.

Η Πραγματική Συνάρτηση f (labeling function)

f(0) = 0
f(1) = 0
f(2) = 1
f(3) = 1

Δηλαδή τα x= 0 και 1 έχουν label 0, ενώ τα x= 2 και 3 έχουν label 1. Την labeling function δεν την γνωρίζει ο learner.

Υποθέσεις (Hypothesis Class H)

Τέλεια υπόθεση h*

Ταυτίζεται ακριβώς με τη f → Μηδενικό σφάλμα. Όπως στο πρώτο παράδειγμα με τον canvas στην προηγούμενη ενότητα (ML2), που όλα τα labels ήταν σωστά για το αστικό περιβάλλον.

Όχι τέλεια υπόθεση h_wrong

Δεν ταυτίζεται ακριβώς με τη f → Όχι μηδενικό σφάλμα. Όπως στο δεύτερο παράδειγμα με τον canvas στην προηγούμενη ενότητα (ML2), που δεν ήταν όλα τα labels σωστά για το αστικό περιβάλλον. Είχαμε βάλει επίτηδες στον πίνακα δύο λάθος labels.

h(0) = 0
h(1) = 0
h(2) = 0 ❌ (λάθος)
h(3) = 1

Κάνει λάθος μόνο όταν x = 2.

Πραγματικό Σφάλμα (True Error)

True Error: Πιθανότητα να κάνει λάθος σε νέο τυχαίο δείγμα. Είναι η πιθανότητα ο classifier να κάνει λάθος όταν του δώσουμε ένα νέο, τυχαίο παράδειγμα από την πραγματική κατανομή D.

L(_(D,f))(h*) = 0%
L(_(D,f))(h_wrong) = P(x=2) = 0.3 = 30%

Εμπειρικό Σφάλμα (Empirical Risk - Training Error)

Το Empirical Risk ή Training Error είναι το ποσοστό λαθών που κάνει μια υπόθεση πάνω στο training set S.

Παράδειγμα 1 (Δεν εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση h_wrong

Κάνει λάθος μόνο όταν x = 2, αλλά στο S δεν υπάρχει x = 2.

Παράδειγμα 2 (Εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση h_wrong

Στο x = 2 προβλέπει 0 ενώ η σωστή ετικέτα είναι 1 → 1 λάθος.

Το empirical risk εξαρτάται από το συγκεκριμένο training set S. Γι’ αυτό γράφουμε h_S, για να δείξουμε ότι η υπόθεση που μαθαίνουμε εξαρτάται από τα δεδομένα που παρατηρήσαμε.

ERM (Empirical Risk Minimization): Είναι η στρατηγική μάθησης όπου επιλέγουμε την υπόθεση h που ελαχιστοποιεί το training error Lₛ(h).

Παράμετροι PAC (Probably Approximately Correct)

Στο πλαίσιο του Machine Learning, δεν μας ενδιαφέρει μόνο αν ένας αλγόριθμος βρίσκει μια υπόθεση με μικρό empirical error στο training set, αλλά αν αυτή η υπόθεση γενικεύει σωστά στον πραγματικό κόσμο. Το μοντέλο Probably Approximately Correct (PAC) εισάγει έναν αυστηρό μαθηματικό τρόπο για να ποσοτικοποιήσουμε αυτή τη γενίκευση, χρησιμοποιώντας δύο παραμέτρους: την ακρίβεια (ε) και την εμπιστοσύνη (δ).

ε (classifier accuracy): μέγιστο επιτρεπτό πραγματικό σφάλμα
δ (delta): μέγιστη πιθανότητα αποτυχίας
1 - δ: confidence (εμπιστοσύνη)

Bad Hypotheses (H_B)

Αν L(_(D,f))(h) > ε : failure of the learner
Αν L(_(D,f))(h) ≤ ε : correct predictor

Παράδειγμα:  
ε = 0.1 (θέλουμε ≤10% σφάλμα)  
δ = 0.05 (95% εμπιστοσύνη)

Εφόσον 30% > 10%, η sneaky υπόθεση θεωρείται "κακή".

Για να αναλύσουμε πότε ο ERM μπορεί να αποτύχει, χωρίζουμε τις υποθέσεις σε «καλές» και «κακές». Καλή είναι μια υπόθεση με πραγματικό σφάλμα μικρότερο ή ίσο από ε, ενώ κακή είναι μια υπόθεση με πραγματικό σφάλμα μεγαλύτερο από ε. Αν ο ERM επιλέξει κακή υπόθεση, τότε έχουμε αποτυχία μάθησης.

Με άλλα λόγια, στο μοντέλο PAC δεν απαιτούμε τέλεια πρόβλεψη. Επιτρέπουμε ένα μικρό πραγματικό σφάλμα ε, αρκεί η πιθανότητα να ξεπεραστεί αυτό το σφάλμα να είναι μικρότερη από δ. Ο στόχος είναι να εγγυηθούμε ότι: Η πιθανότητα αποτυχίας του learner είναι το πολύ δ.

Πιθανότητα να Ξεγελαστεί ο ERM

Η βασική ιδέα της απόδειξης είναι η εξής: ακόμη κι αν μια υπόθεση είναι κακή στον πραγματικό κόσμο, υπάρχει μια μικρή πιθανότητα να φαίνεται τέλεια στο training set. Αυτό μπορεί να συμβεί αν το δείγμα δεν περιέχει σημεία όπου η υπόθεση κάνει λάθος. Υπολογίζουμε λοιπόν την πιθανότητα μια κακή υπόθεση να έχει μηδενικό empirical error.

Παράδειγμα 1: m = 5

Υπάρχει έως και 32.7% πιθανότητα το training set να μην περιέχει το x=2 και ο ERM να επιλέξει λάθος υπόθεση.

Παράδειγμα 2: m = 20

Μέχρι τώρα εξετάσαμε μία συγκεκριμένη κακή υπόθεση. Όμως ο ERM επιλέγει από ολόκληρο το hypothesis class H. Για να εγγυηθούμε ότι καμία κακή υπόθεση δεν θα ξεγελάσει τον αλγόριθμο, εφαρμόζουμε το Union Bound. Έτσι προκύπτει το συνολικό άνω φράγμα:

Θέλουμε η πιθανότητα αποτυχίας να είναι μικρότερη από δ:

Machine Learning 3

Domain Set

Κατανομή D:

Η Πραγματική Συνάρτηση f (labeling function)

Υποθέσεις (Hypothesis Class H)

Τέλεια υπόθεση h*

Όχι τέλεια υπόθεση h_wrong

Πραγματικό Σφάλμα (True Error)

Εμπειρικό Σφάλμα (Empirical Risk - Training Error)

Παράδειγμα 1 (Δεν εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση h_wrong

Παράδειγμα 2 (Εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση h_wrong

Παράμετροι PAC (Probably Approximately Correct)

Πιθανότητα να Ξεγελαστεί ο ERM

Παράδειγμα 1: m = 5

Παράδειγμα 2: m = 20

Machine Learning 3

Domain Set

Κατανομή D:

Η Πραγματική Συνάρτηση f (labeling function)

Υποθέσεις (Hypothesis Class H)

Τέλεια υπόθεση h*

Όχι τέλεια υπόθεση hwrong

Πραγματικό Σφάλμα (True Error)

Εμπειρικό Σφάλμα (Empirical Risk - Training Error)

Παράδειγμα 1 (Δεν εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση hwrong

Παράδειγμα 2 (Εμφανίζεται το x = 2)

Για την υπόθεση h*

Για την υπόθεση hwrong

Παράμετροι PAC (Probably Approximately Correct)

Πιθανότητα να Ξεγελαστεί ο ERM

Παράδειγμα 1: m = 5

Παράδειγμα 2: m = 20

Όχι τέλεια υπόθεση h_wrong

Για την υπόθεση h_wrong

Για την υπόθεση h_wrong