Αρχή

Machine Learning 2

canvas
Ο γνωστός canvas που δημιούργησα στα γρήγορα με την βοήθεια της τεχνητής νοημοσύνης. Κάτω δεξιά βρίσκεται η πόλη που μας ενδιαφέρει.

Training Sample

Training Sample: είναι ένα παράδειγμα δεδομένων που δίνουμε στο μοντέλο για να μάθει, μαζί με τη σωστή του απάντηση (label).

canvas
Το training sample μας (κόκκινα σημεία).
# x y R G B label
091134139340
14193834139340
25423491691691691
3914634139340
42674234139340
55085813969190
6151734139340
738238434139340
850115834139340
951712113969190
105332634139340
119830301912550
129418234139340
1343827034139340
14237534139340
1547922634139340
161559313969190
175008213969190
1823119534139340
1919337301912550

Empirical Risk

Remp(f) = (1/N) Σi=1N L(yi, f(xi))

Empirical Risk: μετράει το μέσο σφάλμα ενός μοντέλου πάνω στα δεδομένα εκπαίδευσης. Ουσιαστικά, υπολογίζει πόσο συχνά οι προβλέψεις του μοντέλου αποκλίνουν από τις πραγματικές ετικέτες. Αν όλες οι προβλέψεις είναι σωστές, ο εμπειρικός κίνδυνος είναι 0.

Στην περίπτωσή μας, όλες οι προβλέψεις του μοντέλου είναι σωστές. Ο εμπειρικός κίνδυνος υπολογίζεται με τον τύπο:

Remp(f) = (1/N) Σi=1N L(yi, f(xi)) = (1/20) Σi=120 0 = 0

Εδώ:
- N = 20 είναι ο αριθμός των παραδειγμάτων εκπαίδευσης.
- yi είναι οι πραγματικές ετικέτες.
- f(xi) είναι οι προβλέψεις του μοντέλου.
- L(yi, f(xi)) είναι η συνάρτηση απώλειας (0 αν η πρόβλεψη είναι σωστή, 1 αν είναι λάθος).
Επειδή όλες οι προβλέψεις είναι σωστές, κάθε L(yi, f(xi)) = 0.

Επομένως, ο εμπειρικός κίνδυνος για το μοντέλο μας είναι 0.

Σημείωση: Ένας εμπειρικός κίνδυνος 0 σημαίνει ότι το μοντέλο ταιριάζει τέλεια με τα δεδομένα εκπαίδευσης, αλλά δεν εγγυάται ότι θα λειτουργεί τέλεια σε νέα δεδομένα.

Αλλάζουμε επίτηδες το label σε δύο samples, στο νο9 και στο νο15 για να δουμε πως επηρρεάζεται το empirical risk.

# x y R G B label
091134139340
14193834139340
25423491691691691
3914634139340
42674234139340
55085813969190
6151734139340
738238434139340
850115834139340
951712113969191
105332634139340
119830301912550
129418234139340
1343827034139340
14237534139340
1547922634139341
161559313969190
175008213969190
1823119534139340
1919337301912550

Τώρα το empirical risk γίνεται:

Remp(f) = (1 + 1 + 0 + 0 + 0 + 0 + 0 + 0 + 0 + 0) / 10 = 2 / 10 = 0.2 (20%)

Άρα το μοντέλο κάνει λάθος στο 20% των pixels.

Με βάση τον λάθος πίνακα δημιουργήσαμε έναν απλό classifier (προς το παρόν είναι black box, δεν μας νοιάζει), ο οποίος μάντεψε σωστά όλα τα αστικά block εκτός από δύο. Με πράσινο είναι αυτά που έγιναν classification ορθά και με κόκκινο τα λάθος.

canvas

Βιβλιογραφία

Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge University Press