Machine Learning 4

Generalization, Overfitting και Underfitting

Στόχος μας είναι να δημιουργήσουμε ένα μοντέλο που να μπορεί να προβλέπει σωστά σε νέα δεδομένα και όχι μόνο στα δεδομένα εκπαίδευσης.

Παράδειγμα: Πρόβλεψη Καρδιακής Νόσου

Θέλουμε να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο για καρδιακή νόσο με βάση ιατρικά χαρακτηριστικά. Τα παρακάτω δεδομένα χρησιμοποιούνται για την εκπαίδευση του μοντέλου, είναι το training set.

Το domain set αποτελείται από τα χαρακτηριστικά εισόδου που χρησιμοποιούνται για να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο καρδιακής νόσου. Συγκεκριμένα, περιλαμβάνει την ηλικία, τη χοληστερίνη, την αρτηριακή πίεση και το αν ο ασθενής είναι καπνιστής. Αυτά τα δεδομένα αποτελούν το σύνολο εισόδων πάνω στο οποίο το μοντέλο εκπαιδεύεται για να μάθει και να προβλέψει την πιθανότητα εμφάνισης καρδιακής νόσου.

Ηλικία	Χοληστερίνη (mg/dL)	Πίεση (mmHg)	Καπνιστής	Καρδιακή Νόσος
65	240	150	Ναι	Ναι
52	230	145	Όχι	Ναι
45	180	120	Όχι	Όχι
39	190	130	Ναι	Όχι
70	260	160	Ναι	Ναι
50	200	135	Όχι	Όχι

Overfitting

Αν το μοντέλο ταιριάζει υπερβολικά στο training set και παρουσιάζει χαμηλή απόδοση σε νέα δεδομένα (test set), τότε έχουμε overfitting.

Παράδειγμα υπερβολικού κανόνα:
"Αν η ηλικία είναι ακριβώς 65 ή 52 ή 70 ΚΑΙ η πίεση πάνω από 145, τότε υπάρχει καρδιακή νόσος."

Underfitting

Αν το μοντέλο είναι υπερβολικά απλό και αγνοεί βασικούς παράγοντες, τότε έχουμε underfitting.

Παράδειγμα απλού κανόνα:
"Όλοι οι καπνιστές έχουν καρδιακή νόσο."

Generalization (Γενίκευση)

Το σωστό μοντέλο αναγνωρίζει γενικά μοτίβα που ισχύουν και για νέους ασθενείς.

"Ασθενείς άνω των 55 ετών με υψηλή πίεση και υψηλή χοληστερίνη έχουν αυξημένο κίνδυνο."

Sweet Spot (Βέλτιστο Σημείο)

Η βέλτιστη ισορροπία όπου το μοντέλο αποδίδει με τη μέγιστη ακρίβεια, χωρίς ovefitting ή να underfitting στα δεδομένα, ονομάζεται sweet spot.

Βιβλιογραφία

Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O’Reilly Media.