Αρχή

Machine Learning 4

Machine Learning 4

Generalization, Overfitting και Underfitting

Στόχος μας είναι να δημιουργήσουμε ένα μοντέλο που να μπορεί να προβλέπει σωστά σε νέα δεδομένα και όχι μόνο στα δεδομένα εκπαίδευσης.

Παράδειγμα: Πρόβλεψη Καρδιακής Νόσου

Θέλουμε να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο για καρδιακή νόσο με βάση ιατρικά χαρακτηριστικά. Τα παρακάτω δεδομένα χρησιμοποιούνται για την εκπαίδευση του μοντέλου, είναι το training set.

Το domain set αποτελείται από τα χαρακτηριστικά εισόδου που χρησιμοποιούνται για να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο καρδιακής νόσου. Συγκεκριμένα, περιλαμβάνει την ηλικία, τη χοληστερίνη, την αρτηριακή πίεση και το αν ο ασθενής είναι καπνιστής. Αυτά τα δεδομένα αποτελούν το σύνολο εισόδων πάνω στο οποίο το μοντέλο εκπαιδεύεται για να μάθει και να προβλέψει την πιθανότητα εμφάνισης καρδιακής νόσου.

Ηλικία Χοληστερίνη (mg/dL) Πίεση (mmHg) Καπνιστής Καρδιακή Νόσος
65 240 150 Ναι Ναι
52 230 145 Όχι Ναι
45 180 120 Όχι Όχι
39 190 130 Ναι Όχι
70 260 160 Ναι Ναι
50 200 135 Όχι Όχι

Overfitting

Αν το μοντέλο ταιριάζει υπερβολικά στο training set και παρουσιάζει χαμηλή απόδοση σε νέα δεδομένα (test set), τότε έχουμε overfitting.

Παράδειγμα υπερβολικού κανόνα:
"Αν η ηλικία είναι ακριβώς 65 ή 52 ή 70 ΚΑΙ η πίεση πάνω από 145, τότε υπάρχει καρδιακή νόσος."

Underfitting

Αν το μοντέλο είναι υπερβολικά απλό και αγνοεί βασικούς παράγοντες, τότε έχουμε underfitting.

Παράδειγμα απλού κανόνα:
"Όλοι οι καπνιστές έχουν καρδιακή νόσο."

Generalization (Γενίκευση)

Το σωστό μοντέλο αναγνωρίζει γενικά μοτίβα που ισχύουν και για νέους ασθενείς.

"Ασθενείς άνω των 55 ετών με υψηλή πίεση και υψηλή χοληστερίνη έχουν αυξημένο κίνδυνο."

Sweet Spot (Βέλτιστο Σημείο)

Η βέλτιστη ισορροπία όπου το μοντέλο αποδίδει με τη μέγιστη ακρίβεια, χωρίς ovefitting ή να underfitting στα δεδομένα, ονομάζεται sweet spot.

Βιβλιογραφία

Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O’Reilly Media.