Στόχος μας είναι να δημιουργήσουμε ένα μοντέλο που να μπορεί να προβλέπει σωστά σε νέα δεδομένα και όχι μόνο στα δεδομένα εκπαίδευσης.
Θέλουμε να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο για καρδιακή νόσο με βάση ιατρικά χαρακτηριστικά. Τα παρακάτω δεδομένα χρησιμοποιούνται για την εκπαίδευση του μοντέλου, είναι το training set.
Το domain set αποτελείται από τα χαρακτηριστικά εισόδου που χρησιμοποιούνται για να προβλέψουμε αν ένας ασθενής έχει αυξημένο κίνδυνο καρδιακής νόσου. Συγκεκριμένα, περιλαμβάνει την ηλικία, τη χοληστερίνη, την αρτηριακή πίεση και το αν ο ασθενής είναι καπνιστής. Αυτά τα δεδομένα αποτελούν το σύνολο εισόδων πάνω στο οποίο το μοντέλο εκπαιδεύεται για να μάθει και να προβλέψει την πιθανότητα εμφάνισης καρδιακής νόσου.
| Ηλικία | Χοληστερίνη (mg/dL) | Πίεση (mmHg) | Καπνιστής | Καρδιακή Νόσος |
|---|---|---|---|---|
| 65 | 240 | 150 | Ναι | Ναι |
| 52 | 230 | 145 | Όχι | Ναι |
| 45 | 180 | 120 | Όχι | Όχι |
| 39 | 190 | 130 | Ναι | Όχι |
| 70 | 260 | 160 | Ναι | Ναι |
| 50 | 200 | 135 | Όχι | Όχι |
Αν το μοντέλο ταιριάζει υπερβολικά στο training set και παρουσιάζει χαμηλή απόδοση σε νέα δεδομένα (test set), τότε έχουμε overfitting.
Αν το μοντέλο είναι υπερβολικά απλό και αγνοεί βασικούς παράγοντες, τότε έχουμε underfitting.
Το σωστό μοντέλο αναγνωρίζει γενικά μοτίβα που ισχύουν και για νέους ασθενείς.
Η βέλτιστη ισορροπία όπου το μοντέλο αποδίδει με τη μέγιστη ακρίβεια, χωρίς ovefitting ή να underfitting στα δεδομένα, ονομάζεται sweet spot.
Müller, A. C., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O’Reilly Media.