ओवरफिटिंग
ओवरफिटिंग क्या है?
ओवरफिटिंग आंकड़ों में एक मॉडलिंग त्रुटि है जो तब होती है जब कोई फ़ंक्शन डेटा बिंदुओं के सीमित सेट से बहुत निकटता से जुड़ा होता है। नतीजतन, मॉडल केवल अपने प्रारंभिक डेटा सेट के संदर्भ में उपयोगी है, और किसी अन्य डेटा सेट के लिए नहीं।
मॉडल को ओवरफिट करने से आम तौर पर अध्ययन के तहत डेटा में अज्ञातताएं समझाने के लिए एक अति जटिल मॉडल बनाने का रूप ले लेता है। वास्तव में, अक्सर अध्ययन किए गए डेटा में कुछ हद तक त्रुटि या यादृच्छिक शोर होता है। इस प्रकार, मॉडल को थोड़े से गलत डेटा के बहुत करीब से अनुरूप बनाने का प्रयास मॉडल को पर्याप्त त्रुटियों के साथ संक्रमित कर सकता है और इसकी पूर्वानुमान शक्ति को कम कर सकता है।
चाबी छीन लेना
- ओवरफिटिंग एक त्रुटि है जो किसी विशेष फ़ंक्शन को डेटा बिंदुओं के न्यूनतम सेट के बहुत करीब से संरेखित करने के परिणामस्वरूप डेटा मॉडलिंग में होती है।
- वित्तीय पेशेवरों को सीमित डेटा के आधार पर एक मॉडल को ओवरफिट करने और उन परिणामों के साथ समाप्त होने का खतरा है जो त्रुटिपूर्ण हैं।
- जब एक मॉडल को ओवरफिटिंग से समझौता किया जाता है, तो मॉडल निवेश के लिए एक पूर्वानुमान उपकरण के रूप में अपना मूल्य खो सकता है।
ओवरफिटिंग को समझना
उदाहरण के लिए, एक सामान्य समस्या पैटर्न खोजने के लिए ऐतिहासिक बाजार डेटा के व्यापक डेटाबेस को खोजने के लिए कंप्यूटर एल्गोरिदम का उपयोग कर रही है । पर्याप्त अध्ययन को देखते हुए, अक्सर विस्तृत प्रमेयों को विकसित करना संभव है जो स्टॉक मार्केट में रिटर्न जैसे चीजों की भविष्यवाणी करने के लिए दिखाई देते हैं ।
हालांकि, जब नमूने के बाहर डेटा के लिए आवेदन किया जाता है, तो ऐसे प्रमेय संभवतः एक मॉडल के ओवरफिटिंग के रूप में साबित हो सकते हैं कि वास्तव में क्या मौका होता है। सभी मामलों में, डेटा के खिलाफ एक मॉडल का परीक्षण करना महत्वपूर्ण है जो इसे विकसित करने के लिए उपयोग किए गए नमूने के बाहर है।
ओवरफिटिंग को कैसे रोकें
ओवरफिटिंग को रोकने के तरीकों में क्रॉस-वेलिडेशन शामिल है, जिसमें मॉडल को प्रशिक्षित करने के लिए उपयोग किए जा रहे डेटा को सिलवटों या विभाजन में काट दिया जाता है और मॉडल को प्रत्येक तह के लिए चलाया जाता है।फिर, समग्र त्रुटि अनुमान औसत है। अन्य तरीकों में वेम्बलिंग शामिल है, जिसमें भविष्यवाणियों को कम से कम दो अलग-अलग मॉडल, डेटा वृद्धि से जोड़ा जाता है, जिसमें उपलब्ध डेटा सेट विविध दिखने के लिए बनाया जाता है, और डेटा सरलीकरण, जिसमें मॉडल को सुव्यवस्थित किया जाता है ताकि ओवरफिटिंग से बचा जा सके।
वित्तीय पेशेवरों को हमेशा सीमित डेटा के आधार पर एक मॉडल को ओवरफिट करने के खतरों के बारे में पता होना चाहिए।
ओवरफिटिंग उदाहरण
ओवरफिटिंग भी मशीन सीखने का एक कारक है। यह तब सामने आ सकता है जब एक मशीन को विशिष्ट डेटा के लिए एक तरह से स्कैन करना सिखाया जाता है, लेकिन जब एक ही प्रक्रिया को डेटा के एक नए सेट पर लागू किया जाता है, तो परिणाम गलत होते हैं। उदाहरण के लिए, एक विश्वविद्यालय जो एक कॉलेज ड्रॉपआउट दर देख रहा है, जो कि वह जितना चाहेगा उससे अधिक है वह इस संभावना की भविष्यवाणी करने के लिए एक मॉडल बनाना चाहता है कि एक आवेदक इसे स्नातक करने के लिए पूरे रास्ते बना देगा। ऐसा करने के लिए, विश्वविद्यालय 5,000 आवेदकों और उनके परिणामों के डेटासेट से एक मॉडल को प्रशिक्षित करता है। यह तब मूल डेटासेट पर मॉडल चलाता है – 5,000 आवेदकों का समूह — और मॉडल 98% सटीकता के साथ परिणाम की भविष्यवाणी करता है। लेकिन इसकी सटीकता का परीक्षण करने के लिए, वे मॉडल को दूसरे डेटासेट – 5,000 अधिक आवेदकों पर भी चलाते हैं। हालांकि, इस बार, मॉडल केवल 50% सटीक है, क्योंकि मॉडल एक संकीर्ण डेटा सबसेट के बहुत करीब था, इस मामले में, पहले 5,000 आवेदन।