6 May 2021 0:54
सामान्य वितरण क्या है?
सामान्य वितरण सूत्र दो सरल parameters- पर आधारित है मतलब और मानक विचलन -which किसी दिए गए डाटासेट की विशेषताओं यों। जबकि माध्य पूरे डेटासेट के “केंद्रीय” या औसत मूल्य को इंगित करता है, मानक विचलन उस औसत मूल्य के आसपास डेटा-पॉइंट्स के “प्रसार” या भिन्नता को इंगित करता है।
उदाहरण
निम्नलिखित 2 डेटासेट पर विचार करें:
- डेटासेट 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
- डेटासेट 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}
Dataset1 के लिए, माध्य = 10 और मानक विचलन (stddev) = 0
डेटासेट 2 के लिए, माध्य = 10 और मानक विचलन (stddev) = 2.83
चलिए DataSet1 के लिए इन मूल्यों को प्लॉट करते हैं:
इसी तरह DataSet2 के लिए:
उपरोक्त दोनों ग्राफ़ में लाल क्षैतिज रेखा प्रत्येक डेटासेट के “औसत” या औसत मूल्य (दोनों मामलों में 10) को इंगित करती है। दूसरे ग्राफ में गुलाबी तीर माध्य मान से डेटा मानों के प्रसार या भिन्नता को दर्शाता है। यह DataSet2 के मामले में 2.83 के मानक विचलन मूल्य द्वारा दर्शाया गया है। चूंकि DataSet1 में सभी मान समान हैं (10 प्रत्येक के रूप में) और कोई भिन्नता नहीं है, stddev मान शून्य है, और इसलिए कोई गुलाबी तीर लागू नहीं है।
Stddev मूल्य में कुछ महत्वपूर्ण और उपयोगी विशेषताएं हैं जो डेटा विश्लेषण में अत्यंत सहायक हैं। एक सामान्य वितरण के लिए, डेटा मान सममित रूप से दोनों तरफ से वितरित किए जाते हैं। किसी भी सामान्य रूप से वितरित डेटासेट के लिए, क्षैतिज अक्ष पर stddev के साथ ग्राफ की साजिश रचने और नहीं। ऊर्ध्वाधर अक्ष पर डेटा मूल्यों का, निम्न ग्राफ प्राप्त किया जाता है।
एक सामान्य वितरण के गुण
- सामान्य वक्र माध्य के बारे में सममित है;
- माध्य मध्य में है और क्षेत्र को दो हिस्सों में विभाजित करता है;
- वक्र के नीचे का कुल क्षेत्रफल माध्य = 0 और स्टदेव = 1 के लिए 1 के बराबर है;
- वितरण पूरी तरह से अपने माध्य और stddev द्वारा वर्णित है
जैसा कि उपरोक्त ग्राफ से देखा जा सकता है, stddev निम्नलिखित का प्रतिनिधित्व करता है:
- 68.3% डेटा मान माध्य के 1 मानक विचलन (-1 से +1) के भीतर हैं
- डेटा का 95.4% मान के 2 मानक विचलन (-2 से +2) के भीतर है
- 99.7% डेटा मान मीन के 3 मानक विचलन (-3 से +3) के भीतर हैं
जब मापा जाता है, तो घंटी के आकार का वक्र वाला क्षेत्र, दी गई सीमा की वांछित संभावना को इंगित करता है:
- X से कम: – जैसे डेटा मान की संभावना 70 से कम होना
- X से अधिक – जैसे डेटा मान की संभावना 95 से अधिक हो
- एक्स 1 और एक्स 2 के बीच – जैसे 65 और 85 के बीच डेटा मानों की संभावना
जहां X ब्याज का एक मूल्य है (नीचे उदाहरण)।
क्षेत्र को प्लॉट करना और गणना करना हमेशा सुविधाजनक नहीं होता है, क्योंकि विभिन्न डेटासेट में अलग-अलग माध्य और stddev मान होंगे। वास्तविक दुनिया की समस्याओं के लिए आसान गणना और प्रयोज्यता के लिए एक समान मानक विधि की सुविधा के लिए, Z- मूल्यों के लिए मानक रूपांतरण पेश किया गया, जो सामान्य वितरण तालिका का हिस्सा बनता है ।
Z = (X – माध्य) / stddev, जहां X यादृच्छिक चर है ।
मूल रूप से, यह रूपांतरण औसत और stddev को क्रमशः 0 और 1 के लिए मानकीकृत करने के लिए मजबूर करता है, जो आसान गणनाओं के लिए उपयोग किए जाने वाले Z-मानों ( सामान्य वितरण तालिका से ) के एक मानक परिभाषित सेट को सक्षम करता है । संभावना मानों वाले मानक z- मूल्य तालिका का एक स्नैप-शॉट इस प्रकार है:
0.239865 के z- मान से संबंधित संभावना को खोजने के लिए, पहले इसे 2 दशमलव स्थानों (यानी 0.24) पर गोल करें। फिर पंक्तियों में पहले 2 महत्वपूर्ण अंकों (0.2) और कॉलम में सबसे कम महत्वपूर्ण अंकों (शेष 0.04) के लिए जांचें। जिससे 0.09483 का मूल्य प्राप्त होगा।
पूर्ण सामान्य वितरण तालिका, संभाव्यता मानों के लिए 5 दशमलव बिंदु तक सटीक (नकारात्मक मानों के लिए सहित) के साथ, यहां पाया जा सकता है ।
आइए देखते हैं कुछ वास्तविक जीवन उदाहरण। एक बड़े समूह में व्यक्तियों की ऊंचाई एक सामान्य वितरण पैटर्न का अनुसरण करती है। मान लें कि हमारे पास 100 व्यक्तियों का एक सेट है, जिनकी ऊंचाइयों को दर्ज किया गया है और औसत और stddev की गणना क्रमशः 66 और 6 इंच तक की जाती है।
यहाँ कुछ नमूना प्रश्न दिए गए हैं, जिनका ज़ेड-वैल्यू टेबल का उपयोग करके आसानी से उत्तर दिया जा सकता है:
- क्या संभावना है कि समूह में एक व्यक्ति 70 इंच या उससे कम है?
प्रश्न P के संचयी मान (X <= 70) को खोजने के लिए है अर्थात 100 के संपूर्ण डेटासेट में, 0 और 70 के बीच कितने मान होंगे।
आइए पहले 70 के एक्स-मूल्य को समकक्ष जेड-मूल्य में परिवर्तित करें।
Z = (X – माध्य) / stddev = (70-66) / 6 = 4/6 = 0.66667 = 0.67 (2 दशमलव स्थानों के लिए)
अब हमें P (Z <= 0.67) = 0. 24857 (ऊपर z- टेबल से) खोजने की आवश्यकता है
यानी 24.857% संभावना है कि समूह में एक व्यक्ति 70 इंच से कम या उसके बराबर होगा।
लेकिन लटका – ऊपर अधूरा है। याद रखें, हम he० से he० तक यानी for० से for० तक सभी संभव ऊंचाइयों की संभावना की तलाश कर रहे हैं। उपरोक्त बस आपको वांछित मूल्य (यानी ६६ से.०) तक का हिस्सा देता है। हमें सही उत्तर पर पहुंचने के लिए अन्य आधे को 0 से 66 तक शामिल करना होगा।
चूँकि 0 से 66 आधे भाग का प्रतिनिधित्व करता है (यानी एक चरम से मध्य-मध्य का मतलब), इसकी संभावना केवल 0.5 है।
इसलिए किसी व्यक्ति के 70 इंच या उससे कम होने की सही संभावना = 0.24857 + 0.5 = 0. 74857 = 74.857%
रेखांकन (क्षेत्र की गणना करके), ये दो सममित क्षेत्र हैं जो समाधान का प्रतिनिधित्व करते हैं:
- क्या संभावना है कि एक व्यक्ति 75 इंच या उससे अधिक है?