मानक विचलन को समझना - संपूर्ण गाइड

मानक विचलन क्या है, इसकी चरण-दर-चरण गणना कैसे करें, और यह क्यों महत्वपूर्ण है, यह सीखें। जनसंख्या बनाम नमूना मानक विचलन शामिल है।

मानक विचलन क्या है?

मानक विचलन इस बात का माप है कि संख्याओं का एक समूह अपने माध्य (औसत) से कितना फैला हुआ है। कम मानक विचलन का अर्थ है कि मान माध्य के आसपास कसकर गुच्छित हैं, जबकि उच्च मानक विचलन का अर्थ है कि वे एक व्यापक सीमा में फैले हुए हैं। यह सांख्यिकी में सबसे महत्वपूर्ण अवधारणाओं में से एक है क्योंकि यह परिवर्तनशीलता को एक संख्या में मात्रात्मक रूप से व्यक्त करता है। उदाहरण के लिए, {70, 72, 68, 71, 69} के परीक्षा अंकों का मानक विचलन कम है क्योंकि वे सभी 70 के करीब हैं, जबकि {40, 95, 60, 85, 20} का मानक विचलन अधिक है क्योंकि वे बहुत भिन्न हैं।

जनसंख्या बनाम नमूना मानक विचलन

मानक विचलन के दो संस्करण हैं, यह इस पर निर्भर करता है कि आपका डेटा संपूर्ण जनसंख्या का प्रतिनिधित्व करता है या बड़ी जनसंख्या से लिया गया केवल एक नमूना है। जनसंख्या मानक विचलन (ग्रीक अक्षर सिग्मा से दर्शाया जाता है) N (कुल डेटा बिंदुओं की संख्या) से भाग देता है। नमूना मानक विचलन (s से दर्शाया जाता है) इसके बजाय N - 1 से भाग देता है, एक सुधार जिसे बेसेल का सुधार कहा जाता है जो इस तथ्य की भरपाई करता है कि एक नमूना सही परिवर्तनशीलता को कम आँकता है। व्यवहार में, आप लगभग हमेशा नमूना संस्करण का उपयोग करते हैं क्योंकि शायद ही कभी आपके पास पूरी जनसंख्या का डेटा होता है।

चरण-दर-चरण गणना

हाथ से मानक विचलन की गणना करने के लिए, इन चरणों का पालन करें। पहले, सभी मानों को जोड़कर और गणना से भाग देकर अपने डेटा का माध्य निकालें। दूसरा, प्रत्येक डेटा बिंदु से माध्य घटाकर विचलन प्राप्त करें। तीसरा, ऋणात्मक चिह्नों को समाप्त करने के लिए प्रत्येक विचलन का वर्ग करें। चौथा, इन वर्गित विचलनों का औसत निकालें (जनसंख्या के लिए N से भाग दें, या नमूने के लिए N - 1 से)। वर्गित विचलनों के इस औसत को प्रसरण कहा जाता है। पाँचवाँ, मानक विचलन प्राप्त करने के लिए प्रसरण का वर्गमूल लें। उदाहरण के लिए, डेटा {4, 8, 6, 5, 3} के लिए, माध्य 5.2 है, वर्गित विचलन {1.44, 7.84, 0.64, 0.04, 4.84} हैं, प्रसरण 14.8/4 = 3.7 (नमूना) है, और मानक विचलन 3.7 का वर्गमूल है, जो लगभग 1.92 है।

प्रसरण और मानक विचलन से इसका संबंध

प्रसरण मानक विचलन का वर्ग है। जबकि प्रसरण गणितीय रूप से सुविधाजनक है क्योंकि यह प्रमाणों और सूत्रों में वर्गमूल की जटिलताओं से बचता है, इसे वर्गित इकाइयों में व्यक्त किया जाता है, जिसकी व्याख्या करना कठिन हो सकता है। यदि आपका डेटा डॉलर में मापा जाता है, तो प्रसरण "वर्ग डॉलर" में होता है, जिसका कोई सहज अर्थ नहीं है। मानक विचलन माप को मूल इकाइयों में वापस लाता है, जिससे यह सीधे व्याख्या योग्य हो जाता है। आप मानक विचलन को "किसी डेटा बिंदु का माध्य से विशिष्ट दूरी" के रूप में सोच सकते हैं।

अनुभवजन्य नियम (68-95-99.7)

जो डेटा सामान्य (घंटी-आकार) वितरण का पालन करता है, उसके लिए अनुभवजन्य नियम मानक विचलन की व्याख्या करने का एक शक्तिशाली तरीका प्रदान करता है। लगभग 68% डेटा माध्य के एक मानक विचलन के भीतर आता है, लगभग 95% दो मानक विचलन के भीतर आता है, और लगभग 99.7% तीन मानक विचलन के भीतर आता है। इसका अर्थ है कि यदि माध्य परीक्षा अंक 75 है और मानक विचलन 10 है, तो लगभग 68% छात्रों ने 65 और 85 के बीच अंक प्राप्त किए, लगभग 95% ने 55 और 95 के बीच, और लगभग सभी ने 45 और 105 के बीच अंक प्राप्त किए।

वास्तविक दुनिया के अनुप्रयोग

मानक विचलन लगभग हर उस क्षेत्र में प्रकट होता है जो डेटा से निपटता है। वित्त में, यह निवेश जोखिम को मापता है: दैनिक रिटर्न में 2% मानक विचलन वाला शेयर 5% वाले शेयर से कम अस्थिर है। विनिर्माण में, यह गुणवत्ता नियंत्रण का केंद्र है, जहाँ सिक्स सिग्मा पद्धति दोषों को लक्ष्य के छह मानक विचलन के भीतर रखने का लक्ष्य रखती है। शिक्षा में, मानकीकृत परीक्षा अंक अक्सर माध्य से मानक विचलन के संदर्भ में रिपोर्ट किए जाते हैं। विज्ञान में, माप अनिश्चितता आमतौर पर मानक विचलन के रूप में व्यक्त की जाती है।

मानक विचलन बनाम प्रसार के अन्य माप

मानक विचलन प्रसार मापने का एकमात्र तरीका नहीं है। रेंज (अधिकतम माइनस न्यूनतम) सबसे सरल माप है लेकिन बाहरी मानों (आउटलायर) के प्रति अत्यधिक संवेदनशील है। अंतर-चतुर्थक रेंज (IQR), 75वीं और 25वीं शतमक के बीच का अंतर, चरम मानों के प्रति अधिक मजबूत है। माध्य निरपेक्ष विचलन (MAD) विचलनों के वर्ग करने के बजाय उनके निरपेक्ष मानों का औसत लेता है, जो इसे मानक विचलन की तुलना में आउटलायर के प्रति कम संवेदनशील बनाता है। इन विकल्पों के बावजूद, मानक विचलन सबसे व्यापक रूप से उपयोग किया जाने वाला माप बना हुआ है।

सामान्य गलतियाँ

एक आम गलती जनसंख्या मानक विचलन का उपयोग करना है जब आपको नमूना मानक विचलन का उपयोग करना चाहिए, जो सही प्रसार को कम आँकता है। एक और त्रुटि वितरण के आकार पर विचार किए बिना मानक विचलन की व्याख्या करना है: अनुभवजन्य नियम केवल लगभग सामान्य वितरणों पर लागू होता है। विषम या बहु-शीर्ष डेटा के लिए अलग व्याख्यात्मक ढाँचे की आवश्यकता होती है। बहुत अलग माध्य वाले डेटासेट में मानक विचलन की तुलना करते समय सावधान रहें; ऐसे मामलों में, विचरण गुणांक (मानक विचलन को माध्य से भाग देना) अधिक सार्थक तुलना देता है।