सांख्यिकी

साधारण रैखिक प्रतिगमन: एक चरण-दर-चरण गणितीय वॉकथ्रू

साधारण रैखिक प्रतिगमन चरण-दर-चरण सीखें। ढाल, अवरोध, R² और सहसंबंध हाथ से गणना करें वास्तविक उदाहरणों के साथ।

प्रतिगमन समीकरण कैलकुलेटर ·
साधारण रैखिक प्रतिगमन: एक चरण-दर-चरण गणितीय वॉकथ्रू

प्रत्येक सांख्यिकीय यात्रा एक एकल रेखा से शुरू होती है। साधारण रैखिक प्रतिगमन वह रेखा है — डेटा विज्ञान में सबसे मौलिक भविष्य कहने वाला मॉडल, और वह आधार जिस पर प्रत्येक उन्नत प्रतिगमन तकनीक बनाई गई है।

यदि आप एकल स्वतंत्र चर से आश्रित चर की भविष्यवाणी करना चाहते हैं, तो हमारा रैखिक प्रतिगमन कैलकुलेटर आपको सेकंडों में उत्तर दे देगा। हालाँकि, यह समझना कि वह उत्तर कैसे प्राप्त किया गया है, एक डेटा अभ्यासी को उस व्यक्ति से अलग करता है जो केवल बटन दबाता है।

यह मार्गदर्शिका आपको प्रथम सिद्धांतों से साधारण रैखिक प्रतिगमन के माध्यम से ले जाती है। हम एक छोटा डेटासेट लेंगे, प्रत्येक मध्यवर्ती मान की गणना हाथ से करेंगे, और एक साथ अंतिम समीकरण तक पहुँचेंगे। एक महान दृश्य परिचय के लिए, खान अकादमी की ट्रेंड लाइन्स की मार्गदर्शिका देखें।

आप क्या सीखेंगे

इस लेख के अंत तक, आप कच्चे डेटा से प्रतिगमन समीकरण y = mx + b की गणना करने, परिणामों की व्याख्या करने और यह सत्यापित करने में सक्षम होंगे कि आपका डेटा आवश्यक मान्यताओं को पूरा करता है।


साधारण रैखिक प्रतिगमन क्या है?

साधारण रैखिक प्रतिगमन डेटा के माध्यम से एक सीधी रेखा फिट करके एक स्वतंत्र चर (x) और एक आश्रित चर (y) के बीच संबंध को मॉडल करता है।

“साधारण” शब्द इसे बहुचर प्रतिगमन से अलग करता है, जो दो या अधिक भविष्यवक्ताओं का उपयोग करता है। फिट की गई रेखा को वर्ग ऊर्ध्वाधर दूरियों के योग को न्यूनतम करने के लिए चुना जाता है — एक विधि जिसे साधारण न्यूनतम वर्ग (OLS) कहा जाता है।

कब उपयोग करें (और कब बचें)

इसका उपयोग तब करें जब:

  • आपके पास एक सतत भविष्यवक्ता और एक सतत परिणाम हो।
  • आपका स्कैटर प्लॉट एक लगभग रैखिक पैटर्न दिखाता है।
  • आप यह मात्रा निर्धारित करना चाहते हैं कि प्रति इकाई x पर y कितना बदलता है।

इससे तब बचें जब:


डेटासेट

मान लीजिए कि एक ट्यूशन कंपनी अध्ययन के घंटों (x) और परिणामी परीक्षण अंकों (y) को ट्रैक करती है:

छात्रअध्ययन के घंटे (x)परीक्षण अंक (y)
1265
2475
3680
4890
51095

चरण 1: माध्यों की गणना करें

पहला चरण दोनों चरों के अंकगणितीय माध्य की गणना करना है।

x का माध्य (x̄): (2 + 4 + 6 + 8 + 10) / 5 = 6.0 y का माध्य (ȳ): (65 + 75 + 80 + 90 + 95) / 5 = 81.0

प्रतिगमन रेखा हमेशा बिंदु (6.0, 81.0) से गुजरेगी।


चरण 2: विचलन और उत्पादों की गणना करें

इसके बाद, हम गणना करते हैं कि प्रत्येक बिंदु माध्य से कितना दूर है और परिणामों को गुणा करते हैं।

छात्रx − x̄y − ȳ(x − x̄)(y − ȳ)(x − x̄)²
1−4−166416
2−2−6124
30−100
429184
54145616
योग15040

चरण 3: ढाल (b₁) की गणना करें

ढाल आपको बताती है कि x में प्रत्येक एक-इकाई वृद्धि के लिए y कितना बदलता है।

b₁ = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)² b₁ = 150 / 40 = 3.75

व्याख्या: अध्ययन के प्रत्येक अतिरिक्त घंटे के लिए, अनुमानित परीक्षण स्कोर 3.75 अंक बढ़ जाता है।


चरण 4: अवरोध (b₀) की गणना करें

अवरोध अनुमानित y है जब x = 0 हो।

b₀ = ȳ − b₁ × x̄ b₀ = 81.0 − 3.75 × 6.0 = 58.5

व्याख्या: शून्य घंटे अध्ययन करने वाले छात्र का स्कोर 58.5 होने का अनुमान है।


चरण 5: अंतिम समीकरण लिखें

दोनों को मिलाकर: y = 58.5 + 3.75x

यह मॉडल आपको भविष्यवाणियाँ करने देता है। उदाहरण के लिए, 7 घंटे अध्ययन करने पर परिणाम मिलता है: 58.5 + 3.75(7) = 84.75

बहिर्वेशन का खतरा

अपने डेटा की सीमा के बाहर भविष्यवाणी करना (जैसे, 50 घंटे अध्ययन करना) बहिर्वेशन (extrapolation) कहलाता है। यह अक्सर निरर्थक परिणाम देता है और इससे बचना चाहिए।


चरण 6: फिट को मापें (R² और r)

मापता है कि मॉडल द्वारा y में कितनी भिन्नता स्पष्ट की गई है। r (पियर्सन सहसंबंध) रैखिक संबंध की प्रबलता और दिशा को मापता है।

इस डेटासेट के लिए, हमारा पियर्सन सहसंबंध कैलकुलेटर 0.9934 का r देगा, जो एक बहुत मजबूत सकारात्मक संबंध इंगित करता है। Statology पर पियर्सन सहसंबंध गुणांक के बारे में और जानें।


चरण 7: मान्यताओं को सत्यापित करें

अपने परिणामों पर भरोसा करने से पहले, आपको चार OLS मान्यताओं को पूरा करना होगा। हमारा प्रतिगमन अनुमान परीक्षक इसे स्वचालित करने में आपकी सहायता कर सकता है:

  1. रैखिकता: संबंध एक सीधी-रेखा पैटर्न का अनुसरण करता है।
  2. स्वतंत्रता: अवलोकन एक-दूसरे पर निर्भर नहीं हैं।
  3. समप्रसरणता: अवशिष्टों (त्रुटियों) में नियत विचरण होता है।
  4. सामान्यता: अवशिष्ट लगभग सामान्य रूप से वितरित होते हैं।

साधारण प्रतिगमन से आगे

एक बार जब आप मूल बातें सीख लेते हैं, तो आपको अधिक उन्नत टूल की आवश्यकता हो सकती है:


मुख्य निष्कर्ष

  1. ढाल परिवर्तन की दर का प्रतिनिधित्व करती है।
  2. अवरोध x=0 पर आधारभूत मान प्रदान करता है।
  3. मॉडल की व्याख्यात्मक शक्ति को परिभाषित करता है।
  4. बहिर्वेशन जोखिम भरा है — अपने डेटा की सीमा के भीतर रहें।
  5. सहसंबंध कारण-कार्य नहीं है — सांख्यिकी संघ दिखाती है, जरूरी नहीं कि कारण-और-प्रभाव।

अपना स्वयं का डेटा परीक्षण करने के लिए तैयार हैं? हमारे मुफ्त प्रतिगमन कैलकुलेटर पर जाएं और आज ही शुरू करें!