साधारण रैखिक प्रतिगमन: एक चरण-दर-चरण गणितीय वॉकथ्रू
साधारण रैखिक प्रतिगमन चरण-दर-चरण सीखें। ढाल, अवरोध, R² और सहसंबंध हाथ से गणना करें वास्तविक उदाहरणों के साथ।
प्रत्येक सांख्यिकीय यात्रा एक एकल रेखा से शुरू होती है। साधारण रैखिक प्रतिगमन वह रेखा है — डेटा विज्ञान में सबसे मौलिक भविष्य कहने वाला मॉडल, और वह आधार जिस पर प्रत्येक उन्नत प्रतिगमन तकनीक बनाई गई है।
यदि आप एकल स्वतंत्र चर से आश्रित चर की भविष्यवाणी करना चाहते हैं, तो हमारा रैखिक प्रतिगमन कैलकुलेटर आपको सेकंडों में उत्तर दे देगा। हालाँकि, यह समझना कि वह उत्तर कैसे प्राप्त किया गया है, एक डेटा अभ्यासी को उस व्यक्ति से अलग करता है जो केवल बटन दबाता है।
यह मार्गदर्शिका आपको प्रथम सिद्धांतों से साधारण रैखिक प्रतिगमन के माध्यम से ले जाती है। हम एक छोटा डेटासेट लेंगे, प्रत्येक मध्यवर्ती मान की गणना हाथ से करेंगे, और एक साथ अंतिम समीकरण तक पहुँचेंगे। एक महान दृश्य परिचय के लिए, खान अकादमी की ट्रेंड लाइन्स की मार्गदर्शिका देखें।
आप क्या सीखेंगे
इस लेख के अंत तक, आप कच्चे डेटा से प्रतिगमन समीकरण y = mx + b की गणना करने, परिणामों की व्याख्या करने और यह सत्यापित करने में सक्षम होंगे कि आपका डेटा आवश्यक मान्यताओं को पूरा करता है।
साधारण रैखिक प्रतिगमन क्या है?
साधारण रैखिक प्रतिगमन डेटा के माध्यम से एक सीधी रेखा फिट करके एक स्वतंत्र चर (x) और एक आश्रित चर (y) के बीच संबंध को मॉडल करता है।
“साधारण” शब्द इसे बहुचर प्रतिगमन से अलग करता है, जो दो या अधिक भविष्यवक्ताओं का उपयोग करता है। फिट की गई रेखा को वर्ग ऊर्ध्वाधर दूरियों के योग को न्यूनतम करने के लिए चुना जाता है — एक विधि जिसे साधारण न्यूनतम वर्ग (OLS) कहा जाता है।
कब उपयोग करें (और कब बचें)
इसका उपयोग तब करें जब:
- आपके पास एक सतत भविष्यवक्ता और एक सतत परिणाम हो।
- आपका स्कैटर प्लॉट एक लगभग रैखिक पैटर्न दिखाता है।
- आप यह मात्रा निर्धारित करना चाहते हैं कि प्रति इकाई x पर y कितना बदलता है।
इससे तब बचें जब:
- स्कैटर प्लॉट एक स्पष्ट वक्र दिखाता है — इसके बजाय हमारे द्विघात प्रतिगमन कैलकुलेटर को आज़माएं।
- आपके पास कई भविष्यवक्ता हैं — बहुचर रैखिक प्रतिगमन का उपयोग करें।
- आपके डेटा में चरम बाह्य बिंदु हैं जो पूरे मॉडल को विकृत कर सकते हैं।
डेटासेट
मान लीजिए कि एक ट्यूशन कंपनी अध्ययन के घंटों (x) और परिणामी परीक्षण अंकों (y) को ट्रैक करती है:
| छात्र | अध्ययन के घंटे (x) | परीक्षण अंक (y) |
|---|---|---|
| 1 | 2 | 65 |
| 2 | 4 | 75 |
| 3 | 6 | 80 |
| 4 | 8 | 90 |
| 5 | 10 | 95 |
चरण 1: माध्यों की गणना करें
पहला चरण दोनों चरों के अंकगणितीय माध्य की गणना करना है।
x का माध्य (x̄): (2 + 4 + 6 + 8 + 10) / 5 = 6.0 y का माध्य (ȳ): (65 + 75 + 80 + 90 + 95) / 5 = 81.0
प्रतिगमन रेखा हमेशा बिंदु (6.0, 81.0) से गुजरेगी।
चरण 2: विचलन और उत्पादों की गणना करें
इसके बाद, हम गणना करते हैं कि प्रत्येक बिंदु माध्य से कितना दूर है और परिणामों को गुणा करते हैं।
| छात्र | x − x̄ | y − ȳ | (x − x̄)(y − ȳ) | (x − x̄)² |
|---|---|---|---|---|
| 1 | −4 | −16 | 64 | 16 |
| 2 | −2 | −6 | 12 | 4 |
| 3 | 0 | −1 | 0 | 0 |
| 4 | 2 | 9 | 18 | 4 |
| 5 | 4 | 14 | 56 | 16 |
| योग | 150 | 40 |
चरण 3: ढाल (b₁) की गणना करें
ढाल आपको बताती है कि x में प्रत्येक एक-इकाई वृद्धि के लिए y कितना बदलता है।
b₁ = Σ(x − x̄)(y − ȳ) / Σ(x − x̄)² b₁ = 150 / 40 = 3.75
व्याख्या: अध्ययन के प्रत्येक अतिरिक्त घंटे के लिए, अनुमानित परीक्षण स्कोर 3.75 अंक बढ़ जाता है।
चरण 4: अवरोध (b₀) की गणना करें
अवरोध अनुमानित y है जब x = 0 हो।
b₀ = ȳ − b₁ × x̄ b₀ = 81.0 − 3.75 × 6.0 = 58.5
व्याख्या: शून्य घंटे अध्ययन करने वाले छात्र का स्कोर 58.5 होने का अनुमान है।
चरण 5: अंतिम समीकरण लिखें
दोनों को मिलाकर: y = 58.5 + 3.75x
यह मॉडल आपको भविष्यवाणियाँ करने देता है। उदाहरण के लिए, 7 घंटे अध्ययन करने पर परिणाम मिलता है: 58.5 + 3.75(7) = 84.75।
बहिर्वेशन का खतरा
अपने डेटा की सीमा के बाहर भविष्यवाणी करना (जैसे, 50 घंटे अध्ययन करना) बहिर्वेशन (extrapolation) कहलाता है। यह अक्सर निरर्थक परिणाम देता है और इससे बचना चाहिए।
चरण 6: फिट को मापें (R² और r)
R² मापता है कि मॉडल द्वारा y में कितनी भिन्नता स्पष्ट की गई है। r (पियर्सन सहसंबंध) रैखिक संबंध की प्रबलता और दिशा को मापता है।
इस डेटासेट के लिए, हमारा पियर्सन सहसंबंध कैलकुलेटर 0.9934 का r देगा, जो एक बहुत मजबूत सकारात्मक संबंध इंगित करता है। Statology पर पियर्सन सहसंबंध गुणांक के बारे में और जानें।
चरण 7: मान्यताओं को सत्यापित करें
अपने परिणामों पर भरोसा करने से पहले, आपको चार OLS मान्यताओं को पूरा करना होगा। हमारा प्रतिगमन अनुमान परीक्षक इसे स्वचालित करने में आपकी सहायता कर सकता है:
- रैखिकता: संबंध एक सीधी-रेखा पैटर्न का अनुसरण करता है।
- स्वतंत्रता: अवलोकन एक-दूसरे पर निर्भर नहीं हैं।
- समप्रसरणता: अवशिष्टों (त्रुटियों) में नियत विचरण होता है।
- सामान्यता: अवशिष्ट लगभग सामान्य रूप से वितरित होते हैं।
साधारण प्रतिगमन से आगे
एक बार जब आप मूल बातें सीख लेते हैं, तो आपको अधिक उन्नत टूल की आवश्यकता हो सकती है:
- बहु भविष्यवक्ता: जटिल परिदृश्यों के लिए बहुचर रैखिक प्रतिगमन का उपयोग करें।
- वक्र पैटर्न: हमारे द्विघात प्रतिगमन कैलकुलेटर का उपयोग करें।
- विकास मॉडल: घातांतीय प्रतिगमन कैलकुलेटर का अन्वेषण करें।
मुख्य निष्कर्ष
- ढाल परिवर्तन की दर का प्रतिनिधित्व करती है।
- अवरोध x=0 पर आधारभूत मान प्रदान करता है।
- R² मॉडल की व्याख्यात्मक शक्ति को परिभाषित करता है।
- बहिर्वेशन जोखिम भरा है — अपने डेटा की सीमा के भीतर रहें।
- सहसंबंध कारण-कार्य नहीं है — सांख्यिकी संघ दिखाती है, जरूरी नहीं कि कारण-और-प्रभाव।
अपना स्वयं का डेटा परीक्षण करने के लिए तैयार हैं? हमारे मुफ्त प्रतिगमन कैलकुलेटर पर जाएं और आज ही शुरू करें!