پیش بینی

زمانی که بین دو متغیر همبستگی وجود داشته باشد، می تان
نمره فردی را در یک متغیر از طریق متغیر دیگر برآرود یا پیش بینی کرد. چنانچه
همبستگی بین متغیرها کمتر از کامل (1+ یا 1-) باشد، پیش بینی ما برآورد خوبی است
ولی پیش بینی کاملی نیست. هرچه همبستگی بین متغیرها بالاتر باشد به همان اندازه
پیش بینی دقیق تر است.

پیش بینی نمره های استاندارد

مقدماتی ترین روشی که در استفاده از ضریب همبستگی پیرسون
برای پیش بینی به کار برده می شود روش پیش بینی کردن نمره های استاندارد است.
متغیری که قصد پیش بینی آن را دارین به صورت حاصل ضرب نمره استاندارد متغیر پیش
بینی کننده در ضریب همبستگی دو متغیر است.

رابطه بین متغیر پیش بینی شونده و متغیر پیش بینی کننده
تابع علامت و شدت ضریب همبستگی است.

رگرسیون به طرف میانگین

چنانچه همبستگی بین متغیرها در پیش بینی کامل نباشد،
رگرسیون پدیده جالبی است. به این معنی که در چنین شرایطی نمره های پیش بینی شده به
میانگین نمونه نزدیک تر است تا به نمره پیش بینی کننده. بنا بر این تا زمانی که دو
متغیر به صورت کامل همبسته نباشند، مقادیر یکی از متغیرها  به میانگین مقادیر دومین متغیر نزدیک باشد. به
این اثر، تاثیر رگرسیون می گویند و چون رگرسیون به طرف میانگین دومین متغیر است آن
را رگرسیون در اطراف میانگین می گویند.

رگرسیون بخش عمده و ذاتی پیش بینی است.

میزان همبستگی بین دو متغیر، حدود یا مقدار اتفاق رگرسیون
را تعیین می کند. چنانچه همبستگی کامل باشد، پدیده رگرسیون وجود ندارد یا اتفاق
نمی افتد.

چنانچه همبستگی بین متغیر ها بالا باشد ( نه کامل) گرایش
خیلی کمی وجود دارد که میانگین نمره های گروه انتخاب شده در اولین متغیر به طرف
میانگین نمره های دومین متغیر کشیده شود. اما اگر همبستگی پایین باشد گرایش خیلی
زیادی وجود دارد که میانگین نمره ها در اولین متغیر به طرف میانگین نمره های دومین
متغیر کشیده شود.

چنانچه همبستگی بین متغیر ها صفر باشد، رگرسیون در اطراف
میانگین به صورت کامل اتفاق می افتد. هنگامی که ضریب همبستگی صفر باشد، و گروه به
دلیل عملکرد مشابه در اولین متغیر انتخاب شده باشند نمره های اعضای گروه در متغیر
دوم دارای میانگینی مساوی با گروهی خواهد بود که دارای عملکرد مختلف یا اندازه های
مختلف هستند. به عنوان مثال، چنانچه توزیع های قد و سرعت ماشین نویسی گروهی از
افراد را داشته باشیم و افرادی را انتخاب کنیم که قد آنها خیل بلند است، متوجه
خواهیم شد که میانگین سرعت ماشین نویسی این گروه، معادل میانگین سرعت ماشین نویسی
گروهی است که قد افراد آن مختلف است.

به همین دلیل وقتی همبستگی متغیرها صفر باشد، قدرت پیش بینی
وجود ندارد.

خط رگرسیون

هنگامی که نمره های استاندارد پیش بینی شده را در دستگاه
محور مختصات ترسیم می کنیم، روی یک خط مستقیم قرار می گیرند. زیرا برای محاسبه
نمره های پیش بینی شده، هر یک از نمره ها را در مقدار ثابت مربوط به ضریب همبستگی
پیرسون ضرب می کنیم. این خط که با نمره های پیش بینی شده مرتبط است خط رگرسیون
نامیده می شود.

دگرسیون یا رگرسیون

‏ این
بررسی شامل پیش بینی مقادیر یکی از متغیرها
از روی مقادیر متغیر دیگر است که به مساله برگشت یا دگرسیون معروف می باشد.

‏به عنوان
مثال فرض کنید بخواهیم تاثیر میزان مصرف شیر را در افزایش قد بدست بیاوریم و یا
بخواهیم میزان وزن فرزند را از روی وزن پدرش پیش بینی کنیم. ملاحظه می کنید که در
این گونه مسایل دو متغیر تصادفی مورد مطالعه به نوعی به یکدیگر وابسته می باشند.
به عبارت دقیقتر یک متغیر تصادفی مثل
X  را
مستقل و متغیر تصادفی
Y را وابسته به آن در نظر می گیریم و یا برعکس
Y
را مستقل و
X
را وابسته به آن در نظر می گیریم. آشکار است که انتخاب هر یک از دو حالت به ن
وع
مساله بستگی دارد.

‏در مسایل
دگرسیون برای یافتن رابطه بین متغیر تصادفی مستقل
X و
متغیر وابسته
Y
ابتدا یک نمونه
n
‏تایی از متغیر تصادفی X
جمع آوری می کنیم که نتایج آن بصورت
x1,x2,x3,…,xn می باشند. سپس مقادیر متناظر با هر یک از نمونه
های بدست آمده (
xiها) را که
همان مقادیر معادل متغیر تصادفی وابسته
Y می باشند بدست می آوریم. به این ترتیب برای
.
xiها مقادیر
متناظر
y1,y2,y3,…,yn
بدست می آ یند. که می توانیم نتیجه را بصورت زوج های مرتب نشان دهیم.

در این نمودار ملاحظه می کنید که زوج های مرتب
بصورت کاملآ پراکنده توزیع شده اند و به این ترتیب نتیجه می گیریم که رابطه ای بین
متغیرهای تصادفی
X و Y وجود ندارد.

 

 

 

ملاحظه می گنید گه در این نمونه یک رابطه خطی بین مقادیر X و Y وجود
دارد

 

 

 

ممکن است منحنی به دست آمده به مشابه نمودار زیر نیز باشد

 

با توجه به دو نمودار آخر ‏این طور به نظر می رسد که در حالت
کلی دو متغیر تصادفی
X و Y اگر از یکدیگر مستقل نباشند یا بصورت خطی
و یا بصورت غیر خطی به یکدیگر وابسته می باشند

اگر بین دو متغیر X
و
Y یک رابطه خطی وجود داشته باشد
می توانیم یک خط را طوری رسم کنیم که نقاط (
iy
ix) کمترین
فاصله را با خط مورد نظر داشته باشند. به این عمل بردازش منحنی می گویند. معادله خط
را بصورت
b + aX = Y در
نظر می گیریم که در آن
x و y
مقادیر مجهول می باشند و در این حالت
X
متغیر مستقل و
Y
متغیر وابسته به آن در نظر گرفته می شود. مقادیر
۵ ‏و ط می بایستی طوری محاسبه شوند
که مجموع

‏فاصله نقاط ( iy
ix )
از خط
b + aX = Y حداقل
شود. در این حالت به ط
۵ ‏X
۵ ‏تت _ معادله دگرسیون _ می گویند.
برای حداقل نمودن فاصله نقاط (
iy ix ) از خط دگرسیون مقدار خطای i ٩ ‏را مطابق نمودار زیر بدست می آوریم

 

برای اندازه گیری میزان وابستگی دو متغیر X و
Y می
توان از ضریب همبستگی استفاده نمود. اما در مسایل دگرسیون پیش بینی متغیر
Y از
روی
X و
یا بالعکس از اهمیت ویژه ای برخوردار است. بنابراین نیازمند روشی هستیم که بتوان در
صورت نیاز با ثابت در نظر گرفتن یکی از مقادیر
X یا
Y مقدار
دیگری را بدست بیاوریم. برای این منظور مفهوم برازش منحنی را مطرح می کنیم

 

 

ضریب همبستگی د‏و متغیر _ و _ را بصورت زیر تعریف می شود

‏می توان با ساده نمودن معادله دگرسیون مقدار ضریب همبستگی را
وارد معادله نمود:

 

توجه کنید که در اینجا در محاسبه ، و از مقادیر نمونه های مشاهده شده استفاده
می شود. به این ترتیب معادله ی دگرسیون بصورت زیر بدست می آید:

توجه کنید که همواره برای داده های مشاهده شده (yi،xi)  دو معادله دگرسیون وجود دارد یک معادله بر y نسبت
به
x می
باشد و معادله
‏‏دیگر برحسب x نسبت
به
y می
باشد معادله ی دگرسیون
x روی y را می توان بصورت زیر
بدست آورد:

 

با نوشتن معادله دگرسیون x روی
y و
استفاده از ضریب همبستگی بدست می آوریم:

بنا بر این در حالت کلی دو خط دگرسیون y روی x وx   روی   y خواهیم داشت که
عبارتند از:

با قرار دادن   x=y  در معادلات فوق، محل تلاقی دو خط دگرسیون
نقطه بدست می آید.همچنین توجه کنید که:

بنا بر اینو می بایست مقداری در بازهداشته باشد.

 

منبع:

جزوه آمار و احتمال مهندسی، مرکز آموزش الکترونیکی دانشگاه
علم وصنعت ایران

برای انجام این آزمون، می توانید به قسمت آموزش SPSS همین وب سایت، مراجعه فرمایید.