1-1 مقدمه
بسیاری از پیشامدها و پدید ه ها تابع برخی از پیشامدهای دیگر و کمیت و کیفیت آن ها می باشد. مثلاً وجود بهداشت باعث کاهش مرگ و میر می شود. مقدار نوشیدنی روزانه تحت تاثیر دما می باشد. رشد گیاه در ارتباط مستقیم با شدت نور، طول روز و حاصلخیزی خاک است. بنابراین یکی از اهداف مهم در تحقیقات علمی، کشف وجود یا عدم وجود رابطه ی بین پدیده ها و خصوصیات مختلف است.
به منظور سهولت در بحث، البته وجود رابطه بین دو متغیر مورد بررسی قرار می گیرد و سپس مفاهیم و اصول آن به حالت چند متغیره بسط داده می شود.
1-2 رگرسیون و مدلسازی خطی
تجزیه رگرسیون یک روش آماری برای بررسی و مدلسازی رابطه بین متغیراست. این روش تقریباً در کلیه ی رشته های علوم از جمله: مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، کشاورزی و علوم اجتماعی مورد استفاده واقع می شود. در حقیقت تجزیه و رگرسیون یکی از کاربردی ترین روش های آماری است.
معادله ی مدل رگرسیون خطی ساده نامیده می شود. متغیر مستقل و متغیر وابسته است. مدل رگرسیون خطی که تنها دارای یک متغیر مستقل است ساده نامیده می شود. عکس العمل یا واکنش را می توان به متغیر مستقل ربط داد به طوری که:
معادله ی فوق مدل رگرسیون خطی چند متغیره نام دارد چون شامل بیش از یک متغیر مستقل می باشد. عبارت "خطی" نشان می دهد که پارامترهای، و … و در مدل خطی هستند، نه این که یک تابع خطی ازها می باشد. مدل های زیادی وجود دارد که را به صورت غیرخطی بهها ارتباط می دهند و می توان آن ها را تا زمانی که معادله از نظرها خطی باشد، به صورت مدل های رگرسیون خطی بیان نمود.
1-3 اهداف تجزیه ی رگرسیون:
1- برآورد پارامترهای مجهول مدل
2- کنترل کیفیت و اعتبار مدل
یکی از هدف های مهم در تجزیه ی رگرسیون برآورد پارامترهای مجهول می باشد. زیرا، برای مثال در مورد دو متغیر بین نقاط پراکنش داده ها می توان خطوط زیادی را ترسیم نمود ولی تنها یکی از این خطوط به بهترین وجه ارتباط بین دو متغیر را توجیه می نماید و آن خطی است که پارامتر آن بر مبنای روش کمترین مربعات حاصل می شود. این روش ها برازش مدل بر داده ها نام دارد. مرحله ی بعدی در تجزیه ی رگرسیون، کنترل کفایت و اعتبار مدل می باشد که از طریق آزمون نکویی برازش تعیین می شود. نتیجه ی این مرحله نشان می دهد که مدل رضایت بخش است یا این که باید تغییراتی در آن داده شود. تقریباً در تمامی موارد کاربرد و تجزیه رگرسیون صرفاً تقریبی از رابطه ی حقیقی میان متغیرهاست. به طور کلی معادلات رگرسیون فقط در دامنه ی تغییرات مستقل اعتبار دارند.
1-4 فرضیات بنیادی رگرسیون:
1) میانگین خطاها صفر است.
2) واریانس خطا ثابت است.
3) خطاها ناهمبسته اند.
باید توجه کنیم که اگر در یک مدل باید کل فرضیات برقرار باشند در غیر این صورت مدل رگرسیون مناسب نیست و باید از مدل دیگری استفاده کنیم.
1-5 موارد استفاده از رگرسیون:
مدل های رگرسیونی برای چند منظور مورد استفاده قرار می گیرد که مهمترین آن ها عبارتند از:
1. توصیف داده ها
2. برآورد پارامترها
3. پیش بینی و برآورد
4. کنترل داده ها
1-6 اصل کلمه "رگرسیون"
فرانسیس گالتن مفهوم رگرسیون را در یک مقاله روی "قانون های شاخص وراثت" در انگلستان در سال 1877 ارائه کرد. او در مطالعه وراثت در نخود نوعی وابستگی جالب بین قطر نخود شیرین منشا (پدر) و قطر نخود تولیدی (فرزند) کشف کرد. جدول زیر بخشی از این داده ها را نمایش می دهند. برای هریک از هفت قطر، نخودهای شیرینی که تقریباً دارای همان قطر بودند فراهم نموده و آن ها را کاشت. این ها نخودهای شیرین "پدر" بودند. پس از رشد گیاه و تولید نخود، این نخودهای شیرین (فرزند) جمع آوری شدند و قطر آن ها اندازه گیری شد.
گالتن به دو چیز درباره ی این داده ها توجه کرد. نخست این که میانگین قطر نخودهای تولیدی تقریباً یک وابستگی خطی با قطر نخودهای منشا دارند. در شکل زیر فقط با چشم دیده می شود که می توان خط مستقیمی رسم کرد که داده ها را به طور نسبتاً خوبی برازش کند.
ثانیاً متوجه شد که میانگین قطر نخودهای تولیدی به نظر می رسد که به سوی متوسط مشترکی "برگشت می کنند" (در 1877 او کلمه ی "رجوع کردن" را به کار برد و؟ در مقاله ای در 1885 به کلمه ی "برگشتن" تغییر داد.)
میانگین کلی قطر نخودهای تولیدی حدود 3/16 است. برای هریک از هفت قطر نخودهای منشا، میانگین قطر نخود تولیدی از قطر نخود منشا در جهت میانگین کلی تغییر می کند. برای مثال، متوسط قطر نخودهای تولیدی از نخودهای با قطر 21 برابر 5/17 است که در جهت 3/16 می باشد. گالتن بعدها این پدیده را به عنوان "رگرسیون به سوی حد وسط" مطرح کرد. ممکن است فکر کنیم که رگرسیون ایجاب خواهد کرد که پس از نسل های زیادی تمام نخودهای شیرین با قطر مساوی پایان خواهد پذیرفت. ولی رگرسیون تنها به میانگین قطر نخودهای تولیدی بستگی دارد. نخودهای تکی دارای قطرهایی هستند که در اطراف میانگین تغییر می کنند. متغیر بودن قطرهای تکی رگرسیون قطر متوسط را جبران می کند، چنان که توزیع قطرها در جامعه نخودهای تولیدی دقیقاً همان توزیع قطرها در جامعه ی نخودهای منشا می باشد.
1-7 مقدمه ای بر الگوهای خطی تعمیم یافته
1-7-1 الگوهای خطی
یک الگو، چکیده ساده از واقعیتی است که تقریبی پدیده نسبتاً پیچیده تری را فراهم می کند. به طور کلی، می توان الگوها را به صورت قطعی یا احتمالی رده بندی کرد. در الگوهای قطعی سیستم برآورد و پاسخ ها اغلب به وسیله ی مجموعه ای از معادلات دقیقاً تعریف می شود. الگوهای قطعی به طور گسترده در مهندسی به کار می روند. مثال هایی در این مورد عبارتند از قانون اهم ، قانون ایده آل گاز و قانون اول ترمودینامیک. در الگوهای احتمالی برآمدهای سیستم یا پاسخ ها، تغییرپذیری را نشان می دهند زیرا الگو یا عناصر تصادفی را شامل می شود یا این که به نوعی با نیروهای تصادفی سر و کار دارند.
به طور یقین رده الگوهای احتمالی با اهمیت تر از الگوی خطی احتمالی زیر وجود ندارد.
(1-1)
که در آن متغیر پاسخ یا برآمد،،،… و مجموعه ای از متغیرهای پیشگو یا برگشت، ،،… و مجموعه پارامترهای نامعلوم و جمله ی خطای تصادفی است. گاهی اوقات متغیرهای برگشت،،… و را متغیر کمکی می نامند. معادله ی (1-1) را اغلب الگوی رگرسیون خطی می نامند. ما نوعاً فرض می کنیم جمله ی خطا دارای میانگین صفر است. بنابراین، میانگین (امید ریاضی) پاسخ در الگوی رگرسیون خطی عبارت است از:
(1-2)
معادله ی (1-1) را به این خاطر الگوی خطی می گویند که در آن میانگین پاسخ یک تابع خطی از پارامترهای مجهول،،… و است. این بدان معنی است که یک الگوی برهم کنش نسبت به دو متغیر.
(1-3)
یا یک چند جمله ای مرتبه دوم نسبت به متغیر
(1-4)
یا حتی الگویی با جملات متعالی نظیر
همگی الگوهای خطی می باشند. الگوی رگرسیون خطی در معادله ی (1-1) را معمولاً الگوی خطی مرتبه اول می نامند. وقتی از این الگو در رابطه با تحلیل داده های یک طرح آزمایش استفاده می شود الگوی (1-1) را الگوی با اثرات اصلی می نامند. الگوی برهم کنش (1-3) و الگوی مرتبه دوم (1-4) نیز غالباً در زمینه ی طرح آزمایش ها پیش می آیند.
از الگوهای رگرسیون خطی به دلایل گوناگونی زیاد استفاده می شود. اول این که، این الگوها از تقریب های طبیعی چند جمله ای ها برای روابط تابع پیچیده ترند. یعنی اگر رابطه درست بین متغیر پاسخ و پیشگوی باشد آنگاه تقریب مرتبه اول سری تیلور این رابطه در نقطه ای مانند به صورت زیر است:
که صرف نظر از باقی مانده (به جز جمله خطا) یک الگوی رگرسیون خطی یک متغیری است. وقتی پیشگو داشته باشیم تقریب مرتبه اول سری تیلور مستقیماً به یک الگوی رگرسیون خطی متغیری منجر می شود. ماحصل به کار بردن یک سری تیلور مرتبه دوم معادله الگوی مرتبه دوم (1-4) خواهد بود یا اگر مشتقات مرتبه دوم را حذف کنیم یک الگوی بر هم کنش به دست می آید که معادله (1-3) مثالی از آن است. چون اغلب از الگوهای رگرسیون خطی (به طور موفقیت آمیزی) به عنوان تقریب چند جمله ایها استفاده می شود، لذا بعضی اوقات این الگوها را الگوهای تجربی می نامند.
دومین دلیل مشهود بودن الگوهای رگرسیون خطی این است که از آن ها پارامترهای مجهول ،،… و مستقیماً برآورد می شوند. روش کمترین مربعات یک تکنیک برآورد پارامتر است که به اوایل قرن نوزدهم بر می گردد. وقتی از این روش در یک الگوی خطی استفاده می شود، تحلیلگر باید فقط یک مجموعه مرکب از معادله خطی را نسبت به مجهول ،،… و حل کند. امروزه ماشین های محاسبه کننده دستی و برنامه های رایانه ای روش کمترین مربعات را برای الگوهای خطی انجام می دهند، از این رو برازش الگوهای رگرسیون بسیار آسان است. سرانجام این که یک نظریه آماری واقعاً جالب و توسعه یافته برای الگوی خطی وجود دارد.
اگر خطاهای در الگوی خطی را دارای توزیع نرمال مستقل با واریانس ثابت فرض کنیم آنگاه آزمون های آماری و فواصل اطمینان مربوط به پارامترهای الگو و فواصل پیشگویی و اطمینان برای پاسخ را می توان به سهولت به دست آورد. علاوه بر این، این روش ها به خوبی در بسیاری از بسته های نرم افزار آماری انجام داده شده و لذا به آسانی اجرا می شوند. به نظر ما در نظریه ی آمار چیزی بهتر از الگوی خطی نیست، زیرا نه فقط ظرافت کاری های ریاضی را در بر دارد بلکه در واقع به سهولت و به طور موثری در مسایل عمده کارآیی دارد.
در ضمن در آموختن الگوهای خطی تعمیم یافته باید برخی از نظریه ها و جنبه های علمی استفاده از الگوی رگرسیون خطی را مدنظر قرار دهیم. فصل دوم این موارد ضروری را در بر می گیرد.
1-7-2 الگوی خطی تعمیم یافته
واضح است که وقتی با الگوهای رگرسیون خطی و غیر خطی سر و کار داریم توزیع نرمال نقش محوری ایفا می کند. در حقیقت در روش های استنباطی مربوط به الگوهای رگرسیون خطی و غیرخطی فرض بر این است که متغیر پاسخ از توزیع نرمال تبعیت می کند. وضعیت های عملی زیادی وجود دارند که این فرض حتی به طور تقریبی برقرار نیست. برای مثال، فرض کنید متغیر پاسخ یک متغیر گسسته نظیر یک شمارش است. ما اغلب با شمارش عیب ها یا "پیشامدهای نادری" چون آسیب ها، بیمارانی با امراض خاص و حتی با وقوع پدیده های طبیعی از قبیل زمین لرزه ها و طوفان های وابسته به آن مواجه می شویم. امکان دیگر یک متغیر پاسخ دوتایی است. مطالعاتی که در آن متغیر پاسخ "موفقیت" یا "شکست" (یعنی صفر یا یک) است تقریباً در تمام زمینه های علوم و مهندسی نسبتاً متداول است. وضعیت های زیادی نیز وجود دارد که متغیر پاسخ پیوسته است، لیکن فرض نرمال بودن کاملاً غیرواقعی است. مثال هایی در این مورد عبارتند از: توزیع فشارها در اجزاء مکانیکی و زمان زوال اجزاء الکترونیکی یا سیستم ها، این نوع پاسخ ها نامنفی بوده و نوعاً یک رفتار چوله به راست بالایی را نشان می دهند.
الگوی خطی تعمیم یافته یا برای برازش الگوهای رگرسیون به داده های پاسخ یک متغیری توسعه داده شده اند که از توزیع بسیار جامعی که خانواده نمایی نامیده می شود تبعیت می کند. خانواده نمایی توزیع های نرمال؛ توزیع های دوجمله ای؛ پواسن؛ هندسی؛ دوجمله ای منفی؛ نمایی؛ گاما و نرمال وارون را شامل می شود. علاوه بر این اگر، مقادیر پاسخ را نشان دهد آن گاه با
داده می شود که بردار متغیرهای برگشت یا متغیرهای کمکی برای مشاهده ام بوده و بردار پارامترها یا ضرایب رگرسیون است. هر الگوی خطی تعمیم یافته سه جزء دارد: توزیع متغر پاسخ (که گاهی اوقات ساختار خطا نامیده می شود)؛ یک پیشگوی خطی که متغیرهای برگشت یا کمکی را شامل می شود و یک تابع پیوند که پیشگوی خطی را به میانگین طبیعی متغیر پاسخ مربوط می کند. برای مثال، الگوی رگرسیون خطی در معادله (1-1) را در نظر می گیریم. تابع پاسخ نرمال بوده، پیشگوی خطی عبارت است از:
و تابع پیوند یک پیوند همانی بوده یا داریم:
بنابراین الگوی رگرسیون خطی استاندارد در معادله (1-1) یک است. بسته به انتخاب تابع پیوند، یک می تواند یک الگوی غیرخطی را شامل شود. برای مثال، اگر از تابع پیوند لگاریتمی استفاده کنیم آنگاه:
الگوی خطای تعمیم یافته را می توان به عنوان یکسان سازی الگوهای خطی و غیرخطی تلقی کرد که خانواده غنی توزیع های پاسخ نرمال و غیرنرمال را با هم متحد می کند. برازش الگو و استنباط را می توان با توجه به یک چارچوب انجام داد. علاوه بر این، نرم افزار رایانه ای که از این رویکرد یکسان سازی حمایت می کند به طور وسیعی در دسترس بوده و استفاده از آن آسان است. به این ترتیب در حالی که کاربرد اولیه گروه های به علوم زیستی و صنایع داروسازی منحصر می باشد ولی کاربردهای آن در سایر زمینه های علوم و مهندسی به سرعت گسترش یافته است. الگوهای خطی تعمیم یافته را به همراه مثال هایی در زمینه های مختلف علوم و مهندسی به تفصیل ارائه می کند.
در معمول مشاهدات مستقل فرض می شوند. وضعیت هایی وجود دارند که این فرض ها مناسب نیستند. مثال هایی در این مورد، داده هایی را شامل می شود که در آن اندازه های چندگانه روی یک آزمودنی یا واحد تجربی به وجود می آید. به طور مثال، طرح تکه ای و انواع دیگر آزمایش هایی که روی تصادفی کردن محدودیت دارد و آزمایش هایی که عوامل تصادفی و ثابت (الگوی مرکب) را در بر می گیرد. معادلات برآورد تعمیم یافته برای لحاظ کردن ساختار همبستگی بین مشاهدات در الگوی خطی تعمیم یافته ارائه می شوند.
هدف ما فراهم نمودن مقدمه ای برها برای طیف وسیعی از استفاده کنندگان از جمله آماردانان، مهندسان علوم فیزیکی؛ مکانیکی؛ پزشکی و علوم زیستی و سایر خوانندگانی است که زمینه ای در الگوهای رگرسیون خطی دارند. ما همچنین شیوه به کار بردن این تکنیک ها را در نرم افزارهای رایانه ای پیشرفته ای که کاربرد آن ها را تسهیل می کند، تشریح می کنیم.
فصل دوم
2-1 مقدمه
همان طور که در فصل قبل اشاره کردیم در الگوهای رگرسیون خطی فرض بر این است که متغیر پاسخ از توزیع نرمال تبعیت می کند ولی در بعضی اوقات وضعیت هایی پیش می آید که به طور مثال یک متغیر پاسخ دوتایی است که در آن متغیر پاسخ موفقیت یا شکست (یعنی کدگذاری شده اند صفر یا یک) است. توزیع پیشنهادی برای این داده ها توزیع برنولی یا تعمیم یافته آن دوجمله ای می باشد و مدل بکار رفته برای این داده ها رگرسیون لجستیک است که مدل خطی آن به صورت زیر می باشد:
یا وضعیت دیگر متغیر پاسخ یک متغیر گسسته نظیر یک شمارش است یعنی با داده های شمارشی سر و کار داریم. در این مورد فرض نرمال بودن دیگر برقرار نیست لذا یکی از فرضیات بنیادی مدل رد می شود. پس مدل رگرسیون خطی برای این داده ها مناسب نیست و باید دنبال یک الگوی مناسب باشیم. بدین منظور باید داده های شمارشی مورد بررسی را مورد آزمون قرار دهیم تا ببینیم این داده ها از چه توزیعی پیروی می کنند. چون داده ها شمارشی هستند. حدس می زنیم که از توزیع پواسن پیروی می کنند. برای اثبات این ادعا راه حل زیر را بکار می بریم.
می دانیم که در توزیع پواسن میانگین و واریانس یکسان است پس میانگین و واریانس این داده ها را بدست می آوریم. اگر یکسان بودند آنگاه این داده ها دارای توزیع پواسن می باشند. در نتیجه الگوی مناسب برای این داده ها رگرسیون پواسن می باشد.
2-2 الگوهای رگرسیونی که واریانس تابعی از میانگین است
الگوهای رگرسیون لجستیک و پواسن هر دو خاصیت مشترکی دارند که آن را در تمام الگوهایی که شامل الگوی خطی تعمیم یافته هستند، ملاحظه می کنیم. به عنوان مثال، میانگین پاسخ که پاسخ مورد انتظار در هر نقطه داده است و واریانس پاسخ با یکدیگر رابطه دارند. ابتدا یک ساختار رگرسیون که در آن پاسخ دوتایی (صفر یا یک) است را در نظر می گیریم، زیرا نقطه ی انتهایی ممکن است یک اجرای تجربی پاسخ دادن یا پاسخ ندادن یک بیمار به یک دارو یا یک کالا در یک فرآیند صنعتی معیوب یا سالم باشد. بنابراین، با فرض این امر معقول است که در نقطه دادهام پاسخ یک متغیر تصادفی برنولی است:
.
در اینجا در یک فرآیند برنولی یک احتمال، و یک بردار متغیرهای پیشگو است. پارامتر و در نتیجه واریانس تابعی از پیشگوهای است. بنابراین، واریانس تابعی از میانگین بوده و موضوع مورد بحث در بخش 6-3 مناسب پیدا می کند.
(سناریوی دیگری را در نظر می گیریم که در آن مقادیر پاسخ شمارش های پواسن هستند. این شمار ش ها می توانند نتایج نقاط انتهایی در یک آزمایش طب زیستی شامل تعداد پرگنه های سلولی سرطان بوده یا تعداد عیب های مشاهده شده در یک وسیله میکروالکترونیک می تواند باشد. مانند قسمت اول الگو را برای میانگین به صورت زیر می توان نوشت:
.
که در آن پارامتر توزیع پواسن است. توجه کنید که تغییرات میانگین در مورد مشاهدات در آزمایش به واسطه تغییر مقادیر پیشگوهاست. در عین حال، می دانیم که در حالت توزیع پواسن واریانس برابر میانگین است و در نتیجه است.
در این دو سناریو استفاده از برآورد کمترین مربعات متداول برای برآورد پارامترهای الگو در یا مناسب نیست. انواع دیگر الگوهای رگرسیون مورد استفاده را با توزیع های پاسخ دیگر، که در آن واریانس تابعی از میانگین است را تشریح می کنیم. که این امر استفاده از مطالب مربوط به کمترین مربعات "وزنی" را پیشنهاد می کند. یادآور می شویم که رابطه تحلیلی جالبی بین مفهوم کمترین مربعات وزنی و برآورد درست نمایی ماکزیمم برای دو الگوی مورد بحث و سایر اعضای خانواده الگوهای خطی تعمیم یافته وجود دارد.
2-3 الگوی رگرسیون پواسن
الگو و فرضهایی که متضمن الگوی رگرسیون پواسن هستند عبارتند از: پاسخ های در ساختار رگرسیون شمارش هایی هستند که از توزیع پواسن مستقل با و تبعیت می کنند؛ زیرا واریانس با میانگین برابر است؛ مجموعه ی پیشگوهای از طریق الگوی
که بر تاثیر می گذارند. این الگوی آزمایشی تنها شکل الگو برای پاسخ های پواسن نیست بلکه اغلب الگوی لگاریتم خطی در معادله به کار می رود. یک مزیت آشکار این است که تعداد شمارش های پیشگویی شده نباید منفی باشد. باید اشاره کنیم الگوهای دیگر برای پاسخ های پواسن، موجود است.
2-4 برآوردگر درستنمایی ماکزیمم برای رگرسیون پواسن
لگاریتم درست نمایی را در نظر می گیریم. با توجه به فرض استقلال داریم:
که در آن است. برای تعیینها از معادله ی امتیاز پس از برعکس کردن ترتیب جملات بالا می توان نوشت:
اکنون مشتق را صفر کرده و معادله امتیاز را به دست می آوریم:
توجه کنید که معادله بالا را به صورت زیر می توان نوشت:
معادلات امتیاز الگوهای رگرسیون لجستیک و رگرسیون پواسن را با هم مقایسه کنید. توجه کنید که برای رگرسیون های پواسن لجستیک معادلات امتیاز شکل
یا با نماد ماتریسی شکل زیر را پیدا می کند:
واضح است که شباهت جالبی بین این دو الگوی ظاهراً مجزا وجود دارد. به طور غیر رسمی یک ارتباط جالب رگرسیون وزنی برای رگرسیون پواسن را مانند حالت مربوط به رگرسیون لجستیک نشان می دهیم. برای الگوی پواسن مجموع مربعات مانده های وزنی را در نظر می گیریم. اگر دوباره با مینیمم کردن مجموع مانده با ثابت (یا مقدار کنونی روش تکراری) در سروکار داشته باشیم آنگاه مشتق جزئی نسبت به عبارت است از:
اگر را مساوی صفر قرار دهیم حاصل می شود که همان است که از درست نمایی ماکزیمم به دست آمده بود. در نتیجه نه فقط رگرسیون های لجستیک و پواسن معادله ی امتیاز یکسانی دارند بلکه روش درستنمایی ماکزیمم با کمترین مربعاتی معادل است که به طور کامل تکرار شده و دوباره وزنی شده است. کلیه این شباهت برجسته در رابطه با کمترین مربعات وزنی در این است که برای هر دو الگو، داریم.
2-5 استنباط والد و استنباط درستنمایی
الگوهایی نظیر رگرسیون پواسن وهای دیگر از دو نوع استنباط، استنباط والد و استنباط درستنمایی بهره می گیرد. در این بخش در باره استنباط والد بحث می کنیم. کاربرد اول با آزمون های فرضیه در مورد هریک از ضرایب در الگوی رگرسیون پواسن سر و کار دارد. مانند حالت رگرسیون خطی استاندارد. می خواهیم:
را آزمون کنیم که در آن در پیشگویی خطی در الگوی پواسن ظاهر می شود. در اینجا هدف این است که هیچ تفاوتی نسبت به رگرسیون خطی استاندارد وجود ندارد. در یک مطالعه صنعتی ما با یک طرح آزمایشی علاقه مند به جداکردن متغیرها هستیم. در یک کاربرد آمار زیستی می خواهیم به نقش یکی از متغیرهای کمکی در یک رابطه لجستیک دو ؟ پاسخ توجه داشته باشیم. برای یک برآوردگر درستنمایی ماکزیمم:
به طور مجانبی بوده و لذا:
تحت فرض بالا مجانبی است که اعضای قطری مناسب ماتریس واریانس- کوواریانس مجانبیها می باشد. در عمل از به جای استفاده می کنیم. یک طرفه یا دوطرفه بودن این آزمون بستگی به انتخاب فرضیه مقابل دارد. خروجی استاندارد رایانه ای که از یکی از بسته های نرم افزار استفاده می کند مقدار را همراه با مقادیر احتمال برای هر ضریب در الگوی پیشنهادی فراهم می کند.
نوع دوم استنباط والد، با محاسبه فواصل اطمینان احتمال دو جمله ای در مکان داده معلوم یا در یک مکان داده دلخواه سر و کار دارد. که این به فاصله اطمینان میانگین پاسخ مورد بحث برای الگوهای خطی در مرور رگرسیون مربوط می شود.
2-6 استنباط مربوط به ضرایب در رگرسیون پواسن
در این بخش ماتریس اطلاع مانند حالت لجستیک با داده می شود که در آن
است، البته در اینجا داریم:
به این ترتیب خطای معیار برآورد بدست می آید که برای، در، جایگزین می شود. آزمون های فرضیه با استفاده از استنباط والد و استنباط درست نمایی به شکل داده شده در بخش قبل می باشد. فواصل اطمینان و فواصل پیشگویی به طریق یکسانی برای میانگین تعدد شمارش ها در را می توان از فاصله اطمینان برای یعنی پیشگویی خطی بدست آورد.
بدین ترتیب حد اطمینان، است که در آن حد اطمینان بالایی می باشد. حد اطمینان پایینی را از طریق حد اطمینان پایینی می توان یافت. ساختار حدود پیشگویی برای یک مشاهده جدید را نیز می توان بدست آورد.
2-7 آزمون های نیکویی برازش (مفهوم انحراف برای الگوی پواسن)
دیدن عبارتی برای انحراف جهت یک توزیع معین ممکن است برای خواننده جالب باشد. در غیر این صورت خواننده دچار ابهام خواهد شد. قطعاً آماره پیرسن بدیهی است، ولی این مطلب را در مورد انحراف نمی توان بدون ذکر یک مثال بیان کرد. در حالت پواسن MLE، برای الگوی اشباع شده یعنی مشاهده ام است، زیرا در الگوی اشباع شده فرض می کنیم میانگین پواسن مستقل بوده و از این رو تحت تاثیر پیشگوها واقع نمی شود. در نتیجه در الگوی اشباع شده لگاریتم درست نمایی عبارت است از:
برای الگوی رگرسیون پواسن داریم:
که در آن از MLE ضرایب رگرسیون محاسبه شده است.
بنابراین به صورت زیر داده می شود:
معادله ی بالا را می توان مشاهده کرد و توجه نمود که چه وقت به که از برازش رگرسیون پواسن به دست می آید، نزدیک است. عبارت به صفر متمایل است. معادله را می توان بیشتر خلاصه کرد. یادآور می شویم که تابع امتیاز به صورت زیر است:
بنابراین می توان نشان داد که اگر در پیشگوی خطی عرض از مبدا وجود داشته باشد در آ" صورت خواهیم داشت. به این ترتیب عبارت انحراف به صورت زیر در خواهد آمد:
یادآور می شویم که انحراف در اینجا همان آزمون نسبت درستنمایی (LRT) می باشد. لذا توضیحی مختصر از این آزمون را نیز ارائه می دهیم.
2-8 آزمون نسبت درستنمایی
فرض کنید یک نمونه ی تصادفی از تابع چگالی باشد. مجموعه را به دو مجموعه ی جدا از هم و که متناظر با فرض و می باشند، تفکیک می کنیم و ماکزیمم یا سوپریمم را روی دو مجموعه ی و پیدا می کنیم. هرچه بزرگتر باشد احتمال این که نمونه تصادفی از آمده باشد بیشتر است؛ بنابراین برای آزمون فرض های اگر، منطقی است که فرض را رد کنیم. پس ناحیه ی بحرانی آزمون نسبت درستنمایی برای فرض های فوق از رابطه ی زیر بدست می آید:
عدد با داشتن و توزیع آماره ی آزمون بدست می آید. اگر فرض ها هر دو ساده باشند آنگاه:
یعنی در این حالت آزمون نسبت درستنمایی همان لم نیمن- پیرسن می باشد. معمولاً برای سادگی در محاسبات بجای استفاده از از کسر زیر استفاده می کنیم:
ثابت می شود که و به یک ناحیه ی بحرانی منجر می شوند. آزمون هایی که براساس و انجام می شوند. آزمون های نسبت درستنمایی تعمیم یافته یا آزمون های نسبت درستنمایی می نامند. کسر را نسبت درستنمایی تعمیم یافته می نامند. گاهی را به صورت زیر نیز می نویسند:
چند نکته
1- کسر ممکن است بیشتر از 1 باشد. ( همواره از 1 کمتر یا مساوی است).
2- پارامتر مجهول می تواند یک بردار نیز باشد (بعدی) به صورت:.
3- آزمون های نسبت درستنمایی را آزمون های می نامیم.
4- آزمون های نسبت درستنمایی معمولاً پرتوان ترین آزمون ها نیستند اما معمولاً آزمون هایی که به این طریق بدست می آیند آزمون های معقول رضایت بخشی می باشند.
5- در موقع محاسبه محاسبه مخرج آن به بدست آوردن برآوردگر پارامتر منجر می شود.
6- دیدیم که در موقع ساده کردن رابطه ی معمولاً به یک آماره ی آزمون مثل می رسیم. ( یا). برای پیدا کردن به توزیع و نیاز داریم. بعضی وقت ها می توان توزیع آن را بدست آورد اما گاهی اوقات نمی توان توزیع را بدست آورد. در این صورت از توزیع حدی استفاده می کنیم. ثابت می شود که توزیع حدی است (یعنی زمانی که) که در آن:
بعد فضای – بعد فضای تعداد پارامترهای مجهول در تعداد پارامترهای مجهول در
2-9 آزمون های نقصان برازش در رگرسیون پواسن
استفاده از انحراف به عنوان یک آزمون نقصان برازش را پیش از این مورد بحث قرار دادیم. همچنین اشاره کردیم که انحراف از نظر عملی بیشترین خاصیت را در آزمون هایی دارد که الگوهای تودرتو را مقایسه می کند و در نتیجه آماره آزمون اختلاف هایی در انحراف ها را شامل می شود که معادل با اختلاف ها در لگاریتم های درست نمایی است. در اینجا استفاده از کی دو به عنوان توزیع مرجع از حالت هایی که در آن از خود انحراف استفاده می کنیم مناسب تر است.
(دومین آماره ای که از آن ممکن است استفاده کنیم و در اکثر نرم افزارهای آماری که الگوهای خطی تعمیم یافته را پیشنهاد می کند وجود آماره ی پیرسن است که با
داده می شود و به طور مجانبی به صورت توزیع می شود. بنابراین، انحراف و پیرسن هر دو یک توزیع مجانبی دارند. آماره پیرسن به خاطر عدم قطعیت توزیع در نمونه های کوچک به عنوان یک آماره نقصان از انحراف مناسبت تر نیست. با این وجود، موارد زیادی وجود دارد که این دو مقادیر مشابهی را می دهند و این تجربه ما می باشد. در نتایج کیفی این دو به ندرت یکدیگر را نقص می کنند. این دو در انواع دیگر تحلیل ها به جز آزمون نقصان برازش ایفاء کننده ی نقشی هستند.
2-10 مفهوم پراکندگی اضافی در رگرسیون پواسن
پراکندگی اضافی مفهوم مهمی است که در رگرسیون پواسن و جنبه های دیگرها مورد استفاده واقع می شود. برای شروع باید خاطرنشان کرد که تا اینجا مقوله یک برازش ضعیف الگوی رگرسیون پواسن به نظر می رسد از یکی از منابع زیر ناشی می شود:
1. نادرست بودن فرض.
2. مناسب نبودن انتخاب الگوی پواسن.
3. ساختاری که در پیشگوی خطی به کار می رود درست نیست.
4. وجود نقاط پرت
کسی که دست اندرکار است استفاده از اطلاعات نقصان برازش را در اختیار دارد. می توان از آزمون هوسنر-لمشو استفاده کرد یا با یک قانون سرانگشتی می توان دید که میانگین انحراف یعنی انحراف تقسیم بر درجه آزادی باید نزدیک به 1 باشد. مورد اخیر بخصوص وقتی داده ها دسته بندی شده و هر دسته حجم نمونه معقولی دارد موثر است.
انتخاب توزیع و الگو ممکن است واقعاً مناسب باشد و مجموعه داده ها نقطه پرتی نداشته باشد ولی در عین حال، میانگین انحراف می تواند نشانه ای از یک مشکل باشد. این مشکل که اغلب با آن مواجه می شویم تغییرات اضافی دوجمله ای یا پراکندگی اضافی نامیده می شود. این پراکندگی اضافی وقتی بوجود می آید که تغییرات محسوب شده با فرض دوجمله ای کفایت نکند. به بیان دیگر، می گوییم الگو پراکندگی اضافی دارد. در نتیجه یک پارامتر مقیاس اضافی وجود دارد، بنابراین واریانس یک مشاهده به جای برابر خواهد بود. اگر باشد پدیده را با پراکندگی نقصانی می نامیم. در عین حال، این مساله در عمل به اندازه پراکندگی اضافی اتفاق نمی افتد. تبین های معقولی از پراکندگی اضافی وجود دارد.
تحلیلگر تا تمام سعی و تلاش خود را در پیدا کردن یک الگوی درست به عمل نیاورده باشد نباید به پراکندگی اضافی نتیجه بگیرد. علامت الگوی که به طور بد تعیین شده است مانند علامت و نشانه پراکندگی اضافی است. به این ترتیب وضعیتی بسیار مشابه آنچه که در تحلیل رگرسیون خطی استاندارد مربوط به سه منبع باشد: ممکن است ورایانس خطای آزمایش بزرگ باشد؛ ممکن است نقاط پرت در داده ها وجود داشته باشند یا اساساً الگو خوب تعیین نشده باشد که این همان نشانه ی یک میانیگن مربع خطا می شود. ما اکنون توجه خود را به آنچه که موجب پراکندگی اضافی می شود و تاثیر آن بر نتایج رگرسیون پواسن شده معطوف می کنیم. دلیل اهمیت این موضوع آن است که محققان اغلب می توانند وجود پراکندگی اضافی مبتنی بر کاربرد را پیش بینی کنند.
2-11 تاثیر پراکندگی اضافی بر نتایج
تاثیری که پراکندگی اضافی بر نتایج یک رگرسیون پواسن برازش شده دارد کاملاً مشابه شک کردن در مورد چیزی است که از رگرسیون خطی استاندارد می دانیم. در رگرسیون خطی استاندارد اگر تغییرات مانده الگو به علت الگوسازی غلطی که میانگین مربع خطا را بزرگ می کند، افزایش یابد. در آن صورت خطاهای معیار ضرایب رگرسیون کمتر برآورده می شوند. استفاده از نماد رگرسیون خطی به این دلیل است که ماتریس واریانس کوواریانس برآوردگرها با برآورد می شود که در آن میانگین مربع خطا بوده و افزایش می یابد. در حالت پراکندگی اضافی در رگرسیون پواسن پارامتر مقیاس به همین طریق وارد ماتریس واریانس- کوواریانس می شود:
و به این ترتیب خطاهای معیار به دلیل نادیده گرفتن کمتر برآورد می شود. اکنون در حالتی که پراکندگی اضافی بوده و الگو درست است برآوردگرهای درستنمایی ماکزیممها به طور مجانبی نااریب باقی خواهند ماند.
توجه به این نکته با اهمیت است که چه زمینه هایی از کاربرد مستعد منجر شدن به پراکندگی اضافی است. واضح است که پراکندگی اضافی در کاربردهای زیستی و طب زیستی که در آن واحدهای آزمایشی حیوان ها هستند شاخص و برجسته است. در کاربردهای زیستی یا محیطی دیگری که روش های آزمایشگاهی و شرایط منجر به واحدهای آزمایشی مستقل می شود پراکندگی اضافی دور از انتظار است. در کاربردهای صنعتی واحدهای آزمایشی هر از چندگاهی طبق طرح مستقل نیستند. گاه این امر منتهی به همبستگی بین مشاهدات از طریق یک سناریوی اندازه های مکرر همچون طرح های نمودار تکه ای می شود.
این برآوردگرهای درست نمایی ماکزیمم مناسب بوده ولی خطاهای معیار آن با شک و تردید همراه است. قبل از تعدیل پراکندگی اضافی می خواهیم رویکرد استنباطی درست نمایی را برای آزمون در نظر بگیریم. این رویکرد باید به خواننده بیان روشنی از مشابهت بین انحراف و مجموع مربعات خطا و ارائه آنچه را که تعمیم تحلیل واریانس نامیده می شود یعنی تحلیل انحراف داده شده در جدول 4-6 را بدهد. درست همان گونه که نسبت های میانگین مربعات در خطای نرمال متداول رگرسیون خطی نسبت های هستند، نسبت های میانگین انحراف تقریباً نسبت های به صورت نسبت های متغیرهای بر درجه آزادی است. مقدار احتمال شاهدی قوی از معنی داری لگاریتم جمله تمرکز در الگوی رگرسیون پواسن را فراهم می کند.
اکنون خطای معیار را برای پراکندگی اضافی تعدیل می کنیم. خاطر نشان می کنیم که خطاهای معیار را از ریشه دوم اعضای قطری که پیش از این در این فصل تعریف شده بدست می آوریم. این تعدیل با ضرب کردن در انجام می شود. خطاهای معیار بعد از تعدیل برای جمله عرض از مبدا 4.84 و برای لگاریتم جمله تمرکز 1.66 است. چون تعدیل ضربی ضرب در متغیر را شامل می شود لذا:
خطای معیار تعدیل شده / ضریب
تقریباً یک متغیر تصادفی نرمال تقسیم بر است.
بنابراین یک آماره معقول بوده یا این که می توان از استفاده کرد. به این ترتیب داریم:
که در سطح معنی داری کمتر از معنی دار است.
2-12 کاربردهای رگرسیون پواسن
همان گونه که پیش از این در این فصل اشاره کردیم زمینه های کاربردی بسیار زیادی برای رگرسیون پواسن وجود دارد. این کاربردها وقتی پیش می آیند که پاسخ طبیعی در مساله تنها مقادیر صحیح نامنفی باشد. مقادیر صحیح چیزی را در رفتار سیستم اجتماعی یا زیستی موردنظر یا فرآیند تولید در یک کاربرد صنعتی بیان می کنند. کسی که از رگرسیون پواسن استفاده می کند فرض می کند که برای یک ترکیب معینی از پیشگوها یا متغیرهای طرح، توزیع پاسخ مشاهده شده پواسن با میانگین (و واریانس) یا است. مانند رگرسیون لجستیک رگرسیون پواسن اغلب تحت تاثیر پراکندگی زیاد قرار می گیرد و منبع پراکندگی زیاد قبلاً مورد بحث قرار گرفته است.
برای رگرسیون پواسن، PROC GENMOD در SAS را ارائه می کنیم. از PROC GENMOD برای الگوهای متنوعی که در چارچوبها قرار گیرند می توان استفاده کرد.
مرور کردن شباهت های بین رگرسیون لجستیک و رگرسیون پواسن با اهمیت است. بدون ابهام می توان گفت که این دو الگو تنها الگوهایی نیستند که بیشترین کاربرد را درها دارند، بلکه از شباهت در بسط و توسعه معادلات درست نمایی نیز برای ارتباط سریع با توسعه مجموعه الگوهای یکسان در که از بین آن ها رگرسیون های لجستیک و پواسن حالت های خاص مهم هستند می توان استفاده کرد.
برای هر دو الگو واریانس تابعی از میانگین است و تابع امتیاز برای برآورد با
داده می شود. در رسیدن به (4-20) از طریق رویکرد درست نمایی و رویکرد کمترین مربعات وزنی یک هم پوشی وجود دارد. پس از این می بینیم که روش محاسباتی در اصل از این نتیجه برای تولید طرح تکراری که وزن ها را (از طریق بهنگام کردن) در هر تکرار بهنگام می کند، استفاده می شود.
برای بررسی نقصان برازش، مفهوم انحراف و آماره ی پیرسن را بیان کردیم.
به مانند قبل آماره پیرسن دارای توزیع مجانبی است. استنباط والد و درست نمایی را نیز بیان نمودیم که تعدیل های مربوط به پراکندگی زیاد یعنی خطاهای استاندارد محاسبه شده را با به کار بردن پیرسن با انحراف در ضرب می کنیم.
2-13 چند مثال از کاربرد رگرسیون پواسن
در مطالب زیر رگرسیون پواسن را در SAS با سه مثال در مورد کاربردهای صنعتی، محیطی و زیستی تشریح می کنیم.
مثال 1: این مثال با داده های جمع آوری شده از تعداد ارگانیزم های سرود امنیای شمارش شده در یک محیط کنترل شده ای که تکثیر در میان ارگانیزم ها پیش می آید سروکار دارد. آزمایش کننده یک جزء خاص سوخت جت با غلظت متغیر که برای تکثیر زیا ن آور است را در ظرفی قرار می دهد. بنابراین، انتظار داریم که وقتی غلظت سوخت جت بالا می رود باید میانگین تعداد شمارش ها کم شود. بواسطه استفاده از دو فشار مختلف (و مجزای) ارگانیزم یک متغیر رده موجب می گردد.
در نتیجه الگوی پیشنهادی به صورت زیر است:
.
که در آن غلظت در گرم بر لیتر بوده و برای فشار 1، و برای فشار 2، می باشد. نظیر این است که هیچ برهم کنشی بین اجزاء و غلظت وجود ندارد. این داده ها در جدول 2-1 داده شده است.
اکنون اولین خروجی از خروجی های PROC GENMOD را امتحان می کنیم. این خروجی را در جدول های2-2 و 2-3 ملاحظه می کنید. به نشانه ای از توزیع پواسن با "تابع پیوندی" که به صورت لگاریتم معین می شود توجه می کنیم که این دو اصل برازش الگوی رگرسیون پواسن را طلب می کند. همچنین توجه کنید که اطلاعات مربوط به نقصان برازش پیشنهاد می کند که میانگین انحراف و پیرسن که بر تقسیم شده است فقط به میزان کمی از 1 تجاوز می کند. نسبت های نزدیک به یک که پراکندگی زیادی را نشان می دهند احتمالاً مشکل ساز نخواهند بود. چیزهایی که از اطلاعات نقصان برازش تبعیت می کنند استنباط والد، ضرایب، خطاهای معیار، و مقادیر احتمال را نشان می دهد. واضح است که تمام جملات در الگو معنی دارند. در نتیجه، الگوی پواسن برازش شده برای داده ها به صورت زیر داده می شود:
.
که در آن و را پیشتر بیان کردیم. در اینجا مقیاس برابر 1 است زیر هیچگونه گاهی بر وجود پراکندگی زیاد وجود ندارد. خواننده قبل از بحث تغییر ضرایب باید در جدول 2-3 را امتحان کند. این مطلب به ما شمارش های مشاهده شده، شمارش های پیشگویی شده با میانگین برآوردشده، پیشگویی خطی برآورد شده، خطای معیار پیشگویی خطی، وزن موسوم به (HESSWQT) Hessiam که (یعنی همان، برآورد شده) است، مانده ی خام، مانده ی و مانده انحراف را می دهد. خواننده پیشتر با مانده ی آشنا شده است، که در این حالت به صورت زیر داده می شود:
جدول 2-1 داده های سرودافینا یک متغیر رده ای برای مثال 1
جدول 2-2
روش GENMOD
اطلاعات الگو
مقدار
بیان
WORK. POISSON
مجموعه داده
POISSON
توزیع
LOG
تابع پیوند
Y
متغیر وابسته
70
مشاهده مورد استفاده
اطلاعات سطح رده
مقادیر
رده
رده
2
12
فشار
معیار ارزیابی نکویی برازش
درجه آزادی/ مقدار
مقدار
درجه آزادی
معیار
1.2892
86.3765
67
انحراف
1.2892
86.3765
67
انحراف مقایسه بندی شده
1.1915
79.8301
67
کی دوی پیرسن
1.1915
79.8301
67
کی دوی پیرسن مقایسه بندی شده
–
4493.8023
–
لگاریتم درست نمایی
تحلیل برآوردهای پارامتر
Pr > Chi
کی دو
خطای معیار
برآورد
درجه آزادی
پارامتر
0.0001
9435.6312
0.0430
4.1797
1
عرض از مبدا
0.0001
32.3126
0.0484
0.2750
1
فشار 1
–
–
0.0000
0.0000
0
فشار 2
0.0001
1096.3442
0.0466
-1.5431
1
x
–
–
0.0000
1.0000
0
مقیاس
توجه: پارامتر مقیاس را ثابت گرفته ایم.
مجموع مربعات این کمیت ها آماره پیرسن را به ما می دهد. مانده ی انحراف را پس از این بحث می کنیم.
کران های اطمینان بالایی و پایینی برای، پاسخ از کران های اطمینان مربوط به پیشگوی خطی که پیشتر در این فصل به آن اشاره کردیم، استفاده می کند. برای مثال، کران های اطمینان در اولین داده با محاسبه کران های مربوط به پیشگویی خطی به صورت:
محاسبه می شوند که عبارتند از: و. چون این الگو به صورت ]پیشگویی خطی[ است از کران های مربوط به عبارتند از:
البته تعبیر در اینجا است که، مطمئن هستیم در اولین نقطه داده یعنی یک کنترل بدون آلودگی و فشار 1، میانگین تعداد شمارش های ارگانیزم ها با اطمینان 95% بین 79.673 و 92.8837 قرار دارد.
تعبیر ضرایب
هریک از ضرایب تعبیر مهمی دارد که باید بخشی از نتایج استخراجی باشد در حالت لجستیک تاکید نمودیم که بخت را قابل تعبیر و چیزی شبیه "اثرات" در الگوهای خطی می توان تلقی کرد. انواع مشابهی از یافته ها در رگرسیون پواسن وجود دارد و مانند رگرسیون لجستیک هدف ما آماره ای است که به ماهیت کاربرد و الگو بستگی دارد.
در این کاربرد مقایسه میانگین پاسخ، با میانگینی که در کنترل است و هیچ گونه آلودگی و در نتیجه هیچ گونه تولید مثل معیوب وجود ندارد، با اهمیت است. به عنوان مثال، برای دانشمندان علوم محیط زیست اندازه گیری میزان معیوب بودن تولید مثل، برای یک غلظت معلوم آلودگی به صورت:
دارای اهمیت است. در اینجا میانگین تعداد شمارش های قابل کنترل است. این نسبت، میانگین شمارش های در کنترل است که نسبت بعد از معیوب شدن را نشان می دهد. بنابراین نسبت به عیبی که آزمایش شده است را نشان می دهد. در این حالت، اگر آزمایش های اکوسیستمی یک گرم در لیتر آلوده باشد در آن صورت، نسبت عیب آزمایش شده با سرود افینا عبارت است از:
به این ترتیب 78% تولیدمثل در ارگانیزم سرودافینا است.
مثال 2: در مجموعه داده زیر شمارش های مربوط به تعداد صدمات یا شکستگی هایی که در رگه بالایی معادن در مناطق ذغال سنگ ناحیه آپالاچیان در ویرجینیای غربی بوجود می آید مشاهده شده است. در این ناحیه مجموعاً 44 مشاهده از معادن گردآوری شده است. چهار متغیر را اندازه گیری می کنیم که تمام آن ها توابعی از مواد در زمین و در منطقه معدنی است. این داده ها در جدول صفحه بعد نشان داده شده است. این متغیرها عبارتند از:
ضخامت بار داخلی به پا
درصد استخراج رگه پایینی که قبلاً کنده شده است
ارتفاع رگه پایینی (به پا)
زمانی که این معدن باز شده است (به سال)
یک الگوی رگرسیون پواسن را با استفاده از تمام متغیرها به داده ها برازش کرده ایم. "الگوی کامل" عبارت است از:
.
که در آن میانگین تعداد شکستگی هاست. برای تشریح فرآیند انتخاب الگو انحراف را برای تمام زیر مجموعه های الگوهای ممکن پیدا کرده و نتایج به شرح زیر است:
باید خاطر نشان کرد که الگوهایی با انحراف کم، الگوهایی هستند که لگاریتم درست نمایی بزرگ دارند. همچنین مانند حالت مجموع مربعات، خطا در یک الگوی کمترین مربعات خطی افزودن یک جمله جدید به الگو بایستی انحراف را کمتر کند (یا حداقل افزایش ندهد). برای مثال، الگوی، با انحراف معیار را در نظر می گیریم؛ به طور نسبی می توان گفت این یک الگوی جالبی نیست ولی نسبت به یا که هریک به تنهایی الگوهای جالبی نیستند انحراف کمتری را می دهد. علامت * بهترین زیرمجموعه را با الگویی، با اندازه ی معین نشان می دهد. تحلیل گر با به کاربردن انحراف برای آزمون هایی که شامل زیرمجموعه های سلسله مراتبی است، می تواند به الگوهای معقولی دست پیدا کند. برای مثال، اگر را با مقایسه کنید باید از خود بپرسید که آیا با وجود، نیز لازم است؟ بنابراین برای آزمون معنی داری با لحاظ کردن در انحراف کاهشی به صورت:
با یک درجه آزادی داریم که یک مقدار معنی دار در سطح کمتر از است. به این ترتیب، با وجود، را نیز لازم داریم. اکنون نظر خود را به الگوی معطوف می کنیم. آیا با وجود با لحاظ کردن، انحراف به اندازه ی کافی کاهش پیدا می کند؟ داریم:
این آماره در سطح معنی دار است. بنابراین، لحاظ کردن قطعاً با ارزش است. در مورد الگوی کامل چطور؟ ملاحظه می کنیم که:
که البته معنی دار نیست. جدول 2-4 خروجی PROC GENMOD را با بکار بردن الگوی می دهد. توجه کنید که اطلاعات نقصان برازش نتایج کاملاً خوشحال کننده ای را می دهد. اگر انحراف و پیرسن را بر درجات آزادی تقسیم کنیم مقادیر نزدیک به 1 خواهد داد.
"انحراف مقیاس بندی شده" تقسیم کردن بر عامل مقیاس (یعنی یک) را نتیجه می دهد. PROC GENMOD به تحلیلگر امکان می دهد تا یک عامل مقیاس را طوری وارد کند که بتوان انحراف مقیاس بندی شده را به جای انحراف به کار برد. استنباط والد را که تحت عنوان "تحلیل برآوردهای پارامتر" ارائه شده، در نظر می گیریم. توجه کنید که مقادیر احتمال با مقادیر احتمالی که پیشتر در استنباط درست نمایی با توجه به اختلاف در انحراف به دست آمد یکی نیست.
الگوی برازش شده نهایی به صورت زیر است:
پارامتر مقیاس برابر یک است و هیچگونه گواهی از پراکندگی اضافی وجود ندارد.
جدول 2-4: خروجی GENMOD برای داده های مربوط به استخراج ازمعدن با متغیرهای ، و
تعبیر ضرایب
یک جنبه مهم تحلیل رگرسیون پواسن تعبیر ضرایب است. ماهیت تعبیر بستگی زیادی به ساختار الگو دارد. "اثرات" هریک از عوامل را می توان محاسبه کرد. برای مثال، نقش متغیر را زمان باز شدن معدن در نظر می گیریم. چون ضریب در پیشگوی خطی منفی است، لذا قدیمی بودن معدن میانگین، تعداد شکستگی ها را کاهش می دهد. برای هر ده سال سن میانگین تعداد شکستگی ها به اندازه کاهش می یابد. اثرات مشابه را برای هر متغیر می توان محاسبه کرد.
مثال 3: مجموعه داده زیر در ارتباط با یک خط تولید کارت مدار الکترونیکی با یک فرآیند لحیم کاری است. پاسخ، تعداد عیب های در بند لحیم است. این فرآیند متضمن پختن و از بیش گرم کردن کارت و عبور آن به وسیله دستگاه انتقال به موج لحیم کاری است. کاندرا1 (1993) نتایجی را ارائه نموده است، که بعدها همدا و نلدر2 (1997) آن را دوباره تحلیل کرده اند.
از پیش حرارت دادن، زمان خنک کردن، سر و صدای فراصوتی جوش و درجه حرارت جوش، این نتایج در جدول صفحه بعد خلاصه شده است. هر عامل دو سطح دارد و طرح آزمایشی یک طرح عاملی است. توجه کنید که نقطه داده 11 تنها دو مشاهده دارد. سومین مشاهده گزارش می شود، ولی یک گواه قوی وجود دارد که این مشاهده یک نقطه پرت است (همدا و نلدر 1997).
جدول صفحه 45 اولین خروجی PROC GENMOD را ارائه می کند که یک الگوی کامل با تمام هفت اثر اصلی و شش بر هم کنش که ذاتاً مهم در نظر گرفته بودیم را نمایش می دهد.
توجه کنید که میانگین انحراف که برابر انحراف تقسیم بر است. به طور قابل ملاحظه ای بیشتر از یک می شود. در عین حال، برای این که از نادیده گرفتن پراکندگی اضافی نفعی ببریم مساله را ادامه می دهیم. یادآوری این که در اینجا خطر کمتر برآورد کردن خطای معیار ضرایب وجود دارد. لزوماً باید اشاره کنیم که خطای معیار ضرایب بسیار مشابه می باشد. در فصل هفتم هنگام مطالعه بحث طرح آزمایشی این موضوع دارای اهمیت خواهد بود. توجه کنید که تمام اثرات اصلی جز و معنی دار هستند. همچنین، توجه کنید که،، و معنی دار می باشد. واضح است که در اینجا ممکن است حالتی برای لحاظ کردن در الگوی تصحیح شده جهت حفظ ترتیب وجود داشته باشد.
عامل با تعداد عیب ها
خروجی PROC GENMOD خطای معیاری دارد که برای پراکندگی اضافی که در بخش پیش بحث شد تعدیل شده است. در جدول زیر مشاهده می کنیم مانند ضرایب به دست آمده با تحلیل تعدیل نشده است. در عین حال، خطاهای معیار به اندازه ی عامل بزرگ تر می باشد. اکنون تنها جملاتی از الگو که با توجه به مقادیر معنی دارند عبارتند از:،، و.
خروجی GENMOD برای الگوی کامل داده های جوش موج
توجه: پارامتر مقیاس ثابت در نظر گرفته می شود.
خروجی GENMOD برای داده های جوش موج تعدیل شده برای پراکندگی اضافی.
توجه: پارامتر مقیاس را با ریشه دوم انحراف بر درجه آزادی برآورد کرده ایم.
الگوی تصحیح شده برای داده های جوش موج
تحلیل برآوردهای پارامتر
توجه: پارامتر مقیاس با ریشه دوم انحراف بر درجه آزادی برآورد شده است.
اگر پراکندگی زیاد را محاسبه کنیم این نتیجه گیری کاملاً متفاوت خواهد بود. توجه کنید که در اینجا از آزمون های مربوط به برآورد پارامترها استفاده شده است. به طور قطع در آن جا حالتی برای آزمون های وجود دارد که از تقسیم ضریب بر خطاهای معیار به دست می آید. زیر اعضای قطری ماتریس واریانس کوواریانس در یک پارامتر مقیاس ضرب شده است. سرانجام، تحلیل بیشتری از این داده ها در فصل بعدی ارائه خواهیم کرد. در عین حال، الگوی تصحیح شده را در نظر می گیریم. برای این که دیدگاهی از هریک از اثرات داشته باشیم عامل که اثر منفی دارد را در نظر می گیریم. اگر بخواهیم درجه جوش را از وسط به سطح بالا (با مقدار کد صفر) تغییر دهیم تعداد عیب ها با عاملی به اندازه کاهش می یابد.
واضح است که هریک از اثرات عامل را نمی توان بدون لحاظ کردن برهم کنش ارزیابی کرد.
2-14 متغیرهای رده بندی و تعمیم آن به الگوی ANOVA
تاکنون بحث ما حول محور تعمیم دادن به رگرسیونی متمرکز بود که متغیرهای مستقل با پیشگوها پیوسته یا دو حالتی بودند. این حالت اخیر کدگذاری کردن را بسیار راحت می کند: یک سطح را با صفر یا 1- و سطح دیگر را با 1 کدگذاری می کنیم. در تحلیلی که در مثال3 عنوان شد از متغیر ظاهری (تصنعی) که مقدار آن برای یک فشار 1 و برای فشار دیگر صفر بود استفاده کردیم.
تکنیک های مورد بحث در این زمینه را به الگوهای تحلیل واریانس (ANOVA) با استاندارد بیشتر نیز تعمیم می دهیم. می دانیم که از متغیر ظاهری هریک با دو سطح (صفر یا یک) برای ثبت یک متغیر رده بندی که سطح دارد می توان استفاده کرد. به این ترتیب وقتی متغیر رده بندی فقط دو سطح دارد اغلب از یک متغیر ظاهری استفاده می کنیم. با این وجود کدگذاری و تعبیر متغیرهای ظاهری حاصل وقتی تعداد سطوح برای متغیر رده بندی افزایش می یابد پیچیده تر می شود. در این وضعیت ها اکثر تحلیل گران استفاده از الگوی ANOVA را ترجیح می دهند.
مانند اکثر نرم افزارهای دیگر، PROC GENMOD از CLASS برای مشخص کردن متغیرهای رده بندی استفاده می کند. تحلیل حاصل در اصل مانند آن است که تاکنون عنوان کرده ایم.
فصل سوم
Proc GENMOD: Syntax
شما می توانید دنباله ی ذیل در رویه ی GENMOD را تعیین کنید. در داخل بخش > < کلمات اختیاری هستند.
PROC GENMOD <options>;
By Variables;
CLASS Variables;
CONTRAST 'Label' effect Values <…effect values> </options>;
DEVIANCE Variable = expression;
ESTIMATE 'Lable' effect values <…effect values> </options>;
FREQ FREQUENCY variable;
FWDLINK Variable = expression;
INV LINK Variable = expression;
LSMEANS effects </options>;
MAKE 'table' OUT = SAS-data-set
OUT PUT <OUT = SAS-data-set > <keyword = name … keyword = name>;
MODEL esponse = <effects> <options>;
Programming statements
REPEATED SUBJECT = subject – effects </options>;
WEIGHT | SUBJECT=subject – effects </options>;
VARIANCE Variance = expression;
رویه ی GENMOD توضیح روش کار را طلب می کند. همه ی توضیحات متفاوت دیگر هر دستور Model اختیاری هستند. دستور Class اگر موجود باشد باید مقدم بر دستور Model باشد و دستور CONTRAST باید بعد از دستور Model بیاید.
Proc GENMOD = Options
رویه ی GENMOD توضیح روش کار را طلب می کند. شما می توانید دنباله اختیارات ذیل را تعیین کنید.
* DATA=SAS-data-set
* DESCENDING | DESC
* NAMELEN = n
* ORDER
* RORDER
Proc GENMOD = DATA = option;
DATA = SAS – data – set
در گزینه ی DATA مجموعه داده هایی در SAS شامل داده هایی برای تحلیل در آینده تعیین می شود. اگر شما گزینه ی DATA را حذف کنید رویه باید مجموعه داده جدید را برای بکار بردن ایجاد کند.
PROC GENMOD: DESCENDING = option;
DESCENDING | DESC
در DESC گزینه ای تعیین می شود که هم تراز متغیر پاسخ برای طبقه بندی مدل چندجمله ای ترتیبی در برگرداندن از پیش فرض مرتب شده است. برای مثال اگر RORDER = FOR (پیش فرض) در گزینه ی DESCE علل هم ترازی از زیادتر به کمتر به جای از کمتر به زیادتر دسته بندی می شود.
اگر FREQ = RORDER در گزینه ی DESC علل هم ترازی از شمارش فراوانی کمتر به زیادتر بجای از زیادتر به کمتر دسته بندی می شود.
Proc GENMOD: NAMELEN = option
NAMELEN = n
در گزینه ی NAMALEN فاصله از اثر نام دارد، در جدول ها و مجموعه داده های خروجی n کاراکتری بلند تعیین می شود. در کجا n یک مقدار بین 20 و 200 کاراکتر است. فاصله پیش فرض 20 کاراکتر است.
Proc GENMOD: By Statement
By Variables;
شما می توانید یک دستور By را با Proc Genmod در فراهم آوردن تجزیه و تحلیل در بازه مشاهدات در گروه ها بوسیله ی متغیرهای By تعیین کنید. وقتی که یک دستور By ظاهر می شود Proc منتظر مجموعه داده های ورودی طبقه بندی شده صحیح از متغیرهای By می ماند. بعد از طبقه بندی، مرتبه ی داده ها تغییر می کند که به این وسیله Proc Genmod داده ها را باز می خواند. این می تواند در مرتب کردن مرتبه برای یکنواختی متغیرهای طبقه بندی شده اثر کند.
اگر شما ORDER = DATA در دستور Proc Genmod تعیین کنید این مشخصات اثرات در دستور Contrast را تغییر می دهد. اگر مجموعه داده های ورودی شما مرتب نباشد در ترتیب صعودی مرتبه از واحد تناوبی زیر استفاده می شود. طبقه بندی داده ها در Proc SORT با میل و رغبت شبیه دستور By مورد استفاده قرار می گیرد.
در دستور By گزینه ی NOT SORTED یا DESCENDING تعیین می شود. در دستور By برای Proc Genmod گزینه ی NOT SORTED نشان می دهد که داده ها طبقه بندی نیستند و میانگین ندارند. اما تا یک اندازه داده ها در گروه ها مرتب هستند. (بر طبق ارزش ها از متغیرهای By) و آن هم، آن گروه هایی که در الفبایی یا ترتیب عددی فزاینده ای لزوماً نیستند را ایجاد می کند. یک وضعیت بر روی متغیرات By در DATA SETS ، Proc استفاده می کند. برای آگاهی بیشتر بر روی دستور By به بحث در زبان مرجع SAS، مفاهیم مراجعه شود. برای آگاهی بیشتر بر روی Proc DATA SETS به بحث در راهنمای Proc SAS مراجعه شود.
PROC GENMOD: CLASS Statment
Class Variables;
دستور Class متغیرهای کلاس بندی شده برای استفاده در تجزیه و تحلیل را تعیین می کند. اگر دستور Class مورد استفاده است باید قبل از دستور Model ظاهر شود. متغیرهای کلاس بندی شده می توانند در هر یک از دو کاراکتر یا عدد وجود داشته باشند.
در این روش تنها اولین 16 کاراکتر از یک مقدار کاراکتر متغیر معتبر استفاده می شود. سطوح کلاس بندی شده بوسیله ی پیش فرض برای فرم گرفتن مقدارها از متغیرهای کلاس بندی تعیین می شوند.
مرتب کردن رتبه ها برای متغرهای Class که می توانند به وسیله ی ORDER = Option در دستور Proc GENMOD درخواست شوند متفاوت است.
PROC GENMOD: CONTRAST statement
CONTRAST 'lable' effect values <… effect values> </option>;
دستور CONTRAST یک تست بوسیله یک فرض مشخص درباره ی پارامتر مدل تهیه می کند. این بوسیله ی تعیین یک ماتریس کامل می شود و بوسیله ی امتحان کردن فرض.
محاسبه آماره مبنی بر توزیع منحنی کی دو از نسبت درستنمایی آماره یا نمره کلی آمار بوسیله ی مدل Gee و با درجه آزادی بوسیله عدد خطی مستقل ردیف ها در ماتریس تعیین می شود.
شما می توانید آمار کی دو والد بوسیله گزینه Wold در دستور CONTRAST بخواهید. عدد در دستور CONTRAST حد ندارد با آنکه شما می توانید تعیین کنید اما آنها باید بعد از دستور Model ظاهر شوند.
آمار چندین دستور CONTRAST را در یک جدول نشان می دهد.
پارامتر زیر دستور CONTRAST را مشخص می کند.
(برچسب) -Label
مقابله در Output را مشخص می کند. یک برچسب نیاز به هر مقابله مشخص شده دارد. برچسب می تواند بالای 20 کاراکتر داشته باشد و باید در تک مراجع ضمیمه شوند.
(اثر) – effect
یک اثر تعیین می شود برای آنکه دستور Model ظاهر شود مقدار عرض از مبدا می تواند مانند یک اثر استفاده شود و تفکیک یک عرض از مبدا در مدل قرار دارد. شما نیاز ندارید همه ی اثرات را که در دستور مدل قرار دارند به حساب بیاورید.
– Values (ارزش)
مقادیر ثابت هستند که عناصری از بردار وابسته به اثر هستند. سطرهایی از درست هستند و بوسیله (،) ویرگل ها تفکیک می شوند. هر ردیف برای برآوردپذیری بررسی می شوند.
* E
* SINGULAR = number
* WALD
Proc GENMOD: DEVIANCE Statement
DEVIANCE Variable = expression
شما می توانید یک توزیع احتمال متفاوت آن ها موجود در Proc Genmod با استفاده از انحراف و دستورهای واریانس تعیین کنید. شما به تعیین انحراف یا دستورهای واریانس نیاز ندارید. اگر در دستور Model از Option = DIST استفاده کنید.
مطابق با تعیین یک توزیع احتمال متغیر سهم احتمال مطابق یک تک مشاهده در Proc تعیین می کند. ولی یک نام متغیر معتبر در مجموعه داده های ورودی SAS ظاهر نمی شود. این عبارت می تواند هر دستورالعمل حسابی را که با زبان مرحله ی داده هاست تایید کند. و این در تعیین تابع وابستگی از انحراف در بازه ی میانگین و پاسخ مورد استفاده است.
متناوباً تابع انحراف می تواند با استفاده از دستورات برنامه نویسی یک متغیر تعیین کند که این پس فهرست هایی مانند عبارت است. این فرم مناسب برای استفاده دستورات پیچیده همچون بند if – then – else است. دستور انحراف بی اساس است جز اینکه دستور واریانس همچنین تعیین کننده است.
Proc Genmod: ESTIMATE Statement
ESTIMATE 'label' effect values … <options>;
دستور ESTIMATE شبیه به دستور CONTRAST است به جز تنها یک سطر 'L' ماتریس مجازی است.
هر سطر در برابر برآوردپذیری ممانعت می کند. اگر Proc Genmod یک مقایسه ی nonestimable را پیدا کند آن مقدار گمشده در ردیف های مشابه به نتایج ظاهر می شود.
برآورد واقعی نزدیک به تقریبی از خطای استاندارد و حدود اطمینان ظاهر شده آن است. Awald chi-square تست می کند که است به علاوه نزدیک کردن خطای استاندارد به وسیله برآورد ظاهر می کند. همچنان که ریشه توان دوم بوسیله که برآورد ماتریس واریانس – کوواریانس بوسیله ی پارامتر برآورد هست را محاسبه می کند.
اگر شما یک Gee Model در دستور Repeated تعیین کنید برآورد ماتریس کوواریانس تجربی است. اگر شما اختیاری تعیین کنید سپس خطای استاندارد و حدود اطمینان آن همچنین ظاهر می کند.
ترکیب به وسیله بردار برای یک دستور ESTIMATE یک قاعده ی یکسان دنبال می کند همچنانکه فهرست زیر در دستور Contrast شما می توانید دنباله ذیل اختیارات در دستور ESTIMAATE ر ابعد از یک (/) تعیین کنید.
* ALPHA = number
* E
* EXP
PROC GENMOD: FREQ statement
FREQ | FREQUENCY Variable;
متغیر در دستور FREQ یک متغیر در مجموعه داده های ورودی شامل فراوانی از پیشامد از هر مشاهده را مشخص می کند. در Proc Genmod هر مشاهده ای همچنانکه n برابر ظاهر می شود عمل می کند. اینجا n مقداری از متغیر فراوانی برای مشاهده است. اگر آن یک عدد صحیح نباشد مقدار فراوانی یک عدد صحیح ناقص هست. اگر آن کمتر از 1 یا اگر آن گمشده آن باشد مشاهده غیرقابل استفاده است.
Proc GENMOD: FWLINK Statement
FWDLINK Variable = expression
شما می توانید یک تابع پیوند متفاوت موجود در داخل یک تابع پیوند بوسیله استفاده از دستور FWLINK تعیین کنید. اگر شما در دستور، Model option = LINK استفاده کنید یک تابع پیوند تعیین می کنید و شما به استفاده از دستور FWLINK نیاز ندارید. متغیر تابع پیوند را در Proc تعیین می کند. این عبارت می تواند هر دستورالعمل حساب را بوسیله ی زبان مرحله ی داده ها تایید کند و آن در تعیین وابستگی اساسی در میانگین مورد استفاده است.
متناوباً تابع پیوند می تواند با استفاده از دستورهای برنامه نویسی یک متغیر تعیین کند که این پس فهرستی مانند عبارت است. فرم دوم مناسب برای استفاده دستورهای پیچیده از قبیل بند if-then-else است.
Proc Genmod بطور خودکار مشتقاتی از تابع پیوند مورد نیاز برای تکرار مناسب را محاسبه می کند. شما باید عکس تابع پیوند را بوسیله ی تابع پیوند در دستور INV LINK تعیین کنید. وقتی شما دستور FWD LINK را تعیین می کنید. بنابر تعیین تابع پیوند شما متغیر اتوماتیک – MEAK- در نشان دادن میانگین در عبارت قبلی استفاده می کنید.
Proc Genmod : INV LINK Statement
INV LINK Variable = expression
اگر شما یک تابع پیوند در دستور FWLINK تعیین کنید پس شما باید عکس تابع پیوند مورد استفاده در دستور INV LINK تعیین کنید.
اگر شما در دستورModel، option Link = to-specify استفاده کنید یک تابع پیوند مشخص می شود و شما نیاز به استفاده از دستور INV LINK ندارید. زیرا متغیر عکس تابع پیوند را در Proc تعیین می کند. این عبارت می تواند هر دستورالعمل حسابی را بوسیله زبان مرحله ی داده ها تایید کند و آن در تعیین وابستگی اساسی در پیشگویی خطی مورد استفاده است.
متناوباً عکس تابع پیوند می تواند موارد استفاده دستورهای برنامه نویسی و متغیر تعیین کند که این پس فهرست هایی مانند عبارت است. دومین فرم برای استفاده از دستورهای پیچیده همچون بند if-then-else مناسب است.
متغیر اتوماتیک – XBETA – پیشگویی خطی در عبارت قبلی را نشان می دهد.
Proc GENMOD: LSMEANS Statement
LS Means effect </option>;
دستور LS Means کمترین مربعات بوسیله ی مقایسه با عوامل تعیین شده بوسیله ی قسمتی از پیشگویی کننده خطی از مدل را تخمین می زند. ساخت ماتریس بوسیله ی محاسبه آن ها دقیقاً با یکی ازProc GLM یکسان است.
دستور LS Means برای مدل توزیع چند جمله ای برای پاسخگویی ترتیبی داده ها قابل استفاده نیست.
هر – میانگین – LS مانند محاسبه می شود و در جایی که ضریب ماتریس همبسته در کمترین مربعات میانگین و برآورد بوسیله پارامتر بردار هست.
تقریب زدن خطای استاندارد بوسیله ی میانگین LS محاسبه می شود به عنوان مثال ریشه ی دوم از.
میانگین LS می تواند بوسیله ی هر اثر در دستور Model محاسبه شود برای آنکه متغیر را Class وارد کنید.
شما می توانید عوامل متعددی را در یک دستور LS Means تعیین کنید یا چند برابر دستور LS Means و همه دستورات LS Means باید بعد از دستور Model ظاهر شوند.
بعنوان مثال در دستور ESTIMATE ماتریس L بوسیله برآوردپذیری امتحان می شود. و اگر این امتحان قبول نشود در Proc Genmod، "Non-est" بوسیله ی وارد شدن میانگین LS نمایان می شود.
فرض می کنیم که میانگین LS قابل برآورد باشد و Proc Genmod یک آزمون کی دو بوسیله ی آزمون فرض صفر که کمیت جامعه همبسته برابر صفر است را می سازد.
شما می توانید یک دنباله اختیاری در دستور LS Means بعد از اسلش (/) را تعیین کنید.
* ALPHA
* CL
* CORR
* COV
* DIFF
* E
Proc GENMOD: MAKE statement
MAKE 'table' out = SAS – data-set;
PROC GENMOD یک نام به هر جدول که آن ایجاد کرده است اختصاص می دهد. دستور MAKE یک مجموعه داده SAS را که شامل نتایج در جدول نام برد، مانند "جدول" ایجاد می کند.
دستور MAKE برای سازگاری با Genmod در بخش 12/6 SAS به حساب می آید. شما می توانید از نام یک جدول با مراجعه به جدول استفاده کنید وقتی که هریک از دو دستور Make یا Output استفاده می کنید.
ODS روش مطابق ایجاد مجموعه داده ی SAS از Output را نشان می دهد وقتی که از دیگر PROC برای SAS استفاده می کنیم. آن در بخش SAS و آخرین SAS که گفته شده مورد استفاده است و آن بیشتر قابل تغییر نسبت به دستور MAKE است.
Proc GENMOD: Out put Statement
Out put < out = SAS – data – set> <keyword = name … keyword = name
دستور out put یک مجموعه داده SAS جدید که شامل همه متغیرها در مجموعه داده های ورودی و اختیاری را خلق می کند. برآورد پیشگویی کننده ها (XBETA) و برآورد خطای استاندارد آن ها، اوزان یا مقادیر برای ماتریس Hession و مقادیر پیش بینی شده بوسیله میانگین حدود اطمینان برای مقادیر پیش بینی شده و باقیمانده را می دهد.
شما می توانید همچنین این آمار را با OBSTATS یا گزینه ی XVARS یا CL، Residuals و Predicten در دستور Model درخواست کنید.
شما می توانید سپس یک مجموعه داده SAS شامل آن ها را با فرمان ODS Output خلق کنید.
شما ممکن است ترجیح بدهید که دستور Output بوسیله درخواست این آمار تعیین کنید.
دستور Output عمل نمی کند یا تولید نمی کند جدول (فهرست) Output.
دستور Out put عمل می کند یا تولید می کند یک مجموعه داده SAS که کامل تر از ODS است. این می تواند برای یک مجموعه داده وسیع مفید باشد. شما می توانید یک آمار اختصاصی که شامل مجموعه داده SAS تعیین کنید.
اگر شما از توزیع چند جمله ای با یکی از توابع پیوند تجمعی بوسیله داده ترتیبی و مجموعه داده ها نیز شامل نام متغیرها – رتبه و تراز برای آنکه نشان دهد تراز بوسیله متغیر جواب عدد ترتیبی و مقادیر بوسیله متغیر مجموعه داده های ورودی مشابه را ترازگونه استفاده کنید. این متغیرها نشان می دهند که مقادیر محاسبه شده برای یک مشاهده معین احتمالی است که متغیر پاسخ مقداری بزرگتر از مقدار متغیر باشد.
برآورد خطی پیشگویی کننده برآورد خطای استاندارد شده و مقادیر محاسبه شده و فاصله اطمینان آن ها بوسیله ی همه مشاهدات که بیانگر متغیرهایی که همه nonmissing هستند حتی اگر جواب و پاسخ گمشده باشد حساب می شود. بوسیله اضافه کردن مشاهدات با مقادیر پاسخ گمشده به مجموعه داده های ورودی شما می توانید این آمار را برای مشاهدات جدید یا برای محیطی که بوسیله ی متغیرهای توضیحی ارائه نشده در داده ها بی نتیجه برازش مدل محاسبه کنید. متن زیر مشخصات ردر دستور output را شرح می دهد:
* Out = SAS – data – set
* Key word = name
Proc GENMOD = Model statement
MODEL response = <effects> < /option>;
MODEL events / trials = <effects> </option>;
دستور Model پاسخ یا متغیر وابسته و اثر یا متغیر توضیحی را تعیین می کند. اگر شما متغیرهای توضیحی را حذف کردید روش کار فقط در مدل عرض از مبدا را می دهد. مدل شامل یک دوره عرض از مبدا توسط پیش فرض است.
عرض از مبدا می تواند با گزینه NOINT برداشته شود. شما می توانید شکلی از یک متغیر ساده یا شکلی از یک نسبت از دو متغیر تفکیک شده آزمایش ها را تعیین کنید. شکل اول برای همه ی پاسخ ها قابل اجراست. شکل دوم فقط برای پاسخ داده ی دوجمله ای خلاصه شده قابل اجراست.
وقتی بررسی در مجموعه داده ها صورت می گیرد گروه شامل تعدادی از آزمایش هاست. برای مثال موفقیت ها و تعدادی از آزمایش ها از یک گروه از ترکیب آزمایش های دوجمله ای بکار می رود.
در ترکیب مدل آزمایشی شما دو متغیر که محتوی آزمایش Counts تعیین می کنید. این دو متغیر توسط یک ممیز (/) جدا شده اند. مقدار هر دو آزمایش باید غیرمنفی و مقدار متغیرهای آزمایشی باید بزرگ تر از صفر باشد.
برای یک بررسی قابل قبول بودن متغیر آزمایشی ممکن است مقدار noninteger را بگیرد.
وقتی بررسی روی مجموعه داده های ورودی شامل یک آزمایش ساده از یک آزمایش دوجمله ای یا چند جمله ای انجام گرفت. اولین شکل مدل بیان شده در بالا رخ می دهد. پاسخ متغیر می تواند عددی یا علامتی باشد.
مرتب سازی سطح و پاسخ را در این مدل ها بحرانی است. شما می توانید گزینه ی RORDER بیان شده در PROC GENMOD برای تعیین سطوح مرتب سازی پاسخ بکار ببرید.
پاسخ ها برای توزیع پواسن باید قطعی باشند اما آن ها باید دارای مقدار یا ارزش noninteger باشند.
اثرات در مدل بیان شده عبارتند از یک متغیر توضیحی یا ترکیب متغیرها. متغیرهای توضیحی می توانند پیوست یا طبقه بندی شده باشند. متغیرهای طبقه بندی شده می توانند علامتی یا عددی باشند. متغیرهای توضیحی بصورت اسمی یا طبقه بندی شده نمایش داده می شوند. داده ها باید در یک سطح اظهار شده شناسایی شده باشند. تعامل این متغیرها می تواند همچنین به عنوان اثرات شامل شود. ستون ها بوسیله ی ماتریس طرح برای طبقه بندی متغیرها و اثرات متقابل بطور خودکار تولید شده اند.
عبارت برای تعیین مشخصات از اثرات بطور یکسان برای رویه ی GLM است.
شما می توانید دنباله ی ذیل را در دستور Model بعد از (/) تعیین کنید.
AGGREGATE = (Variable – List)
ALPHA /ALPHA/=number
CONVERGE = number
CL
COVB
CORRB
EXPECTED
DIST /D | ERROR | ERR=Keyword
INITIAL = number
ID = Variable
LTPRINT
INTERCEPT = number
LRCI
LINK = Keyword
NOINT
MACITER = number
OFFSET = Varable
NOSCALE
PREDICTED
OBSTATS
SCALE = number
RESIDUALS
SINGULAR = number
SCORING = number
TYPE 3
TYPE 1
WALD CI
WALD
XVARS
Proc Genmod: Repeated Statement
Repeated SUBJECT = Subject – effect <options>;
دستور Repeated ساختار کوواریانس بوسیله پاسخ های چندمتغیری برای برازش مدل GEE در Proc Genmod تعیین می کند. بعلاوه دستور Repeated الگوریتم برازش تکراری استفاده شده در GEE را کنترل می کند و Output اختیاری را تعیین می کند. دیگر دستورات Proc Genmod از قبیل Model و دستور Class به همان اندازه مورد استفاده هستند به طوری که آن ها مدل خطی تعمیم یافته متداول در تعیین مدل رگرسیون بوسیله میانگین از پاسخ هستند.
Subject = subject – effect
موضوع ها در مجموعه داده های ورودی مشخص می شوند. نتیجه موضوع می تواند یک متغیر تنها و یک اثر متقابل و یک اثر تودرتو یا یک ترکیب باشد.
هر مقدار مشخص یا سطح از اثر یک موضوع متفاوت تعیین می کند. پاسخ ها از موضوع های مختلف فرضی از رده آمار مستقل اند و پاسخ ها مطابق موضوع ها فرضی همبسته خواهند بود.
یک نتیجه موضوع باید تعیین شود و متغیر در معنی کردن نتیجه موضوع که باید در دستور Class لیست شود استفاده می شود. مجموعه داده های ورودی نیاز به مرتب شدن بوسیله ی موضوعی ندارند. (لازم نیست بوسیله ی موضوع مرتب شوند). گزینه ی SORTED را می بینیم که مدل کیفیت گزینه های کنترل مناسب هست و چه مقدار خروجی تولید می کند. شما می توانید گزینه های زیر را بعد از (/) تعیین کنید.
ALPHA INIT = numbers
CONVERGE = number
CORRW
CORRB
COVB
ECORRB
ECOVB
INTERCEPT = number
INITIAL = numbers
LOGOR = Log odds ratio
MAXITER = number
Keyword
MCOVB
MCORRB
RUPDATE = number
MODELSE
SUBCLUSTER = Varibale
SORTED
VGCORR
TYPE | CORR = Correlation – structure
YPAIR = Variable – List
Keyword
ZROW = Varibale – List
WITHINSUBJECT | WIGHTIN = within
Subject – effect
ZDATA = SAS – data – set
Proc GENMOD: WEIGHT Statement
WEIGHT ISCWGT Variable;
دستور WEIGHT یک متغیر در مجموعه داده های ورودی را تعیین می کند. به عنوان مثال در خانواده ی نمایی پراکندگی وزن پارامتر برای هر مشاهده مورد استفاده واقع می شوند. در خانواده نمایی پراکندگی پارامتر بوسیله مقدار متغیر وزنی برای هر مشاهده تقسیم شده است.
این صحیح است قطع نظر از اینکه خواه پارامتر بوسیله Proc برآورد شده است یا در دستور Model با SCALE = option تعیین شده است. آن همچنین برای توزیع ها از قبیل پواسن و دوجمله ای درست است که معمولاً دارای پراکندگی پارامتر معین نیستند. برای این توزیع ها یک متغیر وزنی سنگین در بیش پراکنش پارامتر است که این مقدار در پیش فرض یک است.
متغیر وزنی عدد صحیح ندارد اگر کمتر یا مساوی صفر یا اگر آن گمشده باشد. آنگاه مطابق مشاهده مورد استفاده نیست.
Proc Genmod: VARIANCE Statement
VARIANCE Variable: expression
شما می توانید یک توزیع احتمال متفاوت موجود در داخل به توزیع بوسیله ی استفاده از دستورهای واریانس و انحراف معیار تعیین کنید. نام متغیر تابع واریانس در Proc تعیین می کند. عبارت در تشخیص وابستگی اساسی در بازه میانگین مورد استفاده است. آن می تواند هر دستورالعمل حسابی را بوسیله ی زبان مرحله داده ها تایید کند.
شما متغیر اتوماتیک – میانگین – بوسیله بیان کران میانگین در عبارت استفاده می کنید.
متناوباً شما می توانستید تابع واریانس را با دستور برنامه نویسی مشخص کنید. این فرم برای استفاده از دستور پیچیده از قبیل بندهای if-then- else مناسب است.
مشتقاتی از تابع واریانس برای استفاده در هنگام بهینه سازی محاسبات خودکار هستند.
دستور انحراف نیز باید ظاهر شود وقتی که دستور واریانس مورد استفاده در تابع واریانس تعریف می شود.
اجرای رگرسیون پواسن بصورت منویی در SAS:
ابتدا داده های موردنظر را وارد کرده بعد از ورود داده ها، مراحل زیر را انجام می دهیم:
نام داده های موردنظر
حال برای انجام رگرسیون پواسن بصورت منویی به شیوه ی زیر عمل می کنیم:
در پنجره ی، را در قسمت مشخص شده و را در قسمت قرار می دهیم. اگر متغیر Class بندی شده داشتیم در قسمت Group آن را قرار می دهیم. حال گزینه ی Method را انتخاب کرده، در این پنجره نوع توزیع که Poisson و نوع تابع که Log است را انتخاب می کنیم. بعد روی گزینه Ok کلیک و پنجره ی باز می گردیم در اینجا Output را زده و موارد مورد استفاده را انتخاب می کنیم در آخر گزینه ی Ok را زده و خروجی را می بینیم.
منابع و مآخذ:
1- مقدمه ای بر الگوهای خطی تعمیم یافته، تالیف: آنت جی دابسون ترجمه: دکتر حسینعلی نیرومند
2- الگوهای خطی تعمیم یافته با کاربردهای آن در مهندسی و علوم، تالیف: ریموند اچ. میرز – داگلاس سی. منتگمری. جی جئوفری وینینگ ، ترجمه : دکتر حسینعلی نیرومند
1 Condra
2 Hamda & Nelder
—————
————————————————————
—————
————————————————————
70
فصل اول