نکات روان سنجی (الف: پایایی)
در این مقاله با تفصیل به مفاهیم پایایی و اعتبار پرداخته ایم . این بررسی برای دستیابی به یک درک مناسب از چشم انداز و محدودیتهای روشهای ارزیابی مختلف ضروری است. در عین حال، عوامل نامربوط نظامدار یا تحریفهای پاسخ نیز مورد بحث قرار گرفته اند. این تحریفها که بر کاربرد شیوه های ارزیابی شخصیت اثر می گذارند، مشکل کوششهای عمدی و حتی ناهشیار را برای ایجاد یک تأثیر مطلوب (یا نامطلوب) در دیگران در بر می گیرند.
پایایی، همان طوری که از نام آن بر می آید، به قابلیت تکرار یا اعتماد یک اندازه یا شاخص مربوط می شود. به عنوان یک مثال بسیار ساده، می توان گفت که دیروز ما قد یک کودک را اندازه گرفته و مقدار 122/68 سانتی متر را به دست آورده ایم. ولی امروز فرد دیگری قد همان کودک را اندازه گرفته و مقدار 122/93 سانتی متر را گزارش کرده است. این دو مقدار تا اندازه زیادی با یکدیگر هماهنگ هستند؛ یعنی، ما نوعی اندازهگیری اولیه از قد کودک را در نظر گرفته ایم که در بررسی مجدد تأکید یا تکرار شده است. این 0/25 سانتی متر اختلاف، این واقعیت را نشان می دهد که تکرار اندازه گیریها تقریباً همواره تا اندازه ای ثبات یا پایایی دارد و پذیرش این نتیجه از جانب ما نشان می دهد که این بی ثباتی به اندازه ای نیست که سودمندی آن را انکار کنیم. بدین ترتیب، اختلاف 0/25 سانتی متر تحت این شرایط به اندازه ای ناچیز است که می توان آن را بی اهمیت تلقی کرد. با وجود این، در سایر اندازه گیریهای فیزیکی این سطوح تحمل بسیار کم هستند، مانند سیلندر موتور که این تفاوت، اهمیت بسیاری دارد و سطح بالاتری از پایایی اندازه گیری مورد نیاز است.
پایایی همان دقت نیست. دقت به میزان صحتی اشاره می کند که اندازه گیری را بر اساس آن می توان مشخص کرد؛ بدین ترتیب، یک شیوه اندازه گیری که به ما امکان می دهد تا نتایج را بر اساس یک هزارم سانتی متر گزارش کنیم، دقیقتر از آن اندازه گیری است که نتایج را بر اساس یک دهم سانتی متر به دست می دهد. درجه دقت یک ابزار مکانیکی که امکان اندازه گیری 2/432 را فراهم می سازد، یک هزارم سانتی متر است، ولی اگر تحت شرایط یکسان این وسیله، مقدار 2/381 سانتی متر را به دست دهد، پایایی این اندازه گیری به هیچ وجه منطبق با دقتی نخواهد بود که این ابزار از آن برخوردار است.
این ویژگی که اندازه گیریها را باید "به اندازه کافی دقیق" انجام داد، در ارزیابی شخصیت نیز کاربرد دارد. اندازه گیری شخصیت در مقایسه با اندازه گیری خصوصیات فیزیکی مانند قد، همیشه نسبتاً فاقد دقت است؛ و بنابراین، تا اندازه ای ناپایاست. بدین ترتیب، میزان دقت یک ابزار ارزیابی شخصیت باید با پایایی آن همخوانی داشته باشد. برای کسانی که از چنین ابزارهایی استفاده می کنند معمولاً میزان شاخص پایایی مشخص شده است. ما مجدداً در یک فرصت مناسب به موضوع پایایی باز خواهیم گشت.
اندازه گیری شخصیت دارای شکل دیگری نیز هست که در اندازه گیریهای فیزیکی به چشم نمی خورد و آن به استانداردهای مورد قبولی مربوط می شود که بر اساس آنها اندازه گیریها صورت می گیرند. هیچ تردیدی وجود ندارد که یک یاردسنج (یا یک مترسنج) برای اندازه گیری فواصل خطی مانند قد مناسب است. با وجود این، در ارزیابی شخصیت، غالباً سؤالهایی درباره صحت و دقت ابزارهای اندازه گیری به منظور ارزیابی بُعد یا ویژگی مورد بررسی مطرح می شوند. برای مثال، آیا واقعاً می توان افسردگی را با شمارش پاسخهای رنگی به موارد بی رنگ در آزمون رورشاخ اندازه گرفت؟ در این مورد، نه تنها سؤال مربوط به شمارش پایای این پاسخها مطرح است، بلکه شکل دیگر و جدی تر این است که آیا شمارش پاسخهای رنگ به اندازه گیری درستی از افسردگی می انجامد، درست به همان شیوه ای که علایم مندرج یاردسنج به شاخص معتبری از قد منجر می شود (صحت یا اعتبار ابزارهای اندازه گیری مورد استفاده در اندازه گیریهای فیزیکی که درجات بسیار بالایی از دقت لازم را دارد، مشکلات چندی ایجاد کرده است.)
چون پیش از آنکه بتوانیم تعیین کنیم که آیا اندازه گیری در واقع به مفهوم مورد نظر مربوط می شود یا خیر، باید از پایایی مناسب برخوردار باشد، ابتدا به بحث درباره پایایی می پردازیم. معیارهای آزمون تربیتی و روان شناختی که یک راهنمای عملی برای پایایی و اعتبار است، برای چندین سال توسط انجمن روان شناسی آمریکا انتشار یافته است (برای مثال، انجمن پژوهش تربیتی آمریکا- انجمن روان شناسی آمریکا- شورای ملی اندازه گیری در تربیت، 1985) و تمام افرادی که فعالانه در ساختن ابزارهای اندازه گری شخصیت و کاربرد آنها شرکت دارند، باید این راهنما را به دقت مطالعه کنند. کتاب راهنمایی که به منظور استفاده ویژه در زمینه انتخاب استخدامی به کار می رود و با این کتاب راهنما قابل مقایسه است، توسط شاخه روان شناسی صنعتی- سازمانی انجمن روان شناسی آمریکا (1980) منتشر شده است. در این کتاب راهنما توجه خاصی به موارد اعتبار و پایایی و تهیه ملاکها مبذول شده است و منبع مرجع سودمندی در این زمینه ها محسوب می شود.
پایایی
پایایی به قابلیت تکرار یا قابلیت اعتماد اندازه گیری اشاره دارد. در یک موقعیت فرضی که روش اندازه گیری کاملاً پایاست، فرض می شود که هر گونه تغییری در اندازه گیری حاصل نشان دهنده یک تغییر واقعی در صفت مورد مطالعه است. بدین ترتیب، در چنین نظامی، افزایش یک کیلوگرم در مقیاس نشان خواهد داد که وزن شیء مورد نظر دقیقاً یک کیلوگرم زیاد شده است؛ به همین ترتیب، افزایش نمره حاصل از یک مقیاس افسردگی نشان خواهد داد که پاسخ دهنده در حال حاضر افسردگی بیشتری دارد. پایایی یک اصطلاح کلی است؛ اصطلاحهای همسانی و ثبات به ترتیب برای توصیف پایایی وابسته به ابزار و پایایی مربوط به زمان به کار می روند.
همسانی به میزان توافقی اشاره می کند که از به کارگیری دو یا چند ابزار اندازه گیری (یعنی، مقیاسها، خط کشها یا آزمونها) حاصل می شود. هر گونه ابزار اندازه گیری یا مجموعه ابزارها را می توان برگرفته از جامعه گسترده ای از این ابزارها (چه واقعی یا چه فرضی) در نظر گرفت که می توان از آنها برای اندازه گیری این صفت خاص استفاده کرد. همسانی معمولاً با به کارگیری یک آزمون یا آزمونهای همزمان دیگر مورد ارزشیابی قرار می گیرد که ترجیحاً به طور تصادفی از جامعه در دسترس اندازه گیریها انتخاب می شوند. اگرچه این موضوع در اندازه گیری ابعاد فیزیکی مانند قد یا وزن به مشکلات اندکی می انجامد، ولی با این حال، مشکلات چندی را در ارزیابی شخصیت ایجاد می کند. ما به زودی این مشکلات را مورد بررسی قرار خواهیم داد.
ثبات به دقت اندازه گیری حاصل با گذشت زمان اشاره دارد. چنانچه از ابزار دیگری برای اندازه گیری مجدد استفاده شود، بازآزمایی با گذشت زمان علاوه بر ثبات، همسانی را نیز شامل می شود. هرگاه در دو بار اندازه گیری از یک ابزار استفاده شود، ارزیابی مستقیم ثبات اندازه گیری را می توان انجام داد. بدین ترتیب، ناتوانی در رسیدن به پایایی کامل به واسطه ناهمسانیها یا خطاهایی است که تابع تغییرات حاصل در نظام مورد نظر با گذشت زمان یا تابع تغییرات مربوط به ابزار مورد نظر و یا هر دو هستند.
به طور کلی، پایایی به شواهد مختلفی اشاره می کند که در صدد توصیف یک توافق کلی میان عملیات اندازه گیری هستند. هر کدام از این شواهد بر منبع معینی از عدم توافق یا خطا تأکید می کند و بقیه منابع را نادیده می گیرد. اندازه گیری شخصیت شامل گرفتن نمونه ای از رفتار در یک زمان و روز معین در قبال مجموعه معینی از محرکهاست. البته این پاسخها باید بر طبق یک شیوه معین توسط یک آزماینده خاص ثبت شوند. بعضی از خطاهای نمونه گیری با هر کدام از این "موارد خاص" رابطه دارند. این زمان خاص نمونه ای از یک دوره زمانی است و این مجموعه خاص از محرکها یا سؤالها نمونه ای از یک دسته واقعی یا فرضی از محرکها در دسترس است. بسیار اهمیت دارد که بتوانیم مشخص کنیم که یک پاسخ یا نمره خاص، احتمالاً تا چه اندازه به عنوان تابعی از تغییرات در هر کدام از این خصوصیات اندازه گیری تغییر می کند. متأسفانه، این نوع اطلاعات به ندرت در ارزیابی شخصیت به چشم می خورد.
بررسی کتاب های درسی در زمینه نظریه روان سنجی (برای مثال گیزلی(807)، 1964؛ نانالی(808)و برنشتاین(809)، 1994) نشان می دهد که فرضهای فلسفی متخصصان در زمینه مبنای اندازه گیری روان شناختی با یکدیگر متفاوت است. این تفاوتها در فلسفه به تفاوتهای چندی در توصیف دقیق مفهوم و معنای پایایی و تفاوتهایی در شیوه های پیشنهادی برای اندازه گیری پایایی یک شاخص انجامیده است. در این فصل، ما می کوشیم تا مسیر میانه ای را از میان رویکردهای مختلف برگزینیم و در عین حال، علاوه بر موضوعهایی که فراتر از طیف این کتاب قرار می گیرند، از ناهمسانیها نیز اجتناب کنیم.
ما با این نکته شروع می کنیم که پایایی به طور تنگاتنگی با مفهوم خطای اندازه گیری رابطه دارد. خطاهای اندازه گیری را می توان به صورت منظم یا تصادفی در نظر گرفت. هرگاه ما زمان را از روی ساعتی مشاهده کنیم که همواره پنج دقیقه جلوست، مرتکب یک خطای منظم شده ایم. از طرف دیگر، هرگاه این ساعت درست ولی به اندازه ای دور از ما قرار گرفته باشد که ما نتوانیم عقربه دقیقه شمار را بخوانیم، مرتکب یک خطای تصادفی شده ایم. خطاهای منظم را می توان به صورت خطاهایی در نظر گرفت که با اشتباههای معلوم رابطه دارند؛ و خطاهای تصادفی را که به متوسط نمره درست یا مطلق گرایش دارند، می توان زمانی به صورت "موارد نامعلوم" در مشاهده در نظر گرفت که تمام خطاهای منظم شناسایی یا حذف شده باشند.
به عبارت دیگر، خطاهای اندازه گیری تصادفی با روش اندازه گیری "شکل می گیرند"، درست مانند زمانی که می کوشیم با یک خط کش که تنها با اینچ مدرج شده است با تقریب یک دهم اینچ اندازه گیری کنیم یا هنگامی که سعی می کنیم "افسردگی" را با یک پرسشنامه مداد و کاغذی کلی که فاقد ویژگیهای بالینی ضروری افسردگی است، ارزیابی کنیم. برخلاف این خطاهای تصادفی که اجتناب از آنها مشکل است، خطاهای منظم مشخص تر و صحیح تر هستند. به یک معنا، خطاهای منظم ناشی از سازنده یا استفاده کننده آزمون هستند تا اینکه به خود ابزار اندازه گیری برگردند. هرگاه ما یک مقیاس افسردگی را روی آزمودنیهایی اجرا کنیم که در یک فرهنگ (یا خرده فرهنگ) متفاوت زندگی می کنند در مقایسه با آزمودنیهایی که از هنجارهای مناسبی برخوردارند، یا هرگاه دستورالعملهای فشارزایی را به کار ببریم که آشکارا از دستورالعملهای مربوط به جامعه هنجاری متفاوت باشند، در معرض خطای منظم قرار خواهیم داشت. این خطاهای منظم بالقوه را می توان و البته باید با تنظیم هنجارهای جدید مبتنی بر گروه فرهنگی مناسب یا شرایط دیگر سنجش تصحیح کرد.
نظریه پردازان روان سنجی در کوششهای خود برای به کمیت درآوردن پایایی، به طور سنتی به مشخص کردن سهم خطاهای تصادفی در پایایی کم پرداخته اند. عقاید آنها درباره اینکه آیا باید خطاهای منظم را نیز به عنوان منبع ناپایایی اندازه گیری در نظر گرفت با یکدیگر اختلاف دارد، و از این رو، ماحصل این اختلاف عقیده در شاخص عددی پایایی انعکاس یافته است. تعدادی از شاخصهای متداول پایایی نشان دهنده خطای تصادفی هستند؛ و تعدادی نیز بعضی از منابع خطای منظم و نه تمام آنها را نشان می دهند. در نسخه تجدیدنظرشده جدیدتر معیارهای سنجش تربیتی و روان شناختی (1985) با تصدیق این موضوع که روشهای مختلف محاسبه پایایی، شامل منابع مختلف خطا هستند، توصیه شده است که پژوهشگران باید دقیقاً روشن کنند، چه روشهایی را در به دست آوردن شاخص پایایی خاص مورد نظر به کار برده اند.
اکنون به روشهای متداول محاسبه پایایی توجه کنید. شاخص سنتی پایایی، ضریب پایایی است که می توان آن را هم به عنوان همبستگی بین نمره های واقعی آزمون و نمره های "واقعی" فرضی و هم به عنوان متوسط همبستگی بین نمره های واقعی آزمون و سایر آزمونهای احتمالی که همان خصوصیت را اندازه می گیرند، در نظر گرفت. رویکردهای عملی زیر که برای محاسبه پایایی به کار می روند، با این تعریف شباهت دارند.
همان طوری که قبلاً اشاره کردیم، آن نوع پایایی که صرفاً با خطای تصادفی رابطه دارد (خطاهای ناشی از این واقعیت که محتوای آزمون صرفاً نمونه ای از کل محتواست که ویژگی مورد نظر را در بر می گیرد)، ثبات یا ثبات درونی آزمون نادیده می شود. ثبات را می توان به شیوه های مختلف ارزیابی کرد. یک روش، تقسیم آزمون به دو نیمه قابل مقایسه است که با یکدیگر همبسته هستند. بدین ترتیب، همبستگی حاصل با استفاده از فرمولی که فرمول پیشگویی اسپیرمن - براون نامیده می شود، با توجه به ارزش مورد انتظار برای کل آزمون "تصحیح" می شود. چنین برآوردی از ثبات که با مقایسه ماده های زوج و فرد آزمون به دست می آید، ثبات پایایی از طریق دو نیمه کردن نامیده می شود. روش دیگر، تعیین ثبات از طریق کاربرد نسخه های مشابه یا جانشین (یا موازی) آزمون است. همبستگی بین این نسخه ها اساساً با همبستگی تصحیح شده بین دو نیمه آزمون مطابقت می کند. هنگامی که نسخه های جانشین در دسترس نباشند، راه حل رایج، استفاده از روش بازآزمایی است. همبستگی بین این دو مجموعه از نمره ها ضریب پایایی بازآزمایی نامیده می شود.
یکی دیگر از روشهای محاسبه پایایی که از لحاظ آماری تا اندازه ای پیچیده تر است، با استفاده از فرمول پایایی کودر- ریچاردسون صورت می گیرد (کودر و ریچاردسون، 1937). مهمترین اجزای این فرمول شامل درصد ماده های نمره گذاری شده به شیوه ای خاص، همبستگیهای بین ماده ها و نمره کل و انحراف معیار آزمون است. این داده ها در فرمولی قرار می گیرند که برآورد خوبی از ثبات را به دست می دهد، به شرطی که آزمون مورد نظر تنها یک عامل آماری را اندازه گیری کند. متداولترین ضریب پایایی از این دست که ضریب آلفا (کرونباخ، 1951) نامیده می شود، "میانگین تمام ضرایب دو نیمه سازی حاصل از نیمه های مختلف آزمون است (آناستازی، 1988)، قطع نظر از اینکه این ماده ها دوارزشی یا چندارزشی هستند". دشواریهای این روش فراتر از دامنه این کتاب هستند، ولی با این حال، این روشها در بسیاری از کتابهای درسی روان سنجی مورد بحث قرار گرفته اند.
همبستگیهای بازآزمایی و نسخه های جانشین اطلاعاتی را فراتر از ثبات آزمون به دست می دهند. چنانچه آزمودنیها در هنگام اجرای آزمون مجدد، پاسخ بعضی از ماده ها را به یاد آورند، امکان دارد که همان پاسخها را صرفاً بر اساس حافظه بدهند؛ یعنی، یک اثر منظم که ممکن است به افزایش ساختگی این همبستگی بینجامد. یا همان طوری که قبلاً بدان توجه شد، شرایط اجرای یک جلسه آزمون از یک نوبت به نوبت بعدی ممکن است تغییر کند و این امر به منابع ناشناخته خطای منظم می انجامد. یا آزمودنیها ممکن است خصوصیتی را که اندازه گیری می شود تغییر دهند، در چنین شرایطی از میزان ضریب پایایی کاسته می شود.
در عمل از کدام روش محاسبه ضریب پایایی باید استفاده کرد؟ یک پاسخ ساده این است که ضریب پایایی باید انواع مختلف خطاهایی را که استفاده کننده آزمون به آنها علاقه مند است، انعکاس دهد. بنابراین، هرگاه ما در اندازه گیری یک مفهوم به پایایی آزمون علاقه مند باشیم، شاخص ثبات (آلفای کرونباخ یا دو نیمه سازی) مناسب خواهد بود. چنانچه در اجراهای مکرر و تحت شرایط مختلف به ثبات آزمون توجه نشان دهیم، آن گاه پایایی بازآزمایی یا نسخه های جانشین از مناسبت بیشتر برخوردار خواهند بود. در شرایط آرمانی، سازنده آزمون هر دو مجموعه از داده ها را فراهم خواهد ساخت.
حدود قابل قبول ضرایب پایایی کدام اند؟ برای پاسخ به این سؤال، ما باید به شیوه ای توجه کنیم که بر اساس آنها، این ضرایب را می توان در عمل به کار برد. معمولاً، کلید اصلی به خطای معیار اندازه گیری مربوط می شود؛ کمیتی که مستقیماً از روی ضریب پایایی و انحراف معیار نمره های حاصل به دست می آید. اگر ضریب پایایی را با r و انحراف معیار را با s نشان دهیم، خطای معیار اندازه گیری را می توان با توجه به فرمول sرادیکال r-1 محاسبه کرد. برای نشان دادن معنا و کاربرد خطای معیار اندازه گیری، مقیاس Sc مربوط به MMPI را در نظر بگیرید. برآوردهای ثبات درونی (ضرایب همبستگی دو نیمه آزمون) این مقیاس در حدود 0/91 گزارش شده است (دالستروم(810)، ولش(811) و دالستروم، 1975، ص 260). انحراف معیار تمام مقیاسهای MMPI برای نمره های مقیاس بندی شده برابر با 10 است. حال خطای معیار اندازه گیری را می توان از فرمول یاد شده محاسبه کرد که برابر است با 10 رادیکال 0/9-1 یا 3؛ یعنی، می توان گفت که هرگاه امکان اجرای این آزمون به دفعات بسیار زیاد وجود داشته باشد، متوسط نمره های Sc حاصل برابر با نمره های "واقعی" می شود، ولی این نمره ها با انحراف معیار 3 پیرامون این میانگین توزیع می یافتند.
اگر توزیع نمره ها کاملاً نامتقارن نباشد، تقریباً دوسوم نمره ها در داخل یک انحراف معیار نسبت به میانگین قرار می گیرند. بنابراین، احتمال اینکه نمره حاصل از هر اجرای آزمون معین در سه واحد نسبت به نمره "واقعی" قرار گیرد، حدود دوسوم است. به عبارت دیگر، اگر یک پاسخ دهنده در مقیاس Sc نمره 55 را کسب کند؛ احتمال اینکه نمره "واقعی" در سه واحد نمره 55، یعنی، 52 و 58 قرار گیرد، دوسوم است. با همین استدلال، از آنجایی که حدود 95 درصد نمره های یکتوزیع کاملاً متقارن در دو انحراف معیار نسبت به میانگین قرار می گیرند، 95 درصد یا 19 مورد از 20 مورد احتمال وجود دارد که نمره واقعی پاسخ دهنده در فواصل 6 واحدی نمره 55، یعنی بین 49 و 61 قرار گیرد.
همان طوری که تا اندازه ای در مورد مقیاس D آزمون MMPI صادق است، فرض کنید که مقدار این ضریب پایایی (دو نیمه سازی) به جای 0/91 برابر با 0/75 باشد (دالستروم، ولش و دالستروم، 1975، ص 260). با توجه به انحراف معیار 10، این فرمول مقدار خطای معیار اندازه گیری را برابر با 10 رادیکال 0/75-1 یا 5 نشان می دهد. این موضوع در عمل به معنای آن است که هرگاه پاسخ دهنده ای در مقیاس D نمره 60 را به دست آورده باشد، و ما بخواهیم دامنه ای را چنان تعیین کنیم که با احتمال 95 درصد نمره "واقعی" را در برگیرد، این دامنه باید بین 50 تا 70 باشد. هر چقدر ضریب پایایی کمتر باشد، میزان اعتمادی را که می توان نسبت به نمره به عنوان برآوردی از میزان "واقعی" خصوصیتی داشت که پاسخ دهنده آن را داراست، کمتر است.
نظریه تعمیم پذیری
در سال 1964، ریموند بی.کتل(812) سه روش عمده را مطرح کرد که بر اساس آنها "اثبات آزمون" را می توان اندازه گیری کرد (البته وی این اصطلاح کلی را بیشتر از اصطلاحهای دیگر ترجیح می داد). اولین روش، ثبات و توافق نمره ها در دفعات متوالی اجراست؛ یعنی، تغییراتی که در یک آزمون و روی یک گروه از افراد در زمانهای مختلف صورت می گیرد. کتل این ثبات را "پایایی" نامید. دومین نوع ثبات به آزمونهای مختلف ( یا بخشهای یک آزمون که معمولاً ماده های انفرادی هستند) بر می گردد و شامل توافق مربوط به یک بار اجراست که با استفاده از چند آزمون (یا بخشهای آزمون) روی یک گروه از افراد صورت می گیرد. این ثبات "همگنی" نامیده می شود. نوع سوم ثبات به افراد مختلف بر می گردد و شامل توافقی است که در مورد معنای نمره های یک آزمون که در یک زمان معین روی مجموعه های مختلفی از افراد اجرا شده است. این نوع ثبات "انتقال پذیری" ( یا سرسختی) نامیده می شود.
در یک رویکرد مشابه، کرونباخ، گلیزر(813)، ناندا(814) و راجارتنام(815) (1972) فرض کردند که اساسی ترین موضوع در پایایی، سؤال مربوط به تعمیم دادن مشاهده ها یا اندازه گیریها به طبقه دیگری از مشاهده هاست. بنابراین، به نظر آنها پایایی باید به بررسی میزانی مربوط شود که بر اساس آن، نمره های حاصل، معرف نمره های به دست آمده از شرایط دیگر یا "مجموعه های مرجع" مختلف است. مثالها مطالعه نمره های حاصل از نمره گذاران مختلف، ماده های آزمون، روشها، مشاهده کننده ها یا دفعات مختلف را در بر می گیرند. همان طوری که در یک بحث دقیق درباره این روش توسط ویگینز(1973) مورد تأکید قرار گرفت، یکی از مزیتهای اصلی این روش در آن است که پژوهشگران را وا می دارد که در خصوص مجموعه مرجع خاصی که مایل اند مشاهده های خودشان را بدان تعمیم دهند، صریح و روشن باشند. این امر تا اندازه ای از تمایز سنتی بین پایایی و اعتبار می کاهد. جونز(816)، رید(817) و پترسون(1975) در نظام کدگذاری رفتاری خودشان، مثال خوبی را در زمینه مطالعه کمّی تعمیم پذیری گزارش کردند. در این مطالعه، آزمودنیها، مشاهده کنندگان و دفعات مختلف، مجموعه های مرجع تعمیم بودند.
پایایی و فنون فرافکن
نمره های کمّی حاصل از آزمونهای فرافکن چنانچه با روشهایی که توصیف شدند ارزیابی شوند، اغلب پایایی اندکی دارند. از آنجایی که پایایی یک اندازه یا شاخص، حد بالایی را بر سودمندی بالقوه یا اعتبار آن تحمیل می کند، پایاییهای کم اغلب در بررسیهای پژوهشی روی این آزمونها مسئول اعتبارهای پایین قلمداد می شوند. از طرف دیگر، همچنین استدلال شده است که روشهای معمول برای ارزیابی پایایی را نمی توان برای ابزارهای فرافکن به کار برد. برای مثال، گفته می شود که روش دونیمه سازی برای آزمون رورشاخ نامناسب است، زیرا غیرممکن است که بتوان این ده کارت را به گونه ای تقسیم کرد که دو نیمه قابل مقایسه را به دست دهد. پایایی بازآزمایی را نیز نمی توان به کار برد، زیرا آزمون مجدد، در واقع، یک تجربه روان شناختی متفاوت از آزمون اولیه است و چون گفته می شود که فنون فرافکن نسبت به تغییرات جزیی در آزمودنی حساس هستند، در واقع، به نظر می رسد که در برخی از آزمونهای فرافکن فرض می شود که این ابزارها کاملاً پایا هستند و اینکه تغییرات مشاهده شده در پاسخهای آزمون با گذشت زمان مؤید تغییرات واقعی در فرد هستند. بسیاری از ویژگیهایی که این آزمونها با آنها سرو کار دارند، مانند خُلق یا سطح انرژی با گذشت زمان تغییر می کنند و بدین وسیله استدلال محکمی را دال بر این مفروضه به دست می دهند. با وجود این، هر گونه شناخت واقعی از مشکلات پایایی اندازه گیری باید به این نتیجه منجر شود که بسیاری از این تغییرات، اگرچه نه همه آنها، تابعی از پایایی فرعی این ابزارهاست.
مشکلات اندازه گیری در ناپایایی هر آزمون تأثیر دارد، ولی بعضی از مشکلات به ویژه در خصوص ابزارهای فرافکن ایجاد می شود. به طور کلی، مواد محرک مورد استفاده در آزمونهای فرافکن با توجه به اینکه طبقه های نمره گذاری مختلف به طور مناسبی بر اساس محرکها تنظیم شوند، انتخاب نمی شوند. برای مثال، متوسط تعداد پاسخهای حرکت (M) برای افرا غیربیمار در آزمون رورشاخ با توجه به انحراف معیارحدود 2، برابر 4 و متوسط جزئیات نادر (Dd) تنها برابر یک است (اکسنر، 1990). در عمل حداکثر پایایی این اندازه گیریها همان طوری که نشان دادن اعتبارهای معنادار امری تقریباً غیرممکن است، پایین است.
غالباً همان طور که در مورد آزمون TAT صادق است، نظامهای نمره گذاری تا چند سال بعد از اینکه مواد محرک انتخاب شده باشند، تنظیم نخواهند شد. در آزمون TAT، آزمایندگان حتی در این مورد اختیار دارند که کدام محرک را سرانجام به کار ببرند. این رشد اتفاقی طبقه های نمره گذاری در میزان پایاییهای کم، تأثیر دارد. نمره های نسبی (و تفاوت آنها) همان گونه که در آزمون رورشاخ به کار می روند، به ویژه نسبت به پایاییهای کم، حساس هستند. هولتزمن(818) در تهیه HIT، به انتخاب کارتهایی توجه کرد که در کمیتهای نمره گذاری تأثیر خاصی داشتند؛ در نتیجه، پایاییهای اکثر طبقه های HIT مناسبتر هستند.
مشکل دیگر شامل استاندارد بودن دستورالعملهاست. راهنماییهای مربوط به اجرای اکثر زبانهای فرافکن استاندارد نشده اند، به طوری که به آزماینده امکان دهند تا به طور معناداری بر پاسخهای آزمودنی اثر گذارند. حتی اگرچه در نظام کنونی اکسنر(1986)، آزمون رورشاخ بر کاربرد ابزارهای استاندارد شده تأکید می کند، آزماینده می تواند هنوز تفاوت قایل شود. برای مثال، گراس(819) (1959) آزمون رورشاخ را روی 30 بیمار اجرا کرد، و در خصوص 20 نفر از آنها با گفتن "بسیارخوب" یا تکان دادن سر پس از هر پاسخ محتوای انسان تقویت اجتماعی را برای آنها فراهم کرد. بیمارانی که بدین ترتیب تقویت شدند، در مقایسه با 10 نفر دیگر به طور معناداری پاسخهای محتوای انسان بیشتری را ارایه دادند. اهمیت این تفاوتهای ظریف آزماینده که ممکن است او به آنها واقف نباشد، باید برای خواننده روشن باشد.
حتی مشکل غامضتر این است که به آزمودنیها اغلب اجازه داده می شود که پاسخهای مختلف چندی بدهند که طولهای نابرابری دارند. احتمالاً اثر محتوای روان شناختی یک پاسخ یا مجموعه پاسخهای طولانی در مقایسه با یک پاسخ کوتاه متفاوت است. پاسخهای کوتاه در آزمون رورشاخ یا TAT، عمدتاً مواد رایج یا پیش پا افتاده را شامل می شوند. پراکندگی در طول پاسخ همچنین انجام مقایسه های آماری را بی اندازه مشکل می کند.
مشکل دیگر در نمره گذاری تجلی می کند. در بعضی آزمونها مانند MMPI، نمره گذاری جنبه مکانیکی دارد؛ یعنی، هیچ گونه قضاوت ذهنی در خصوص طبقه یک پاسخ صورت نمی گیرد یا قضاوت ذهنی اندکی مورد استفاده قرار می گیرد. همین موضوع در مورد بعضی از طبقه های نمره گذاری آزمونهایی مانند رورشاخ صادق است. برای مثال، هنگامی که داده ها جمع آوری می شوند، تعیین تعداد کل پاسخهای ارایه شده شامل هیچ قضاوتی نیست و یا قضاوت ناچیزی را در بر می گیرد. به همین ترتیب، اندازه گیری بلندی یک شکل نقاشی یا مساحت کل آن، یک روش نسبتاً مکانیکی است. ولی با این حال، تعیین اکثر نمره های حاصل از آزمونهای فرافکن شامل چندین قضاوت ذهنی است، برای مثال، آیا این پاسخ رورشاخ شامل رنگ یا حرکت انسان است؟ آیا این داستان TAT نیاز به پیشرفت یا مهرورزی را نشان داده و یا اینکه هر دو را نشان می دهد؟ در خصوص آن دسته از آزمونهای فرافکن که چند روش نمره گذاری مختلف ولی مشابه را در بر می گیرند، مشکل حتی شدیدتر است.
اگرچه سؤال مربوط به پایایی نمره گذار به طور ساده یک توافق بین داوران و درون داوران است، ولی باید به خاطر داشت که ناپایایی نمره گذاری در ناپایایی آزمون تأثیر می گذارد. مورستاین(820) (1963، ص 146-144) جدول خلاصه ای از پایاییهای نمره گذاران را در خصوص ویژگیهای نمره گذاری شده از آزمون TAT ارایه کرده است. از 45 مطالعه ای که پایایی تحت لوای همبستگی در آنها گزارش شده بود، میانه پایایی نمره گذاران 0/74 به دست آمد. با پایاییهایی از این دست، مشکلات دستیابی به سطوح قابل قبول پایایی آزمون در واقع زیاد هستند. با وجود این، می توان در این زمینه به پایاییهای بالاتری نیز دست یافت. در این خصوص، هولت(821) (1978) داده های TAT حاصل از چند منبع را گزارش کرد که حاکی از پایایی بالای نمره گذاران تا سقف 0/90 بودند. دستیابی به ضرایب پایایی بالا معمولاً شامل راهنماهای مبسوطی است که طبقه ها را با دقت تعریف کند و مثالهای نمره گذاری را ارایه دهد. از آنجایی که کاربرد چنین راهنماهایی نیازمند توجه زیاد و تلاش وافر در تعمیم دادن یک نمره واحد است، آنها بیشتر به جای قاعده یا حکم، موارد استثنایی را نشان می دهند.
پایایی تفسیر کلی
توجه بیش از حد به رویکردهای مختلف در تعیین پایایی ممکن است از لحاظ علمی خطر از دست دادن موضوع اصلی در پایایی را به همراه داشته باشد. آزمونها فنون جمع آوری اطلاعات مربوط به شخصیت هستند و معمولاً در خصوص ارایه پیش بینی هایی درباره رفتار آتی بر مبنای عملکرد شخصیت استوارند. به همین دلیل، توجه غایی ما به پایایی باید معطوف این باشد که کدام آزمون مطرح است؛ یعنی، هرگاه آزمون رورشاخ برای به دست آوردن توصیف جامعی از عملکرد کلی شخصیت به کار رود، آن گاه موضوع اصلی، پایایی این توصیفهای کلی است و نه پایایی طبقه های نمره گذاری فردی.
در ارزیابی پایاییهای کلی چه چیزی مورد توجه قرار دارد؟ این روشها به روشهایی شباهت دارند که قبلاً توصیف شدند. برای مثال، پایایی حاصل از روش دو نیمه سازی را می توان با مقایسه تفسیرهای حاصل از بررسی نیمه های قابل مقایسه آزمون ارزیابی کرد؛ پایایی حاصل از روش بازآزمایی شامل مقایسه تفسیرهای حاصل از دو اجرای مختلف آزمون است؛ و پایایی بین داوران را می توان با مقایسه تفسیرهای حاصل از اجرای یک آزمون که توسط داوران مختلف صورت گرفته است، تعیین کرد. پایایی بین آزمایندگان را نیز می توان به روش مشابهی ارزیابی کرد.
برای ارایه توصیفهای کلی شخصیت که به طور آماری می توان به همین شیوه آنها را با یکدیگر مقایسه کرد، چهارچوبهای توصیفی چندی در خصوص شخصیت مورد نیاز است. یک روش موسوم کاربرد مجموعه ای از مقیاسها یا ابعاد درجه بندی است که با آزمون و نوع اطلاعات توصیفی مورد نیاز متناسب هستند. بدین ترتیب، تفسیر به دنبال بررسی طرح کلی آزمون، با اختصاص دادن نمره ها یا جایگاهها به آزمودنیها بر اساس این مقیاسها صورت می گیرد. یا آزمایندگان می توانند به تعدادی از سؤالهای صحیح - غلط یا چندگزینه ای در خصوص موضوع پاسخ دهند. روش مرسوم دیگر، استفاده از فن دسته بندی پرسش است. یک دسته بندی پرسش معمولی شامل 100 کارت است که هر کدام یک توصیف شخصیت را در بر می گیرد. از آزماینده خواسته می شود که طرح کلی آزمون را مطالعه کند و بعد، عبارتهای توصیفی را در 9 دسته طبقه بندی کند که از حداقل وصف حال تا حداکثر وصف حال آزمودنی را در بر می گیرد. تعداد کارتهایی که در هر دسته قرار می گیرند از قبل تعیین می شوند. به طوری که هر داور توزیع یکسانی از کارتها را به دست می دهد. در تمام این فنون، همبستگی رتبه ای یا درصد توافق روشها را می توان برای تعیین یک شاخص عددی پایایی به کار برد (هرگاه قصد داشته باشیم که پایاییهای مربوط به یک آزماینده واحد را تعیین کنیم، تعداد طرحهای آزمونهای مورد داوری باید به اندازه کافی زیاد باشد که آزماینده نتواند به یاد آورد یا حدس بزند که کدام مورد به کدام آزمودنی تعلق داشته است).
پایایی به دست آمده از هر روش ارزیابی باید با کاربرد همان روش متناسب باشد. هرگاه پیش بینی های مربوط به رویدادهای به خصوصی ارایه شود، پایایی این پیش بینی ها باید مورد بررسی قرار گیرد. هرگاه توصیفهای کلی شخصیت مورد توجه باشد، این پایاییهای آنهاست که مورد توجه قرار می گیرند. گرچه اغلب منابع اساسی دیگری نیز در زمینه پایایی وجود دارد (مانند پایایی نمره گذار) که پایاییهای نهایی به آنها بستگی دارند، پایایی روش مورد استفاده، سؤال مربوط به علاقه نهایی است.
پی نوشت:
807- Ghiselli
808- Nunnally
809- Bernstein
810- Dahlstrom
811- Welsh
812- Raymond B. Cattell
813- Gleser
814- Nanda
815- Rajaratnam
816- Jones
817- Reid
818- Holtzman
819- Gross
820- Murstein
821- Holt