Анастази А. » Психологическое тестирование

последствий принятого решения. Схема простой стратегии, представлен-

ная на рис. 18, поможет объяснить суть дела. На этой схеме изображена

стратегия решений по данным (рис. 17) применения теста к группе посту-

павших на работу и решениям их принятия или непринятия, сделанным

на основе нормативного показателя теста. Всего имеется четыре воз-

Рис. 18. Простая стратегия принятия решения

Стратегия

Применение теста

с нормативным

результатом

Решение

Принять

Не принять

Результат Вероятность

Правильное принятие 0,38

Ошибочное принятие

Правильное непринятие 0,33

Ошибочное непринятие ] 0,22

161

ВАЛИДНОСТЬ. ИЗМЕРБНИЕ И ИНТЕРПРЕТАЦИЯ

Тест А с двумя

нормативными

результатами

Принять

Нужны

дополнительные

данные

Не принять

Тест В

Принять

Не принять

Рис. 19. Последовательная стратегия принятия решения

можных исхода: правильное и ошибочное принятие, а также правильное

и ошибочное непринятие. Вероятность каждого исхода задается числом

лиц, соответствующих каждой из четырех частей рис. 17. Если всего

имеется 100 человек, то искомые вероятности оцениваются путем деле-

ния каждого из указанных чисел на 100 (см. рис. 18). Кроме того, нам

нужно знать полезности каждого исхода, выраженные в единой шкале.

Общую ожидаемую полезность стратегии находим, перемножая для

каждого из исходов их полезности и вероятности, складывая полученные

произведения и вычитая из суммы издержки тестирования. Последняя

величина отражает тот факт, что тест с низкой валидностью скорее най-

дет применение, если он краток, недорог, легко может проводиться

малоквалифицированным персоналом и пригоден для группового тести-

рования. Применение индивидуального теста, требующего квалифициро-

ванного экспериментатора или дорогостоящего оборудования, оправда-

но, только если его валидность достаточно высока.

Последовательные стратегии и адаптивный подход. В не-

которых ситуациях эффективность теста можно повысить, применяя бо-

лее сложные стратегии, учитывающие большее число параметров. Пре-

жде всего тест может служить для принятия промежуточного, а не

окончательного решения. В случае простой стратегии (см. рис. 17 и 18)

все решения носят окончательный характер. Напротив, на рис. 19 пока-

зана двухэтапная последовательная стратегия. В роли теста А может вы-

ступать короткий, легкий в применении, отсеивающий тест. В зависимо-

сти от его выполнения испытуемые распределяются по трем категориям:

принятые, не принятые и сомнительные. Последние подвергаются более

интенсивному обследованию тестом В, который делит эту группу на

принятых и не принятых.

Последовательное тестирование можно также применять в рамках

одного теста, что позволяет повысить эффективность использования

времени тестирования (L.J.DeWitt, D.J.Weiss, 1974; R.L. Linn,

D.A. Rock, T.A. Cleary, 1969; D.J. Weiss, N.E. Betz, 1973). Правда, в этом

случае оно лучше всего подходит для тестирования с помощью компью-

теров, но в какой-то мере его можно использовать и в групповых тестах

типа <бумага-карандаш>. Существенно, что последовательность зада-

ний или групп заданий определяется их выполнением испытуемым. На-

пример, всем вначале дается набор заданий средней трудности. Те, кто

" См. работу Дж. Виггинса (J. S. Wiggins, 1973, р. 257-274), где приводится вымыш-

162 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

с ними не справился, переводятся на более легкие задания; тем же, кто

показал хорошие результаты, даются более трудные задания. Такие

<разветвления> могут иметь место на нескольких этапах. Главный вы-

игрыш здесь в том, что каждый испытуемый получает только те задания,

которые отвечают его уровню, вместо того чтобы выполнять все зада-

ния. Модели последовательного тестирования будут рассмотрены далее

в гл. II, в связи с применением компьютеров в групповом тестировании.

Еще одним использованием этой стратегии, пригодным для диагно-

стики психических нарушений, является последовательное отнесение ис-

пытуемых к одной из двух категорий, причем дальнейшему тестирова-

нию подлежат только те, для кого очередная проба оказалась

положительной, что указывает на возможную патологию. Эта стратегия

уже упоминалась выше в связи с использованием тестов для диагностики

патологических состояний при весьма низком базовом уровне.

Следует отметить, что многие решения, связанные с приемом на ра-

боту, фактически осуществляются по последовательной схеме, хотя это

и не всегда осознается. Некомпетентные работники, принятые вследствие

ошибки прогноза, обычно могут быть уволены по истечении испытатель-

ного срока; отчисляются также на ряде этапов не справляющиеся

с учебными программами студенты. В таких ситуациях только отрица-

тельное решение оказывается окончательным. Конечно, ошибки отбора,

которые затем исправляются, могут дорого обходиться с точки зрения

той или иной системы ценностей. Но все-таки они часто сопряжены

с меньшими издержками, чем окончательное ошибочное решение.

Вторым условием, влияющим на эффективность психологического

теста, является использование альтернативных решений и возможностей

адаптивных методов при определении индивидуальных особенностей.

Примером может служить использование различных программ подго-

товки персонала в зависимости от уровня их способностей или введение

компенсирующих программ для учеников с определенными трудностями

в обучении. В этих условиях стратегия решения каждый раз должна

строиться с учетом имеющихся сведений о взаимодействии между перво-

начальным результатом irci и дифференцированным обучением. Адап-

тивные методы нередко позволяют повысить число справляющихся

с учебной программой. Поскольку выбор того или иного альтернативно-

го метода в принципе является проблемой классификации, а не отбора,

соответствующие методики будут рассмотрены позже, в разделе, посвя-

щенном классификационным решениям.

Приведенные примеры показывают, что концепции и принципы тео-

рии решений могут помочь в оценке пригодности психологических тес-

тов для конкретных целей тестирования. Теория решений позволяет вы-

делить комплекс факторов, определяющих выигрыш, который дает

использование того или иного теста в частной ситуации. Сам же по себе

коэффициент валидности-лишь один из факторов, подлежащих рассмо-

трению при оценке влияния теста на эффективность всего процесса выра-

ботки решений.

" Более полное обсуждение применения теории решений в тестировании см. в рабо-

те Дж. Виггинса (J.S. Wiggins, 1973, гл. 6), на более специальном уровне эти проблемы об-

163 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ

МОДЕРАТОРЫ

Зависимость валидности от особенностей подгрупп испы-

туемых. Валидность теста относительно данного критерия может зави-

сеть от индивидуальных особенностей испытуемого. Классическая психо-

метрическая модель предполагает, что ошибка прогноза является

характеристикой теста, а не испытуемого и что эти ошибки распростра-

няются на испытуемых случайным образом. Гибкость подхода, свой-

ственная теории решений, способствовала созданию прогностических мо-

делей, учитывающих взаимодействие между индивидом и тестом. Такое

взаимодействие означает, что один и тот же тест может для одних клас-

сов или подмножеств испытуемых обладать большей, а для других-

меньшей прогностической способностью. Например, данный тест может

лучше предсказывать критериальное выполнение для мужчин, чем для

женщин, или для поступающих на работу из более низких, чем из более

высоких социоэкономических уровней. В этих примерах пол и социоэко-

номический уровень играют роль модераторов-переменных, не позво-

ляющих повысить валидность теста (D.R. Saunders, 1956).

Нередко валидность теста для всей группы слишком мала, чтобы

его можно было использовать в прогностических целях. Но подсчет ва-

лидности для подгрупп, различающихся по некоторому легко распозна-

ваемому признаку, выявляет, что в одной подгруппе она велика, а в дру-

гой ничтожна. Следовательно, тест можно эффективно использовать для

принятия решений относительно членов первой, но не второй группы.

Возможно, для второй группы будет эффективным другой тест или иной

способ оценки.

Модератор представляет собой некоторую характеристику группы

лиц, указывающую на прогностическую эффективность теста примени-

тельно именно к данной группе. Это могут быть демографические пока-

затели (пол, возраст, уровень образования, социоэкономический статус)

или результаты другого теста. В роли модераторов часто выступают ин-

тересы и мотивация. Так, если поступающий на работу почти не заинте-

ресован в ней, то его выполнение своих обязанностей, вероятно, будет

неудовлетворительным, независимо от его результатов по соответствую-

щему тесту способностей. Для таких лиц корреляция между результата-

ми теста способностей и качеством выполнения работы будет низкой,

тогда как для заинтересованных и высоко мотивированных индивидов

такая корреляция может оказаться весьма значительной.

Эмпирические примеры модераторов. Данные о действии мо-

дераторов поступают из разных источников. Просмотрев несколько сот

коэффициентов корреляции между результатами теста способностей

и успеваемостью, Г. Сишор (H.G. Seashore, 1962) установил, что в значи-

тельном большинстве случаев коэффициенты корреляции выше у жен-

щин, чем у мужчин. Эта тенденция имела место как в школах, так и

в колледжах, и в последнем случае она была более выраженной. Данные

не содержали указаний на причину отмеченных различий валидности, но

было бы интересно порассуждать о них в свете других известных по-

ловых различий. Поскольку ученицы обычно более склонны к конфор-

мизму, к принятию ценностей и норм школьной жизни, их достижения

в учебе, по-видимому, более связаны с их способностями. Напротив,

юноши чаще направляют свои усилия на те виды деятельности (в школе

164 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

сят дополнительную дисперсию в их учебные достижения, что и затруд-

няет прогноз успеваемости по результатам теста. Но каковы бы ни были

причины этих различий, ясно, что пол действует как модератор прогно-

зирования успеваемости, на основе результатов теста способностей.

Для оценки роли различных модераторов в предсказании успеваемо-

сти был проведен ряд исследований. В некоторых из них (N. Frederiksen.

A.C.F. Gilbert, 1960; N. Frederiksen, S.D. Melville, 1954; L.J. Stricker, 1966)

проверялась гипотеза о том, что более обязательные ученики, выяв-

ленные посредством двух тестов компульсивности, вкладывают много

сил в свою учебную работу независимо от интереса к тому или иному

предмету, в то время как усилия менее обязательных учеников опреде-

ляются их интересами. Поскольку эти усилия сказываются на оценках,

корреляция между соответствующими тестами интересов и успевае-

мостью должна быть выше у некомпульсивных, чем у компульсивных

учеников. Эта гипотеза подтвердилась при исследовании нескольких

групп студентов-мужчин из технических колледжей, но уже обследование

студентов (обоего пола) художественных училищ ни к чему не привело.

Более того, отсутствие согласованности между различными показателя-

ми компульсивности заставляет усомниться в том, что измерялся один

и тот же конструкт.

Другое исследование (R.R. Grooms, N.S. Endler, 1960) показало, что

успеваемость студентов, более склонных к тревожности, сильнее корре-

лирует с результатами тестов достижений и способностей (г = 0,63), чем

у более спокойных студентов (г = 0,19). Иной подход (R.F. Berdie, 1961)

связан с изучением влияния на валидность теста интраиндивидуальной

вариативности результатов. Гипотеза, согласно которой тест лучший

предиктор для тех индивидов, чье выполнение разных частей теста более

последовательно, а значит их суммарные результаты более надежны, ча-

стично подтвердилась, но изучавшееся соотношение оказалось сложнее,

чем ожидалось (R.F. Berdie, 1969).

При клинических исследованиях было обнаружено, что личностные

опросники, заполняемые самим испытуемым, для одних типов невроза

более валидны, чем для Других (S. С. Fulkerson, 1959). Особенности пове-

дения при разных типах невроза таковы, что испытуемые одного типа

отвечают на опросники старательно и точно, тогда как другие-небреж-

но и уклончиво. Индивид, для которого характерна точность и тщатель-

ность подробностей, который озабочен своими проблемами и прибегает

к интеллекту как к средству защиты, по-видимому, более точно воспрои-

зведет в опроснике картину своих эмоциональных затруднений, чем им-

пульсивный и беспечный индивид, который стремится избежать не-

приятных мыслей и эмоций и для кого первой защитной реакцией

является отрицание.

Э. Гизелли (Е.Е. Ghiselli, 1956; 1960й; 1960; 1963, 1968; E.E. Ghiselli,

E. P. Sanders, 1967) много занимался проблемой модераторов в про-

изводственной ситуации. При обследовании водителей такси

(Е.Е. Ghiselli, 1956) корреляция между тестом способностей и крите-

риальным выполнением равнялась лишь 0,22. Затем группа, исследовав-

шаяся по данным теста профессиональных интересов, была разбита на

три подгруппы. Для водителей, чьи интересы больше всего соответство-

вали работе, валидность теста способностей оказалась равной 0,664.

Во многих своих исследованиях Э. Гизелли для каждого испытуемо-

165 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ

гнозируемыми критериальными показателями (чем меньше D, тем лучше

прогнозируемый критериальный показатель). Сравнивая результаты вы-

полнения каждого задания в группах с разными значениями D, он строил

шкалу прогнозируемости, применяя затем к новой выборке, в которой

выделялись подгруппы с лучшей и худшей прогнозируемостью, и для

обеих подгрупп сравнивались значения валидности исходного теста.

Этот метод оказался многообещающим при выявлении индивидов, для

которых тест мог быть хорошим или плохим предиктором. Он был так-

же использован при решении вопроса о том, какой из двух тестов

является лучшим предиктором для данного индивида (Е. Е. Ghiselli,

1960я).

Некоторые исследователи (M.D.Dunnette, 1972; R.Hobert,

M.D.Dunnette, 1967) считают, что показатель D, основанный на абсо-

лютной величине ошибки прогноза без учета ее направленности, может

затушевывать важные индивидуальные различия. Ввиду этого были

предложены процедуры раздельного анализа случаев заниженного и за-

вышенного прогноза.

В настоящее время выявление и использование модераторов все еще

находятся в стадии исследования. Необходима большая осторожность,

чтобы избежать методических ловушек (N.M.Abrahams, 1972а, Ь;

M.D. Dunnette, 1972; Е.Е. Ghiselli, 1972; W.F. Velicer, 1972a, b). Резуль-

таты обычно действительны только для условий, в которых они были

получены. Важно к тому же проверять, насколько модератор действи-

тельно улучшает прогноз, который можно было бы получить и другими,

более прямыми путями (С. С. Finder, 1973).

ОБЪЕДИНЕНИЕ ДАННЫХ РАЗЛИЧНЫХ ТЕСТОВ

Для предсказания критерия обычно требуется не один, а несколько те-

стов. Большинство критериев достаточно сложны, а критериальные

меры зависят от целого ряда различных качеств. Если такой критерий

измеряется посредством одного теста, то этот тест должен быть весьма

разнородным. Уже отмечалось (гл. 5), что относительно однородный

тест, измеряющий преимущественно одно качество, позволяет получать

более однозначные результаты. Поэтому обычно предпочтительней

пользоваться серией из нескольких относительно однородных тестов,

каждый из которых нацелен на какой-то один аспект критерия, чем од-

ним большим тестом, представляющим собой мешанину самых разно-

родных заданий.

/ Когда для прогноза применяется серия специально подобранных те-

стов, такая серия называется батареей. Главная проблема использования

батареи состоит в том, как учитывать результаты отдельных тестов при

выработке решения в каждом индивидуальном случае. В этой связи при-

меняются преимущественно два типа статистической обработки резуль-

татов, один из которых основан на использовании уравнения множе-