Анастази А. » Психологическое тестирование

верке на другой выборке случайные различия в количестве окончивших

частные школы и рыжих, скорее всего, исчезнут или изменят знак, и сле-

довательно, валидность показателей нарушится.

Практический пример. Конкретной иллюстрацией необходимо-

сти перекрестной валидации является исследование, в котором была

предпринята попытка выяснить применимость роршаховского теста чер-

нильных пятен для найма управляющих агентствами по страхованию

жизни (А. К. Kurtz, 1948). Этот тест был применен к 80 испытуемым,

тщательно отобранным среди нескольких сот таких управляющих, рабо-

тавших в восьми страховых компаниях. Из этих 80 человек 42, считав-

шихся весьма компетентными работниками, составили верхнюю крите-

риальную группу. Остальные 38 человек были неудовлетворительными

работниками, и они образовали нижнюю критериальную группу. Полу-

ченные 80 тестовых ответов были изучены экспертами по тесту Роршаха,

отобравшими 32 знака (т.е. характеристики ответов), чаще встречавших-

ся в одной группе, нежели в другой. Затем каждому испытуемому было

присуждено по +1 очку за каждый знак, чаще обнаруживаемый в верх-

ней критериальной группе, и по-1 очку за каждый знак, чаще встречав-

шийся в нижней критериальной группе. Поскольку всего имелось по 16

знаков каждого типа, суммарный результат теоретически мог принимать

значения от -16 до +16.

Когда этот ключ, основанный на 32 знаках, был применен к перво-

начальной группе из 80 человек, принадлежность 79 из них к верхней или

нижней группе была определена правильно. Таким образом, корреляция

между результатом теста и критерием оказалась близкой к 1,00. Однако

когда была проведена перекрестная валидация теста на второй сопоста-

вимой выборке управляющих страховыми агентствами, насчитывавшей

41 человек (21 в верхней группе и 20 в нижней), коэффициент валидности

упал до ничтожной цифры 0,02. Очевидно, таким образом, что ключ, раз-

работанный на первой выборке, не пригоден для отбора персонала на

такую должность.

Пример со случайными данными. Э. Э. Кьюретон (Е. Е. Ки-

reton, 1950) убедительно показал, что использование одной и той

же выборки для отбора заданий и валидации теста может привести

к значительному завышению коэффициента валидности даже при чисто

случайных условиях. В этой работе прогнозируемым критерием служил

средний балл каждого из 29 студентов, записавшихся на курс психоло-

гии. Весь диапазон значений этого критерия был разбит на две области:

оценки не ниже <В> и оценки ниже <В>. Роль <заданий> в этом экспери-

менте играли 85 номерков (1-85). Чтобы получить <результаты> теста

для каждого испытуемого, номерки складывались в коробочку, переме-

ТТТИВЯ ЛИСТ. И RЫГTПЯTTИr НЯ Г-ТПТТ Тр тлч UMV vn-rnner ттзгтпгтп гтт1ттот1Г>й г-гп-

199 АНАЛИЗ ЗАДАНИЙ

дентом заданий. Подобный <тест> был проведен 29 раз, что дало

полный набор <результатов> каждого студента по каждому <заданию>.

Эту процедуру Э. Кьюретон остроумно назвал <тест В-проективного

психокинеза>.

Затем был проведен анализ заданий, в котором в качестве критерия

фигурировал средний балл студента. В результате из 85 <заданий> было

отобрано 24, из коих 9 чаще <выполнялись> членами верхней крите-

риальной группы и поэтому получили веса + 1, тогда как 15 чаще <вы-

полнялись> в нижней группе, и им приписывались веса - 1. Сумма весов

<заданий> составляла итоговый результат каждого студента. Несмотря

на заведомо случайное происхождение данных, корреляция <результатов

теста> с критерием успеваемости для все той же группы из 29 студентов

оказалась равной 0,82. Этот результат аналогичен тому, который был

получен в примере с тестом Роршаха. В обоих случаях очевидное со-

ответствие между результатами теста и критерием объясняется исполь-

зованием одних и тех же случайных различий как для отбора заданий,

так и для определения валидности теста в целом.

Условия, влияющие на снижение валидности. Степень сни-

жения коэффициента валидности при перекрестной валидации частично

зависит от размера первоначальной совокупности заданий и от того, ка-

кая часть заданий сохраняется. Если первоначальное число заданий вели-

ко, а доля отобранных заданий мала, то возрастает возможность исполь-

зования случайных различий и тем самым получения завышенного

коэффициента валидности. На степень снижения валидности при пере-

крестной валидации влияет также размер выборки. Поскольку завыше-

ние валидности в первоначальной выборке является результатом нако-

пления ошибок выборки, при малых выборках (для которых такие

ошибки больше) будет наблюдаться большее снижение валидности.

Если задания отбираются сообразно гипотезам, которые формули-

руются заранее, исходя из психологической теории или опыта работы

с данным критерием, то при перекрестной валидации сокращение валид-

ности будет минимальным. Например, если согласно частной гипотезе

ответ <да> должен появляться чаще среди успевающих учеников, то за-

дание следует отбросить, когда ответ <да> значительно чаще исходит от

неуспевающих учеников. Наоборот, бездумный эмпирический подход оз-

начал бы, например, включение в первоначальную серию самых разно-

образных вопросов, безотносительно к их связи с критериальным пове-

дением, в расчете на последующий отбор заданий, имеющих значимую

положительную или отрицательную корреляцию с критерием. В послед-

нем случае следует ожидать большего снижения валидности, чем

в первом. Итак, снижение валидности теста при перекрестной валида-

ции будет наибольшим, если выборки малы, исходный набор заданий ве-

лик, величина отобранных заданий мала и задания подбираются без за-

ранее выработанной системы гипотез.

ВЗАИМОДЕЙСТВИЕ МЕЖДУ ЗАДАНИЕМ И ГРУППОЙ

Предварительные исследования. В той мере, в какой разные куль-

туры или субкультуры благоприятствуют развитию различных навыков

и знаний, эти различия сказываются и на результатах тестов. Общий

200

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

средой. В связи с этим возникает вопрос об относительной трудности

заданий для групп с различными культурами. Если трудность измеряет-

ся обычным способом, т.е. с помощью процента справившихся с зада-

нием, то будет ли ранг порядка задания тем же самым от группы к груп-

пе, независимо от общего уровня его выполнения? Уже в первых

исследованиях, направленных на выяснение этого вопроса, был обнару-

жен ряд существенных различий между городскими и сельскими детьми

по отношению к трудности заданий тестов Станфорд-Бине (Н.Е. Jones,

H.S.Conrad, M.B.BIanchard, 1930) и общей информативности теста

(M.E.Shimberg, 1929).

Более полную информацию о групповых различиях относительно

трудности заданий дает мера взаимодействия между заданием и груп-

пой, получаемая посредством дисперсионного анализа. Существует

и другой метод, по которому определяется корреляция в двух группах

процента выполнивших одни и те же задания или значений А. При отсут-

ствии значимого взаимодействия между заданием и группой, т.е. если

Рис. 27. Двумерное распределение трудности заданий предварительного теста способ-

ности к обучению для двух случайных выборок белых учеников-старшеклассников

(W. Н. Angoff, S. F. Ford, 1973).

С разрешения Национального совета по статистике в образовании

201

АНАЛИЗ ЗАДАНИЙ

относительные трудности заданий одинаковы для обоих групп, эта кор-

реляция должна быть близка к 1,0. Эти более совершенные средства ста-

тистического анализа были применены для исследования предваритель-

ного теста способности к обучению для старшеклассников. Изучению

было подвергнуто влияние на относительную трудность заданий этого

теста таких факторов, как этнический, социоэкономический и проживание

в городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973;

Т. A. Cleary, Т. L. Hilton, 1968).

Было обнаружено значимое, хотя и слабое взаимодействие между

заданиями и группами. Корреляция между значениями А для двух этни-

ческих групп была несколько ниже корреляции для двух случайных вы-

борок из одной и той же этнической группы. На рис. 27 и 28 представ-

лены два двумерных распределения показателя А. При сравнении двух

случайных выборок белых старшеклассников (рис. 27) значения показате-

ля А для заданий теста оказались весьма сходными, причем коэффициент

корреляции достиг 0,987. Когда же были сопоставлены результаты белых

Рис. 28. Двумерное роспредепение трудности заданий предварительного теста способ-

ности к обучению для двух случайных выборок белых и черных учеников-старше-

классников (W. Н. Angoff, S. F. Ford, 1973).

С разрешения Национального совета по статистике в образовании

10 12 14 16

Чмакйыия А для выбооки черных школьников

202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

и черных школьников (рис. 28), выяснилось, что для негритянских детей

задания не только были в целом труднее, но и имели несколько иную от-

носительную трудность, на что указывает коэффициент корреляции 0,929.

Попытки выяснить причины этих различий привели к следующим

предварительным выводам. Во-первых, обследование содержания зада-

ний не вскрыло какой-либо связи между ними и известными различиями

в предшествующем жизненном опыте сравниваемых групп. Во-вторых,

уравнивание групп по когнитивной переменной, на которую были ориен-

тированы задания, приводило к сокращению групповых различий как по

среднему показателю, так и по взаимодействию между заданием и груп-

пой. Последний результат указывает на то, что относительная трудность

заданий зависит, по крайней мере отчасти, от абсолютного уровня раз-

вития измеряемой тестом способности. Возможно, например, что лица

с разными уровнями способностей пользуются при выполнении одного

и того же задания различными методами решения задач или когни-

тивными навыками. Поэтому задания, оказавшиеся относительно

трудными при решении их методом А, могут оказаться намного легче,

если их решать методом В, и наоборот.

Следует добавить, что все методы исследования взаимодействия

между заданием и группой в тестах способностей применимы также

к личностным тестам. В последнем случае, правда, измеряется не труд-

ность заданий, а относительная частота выбора конкретных ответов

в тестах типа шкал способностей или личностных опросников.

Отбор заданий для минимизации или максимизации груп-

повых различий. При построении определенных тестов взаимодей-

ствие между заданием и группой используется в качестве признака для

отбора заданий. В ходе разработки, например, тестов Станфорд-Вине

составители стремились исключить задания, ставящие представителей

того или иного пола в более выгодное положение. При этом предполага-

лось, что такие задания отражают чисто случайные и несущественные

различия в опыте двух полов (Q. McNemar, 1942, гл. 5). Однако ввиду

ограниченного числа заданий для каждого возрастного уровня было не-

возможно изъять все задания, выполняемые по-разному представителя-

ми полов. Поэтому чтобы исключить фактор пола из суммарного ре-

зультата теста, оставшиеся задания такого рода были сбалансированы

так, чтобы мальчики имели преимущество в таком же числе заданий, что

и девочки.

Описанный подход, однако, нельзя применить ко всем случаям груп-

повых различий. В то время как одни тесты, такие, как Станфорд-Бине,

сглаживают различия в выполнении теста испытуемыми мужского

и женского пола, в других тестах такие различия сохраняются, но для

каждого пола приводятся отдельные нормы. Это чаще практикуется

в тестах специальных способностей, в которых, как правило, системати-

чески обнаруживается значительная разница в пользу одного или друго-

го пола.

Более того, при определенных обстоятельствах задания выбираются

с целью не сократить, а довести до максимума различия между резуль-

татами мужчин и женщин. Примером здесь служат шкалы мужественно-

сти и женственности, разработанные для использования в некоторых

личностных опросниках (см. гл. 17). Поскольку цель этих шкал-опреде-

лить, в какой степени ответы индивида согласуются со свойственной на-

шей культуре характеристиками мужественности и женственности, то

203 АНАЛИЗ ЗАДАНИЙ

в них сохраняются только те задания, которые обеспечивают значимое

различение полов.

Подобное разнообразие методик можно обнаружить и применитель-

но к другим групповым различиям в выполнении заданий. При разра-

ботке шкалы социоэкономического статуса многостадийного личностно-

го опросника штата Миннесота (ММР1) сохранялись только те вопросы,

которые значимо дифференцировали ответы старшеклассников, принад-

лежащих к двум контрастным социоэкономическим группам (H.G.Ga-

ugh, 1948). Перекрестная валидация этой шкалы на новой выборке стар-

шеклассников обнаружила корреляцию 0,5 с объективными показателя-

ми социоэкономического статуса. Цель этого теста-определить, в какой

степени индивидуальные эмоциональные и социальные реакции испытуе-

мого сходны с реакциями, характерными для людей высшего или низше-

го социоэкономического уровня. Поэтому задания, подчеркивающие раз-

личия между социальными слоями, включались в тест, а те, которые

обладали низкой или нулевой разрешающей способностью, отбрасыва-

лись. Эта процедура напоминает ту, которая была использована при раз-

работке шкал мужественности и женственности. Очевидно, что в тестах

обоих типов дифференциация групп является критерием, по которому

проводится валидация теста. В подобных случаях социоэкономический

уровень и пол являются соответственно наиболее существенными пере-

менными, на основе которых выбираются задания.

Можно также привести примеры противоположного подхода к со-

циоэкономическим и культурным различиям в тесте. Широкое исследова-

ние культурных различий в заданиях тестов интеллекта было предприня-

то в Чикагском университете (К. Eells et а1., 1951). Исследователи

полагали, что большая часть таких тестов ставит в невыгодные условия

детей из семей низших социоэкономических слоев, поскольку многие за-

дания предполагают наличие у испытуемых информации, навыков и ин-

тересов, типичных для детей из семей среднего достатка. Чтобы подтвер-

дить эту гипотезу фактическими данными, был проведен детальный

анализ заданий восьми весьма распространенных групповых тестов ин-

теллекта. По каждому заданию сравнивались частоты правильных отве-

тов детей из семей более высокого и более низкого социоэкономического

уровня. На основании полученных результатов двумя исследователями

был подготовлен специальный тест, как предполагалось, более <справед-

ливый> по отношению к американским детям из низших слоев городско-

го населения. При разработке этого теста составители стремились ис-

ключить из него задания, которые, как выяснилось, ставят в более

выгодное положение детей из семей среднего достатка.

Как и в случае различий пола, нельзя выработать при рассмотрении

заданий строгой линии поведения, ведущей к выявлению культурных

различий, но можно указать на некоторые основные положения соста-

вления и интерпретации тестов. Во-первых, вопрос о том, сохранить или

отбросить задание, значимо дифференцирующее те или иные группы, ре-

шается в зависимости от назначения теста. Если прогнозируемые крите-

Применение этого теста, известною под названием <Игры Дейвиса-Иилса>, было

впоследствии приостановлено, поскольку он оказался неудовлетворительным по ряду фак-

торов, включая низкую валидность в прогнозировании школьной успеваемости и других

практических критериев. Более того, ожидаемое преимущество в этом тесте для детей низ-

ших слоев населения не подтвердилось на других выборках.

204 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

рии существенно различаются для лиц разного пола, социоэкономиче-

ского уровня или иных категорий, то задания теста, по всей вероятности,

должны выявлять такие групповые различия. Устранить подобные зада-

ния из теста-значило бы понизить его валидность по прогнозированию

данных критериев (A. Anastasi, 1966). Во-вторых, если с помощью теста

предполагается измерять сходство индивида с той или иной группой, то