|
Анастази А. » Психологическое тестированиеверке на другой выборке случайные различия в количестве окончивших частные школы и рыжих, скорее всего, исчезнут или изменят знак, и сле- довательно, валидность показателей нарушится. Практический пример. Конкретной иллюстрацией необходимо- сти перекрестной валидации является исследование, в котором была предпринята попытка выяснить применимость роршаховского теста чер- нильных пятен для найма управляющих агентствами по страхованию жизни (А. К. Kurtz, 1948). Этот тест был применен к 80 испытуемым, тщательно отобранным среди нескольких сот таких управляющих, рабо- тавших в восьми страховых компаниях. Из этих 80 человек 42, считав- шихся весьма компетентными работниками, составили верхнюю крите- риальную группу. Остальные 38 человек были неудовлетворительными работниками, и они образовали нижнюю критериальную группу. Полу- ченные 80 тестовых ответов были изучены экспертами по тесту Роршаха, отобравшими 32 знака (т.е. характеристики ответов), чаще встречавших- ся в одной группе, нежели в другой. Затем каждому испытуемому было присуждено по +1 очку за каждый знак, чаще обнаруживаемый в верх- ней критериальной группе, и по-1 очку за каждый знак, чаще встречав- шийся в нижней критериальной группе. Поскольку всего имелось по 16 знаков каждого типа, суммарный результат теоретически мог принимать значения от -16 до +16. Когда этот ключ, основанный на 32 знаках, был применен к перво- начальной группе из 80 человек, принадлежность 79 из них к верхней или нижней группе была определена правильно. Таким образом, корреляция между результатом теста и критерием оказалась близкой к 1,00. Однако когда была проведена перекрестная валидация теста на второй сопоста- вимой выборке управляющих страховыми агентствами, насчитывавшей 41 человек (21 в верхней группе и 20 в нижней), коэффициент валидности упал до ничтожной цифры 0,02. Очевидно, таким образом, что ключ, раз- работанный на первой выборке, не пригоден для отбора персонала на такую должность. Пример со случайными данными. Э. Э. Кьюретон (Е. Е. Ки- reton, 1950) убедительно показал, что использование одной и той же выборки для отбора заданий и валидации теста может привести к значительному завышению коэффициента валидности даже при чисто случайных условиях. В этой работе прогнозируемым критерием служил средний балл каждого из 29 студентов, записавшихся на курс психоло- гии. Весь диапазон значений этого критерия был разбит на две области: оценки не ниже <В> и оценки ниже <В>. Роль <заданий> в этом экспери- менте играли 85 номерков (1-85). Чтобы получить <результаты> теста для каждого испытуемого, номерки складывались в коробочку, переме-
ТТТИВЯ ЛИСТ. И RЫГTПЯTTИr НЯ Г-ТПТТ Тр тлч UMV vn-rnner ттзгтпгтп гтт1ттот1Г>й г-гп-
199 АНАЛИЗ ЗАДАНИЙ
дентом заданий. Подобный <тест> был проведен 29 раз, что дало полный набор <результатов> каждого студента по каждому <заданию>. Эту процедуру Э. Кьюретон остроумно назвал <тест В-проективного психокинеза>. Затем был проведен анализ заданий, в котором в качестве критерия фигурировал средний балл студента. В результате из 85 <заданий> было отобрано 24, из коих 9 чаще <выполнялись> членами верхней крите- риальной группы и поэтому получили веса + 1, тогда как 15 чаще <вы- полнялись> в нижней группе, и им приписывались веса - 1. Сумма весов <заданий> составляла итоговый результат каждого студента. Несмотря на заведомо случайное происхождение данных, корреляция <результатов теста> с критерием успеваемости для все той же группы из 29 студентов оказалась равной 0,82. Этот результат аналогичен тому, который был получен в примере с тестом Роршаха. В обоих случаях очевидное со- ответствие между результатами теста и критерием объясняется исполь- зованием одних и тех же случайных различий как для отбора заданий, так и для определения валидности теста в целом. Условия, влияющие на снижение валидности. Степень сни- жения коэффициента валидности при перекрестной валидации частично зависит от размера первоначальной совокупности заданий и от того, ка- кая часть заданий сохраняется. Если первоначальное число заданий вели- ко, а доля отобранных заданий мала, то возрастает возможность исполь- зования случайных различий и тем самым получения завышенного коэффициента валидности. На степень снижения валидности при пере- крестной валидации влияет также размер выборки. Поскольку завыше- ние валидности в первоначальной выборке является результатом нако- пления ошибок выборки, при малых выборках (для которых такие ошибки больше) будет наблюдаться большее снижение валидности. Если задания отбираются сообразно гипотезам, которые формули- руются заранее, исходя из психологической теории или опыта работы с данным критерием, то при перекрестной валидации сокращение валид- ности будет минимальным. Например, если согласно частной гипотезе ответ <да> должен появляться чаще среди успевающих учеников, то за- дание следует отбросить, когда ответ <да> значительно чаще исходит от неуспевающих учеников. Наоборот, бездумный эмпирический подход оз- начал бы, например, включение в первоначальную серию самых разно- образных вопросов, безотносительно к их связи с критериальным пове- дением, в расчете на последующий отбор заданий, имеющих значимую положительную или отрицательную корреляцию с критерием. В послед- нем случае следует ожидать большего снижения валидности, чем в первом. Итак, снижение валидности теста при перекрестной валида- ции будет наибольшим, если выборки малы, исходный набор заданий ве- лик, величина отобранных заданий мала и задания подбираются без за- ранее выработанной системы гипотез.
ВЗАИМОДЕЙСТВИЕ МЕЖДУ ЗАДАНИЕМ И ГРУППОЙ
Предварительные исследования. В той мере, в какой разные куль- туры или субкультуры благоприятствуют развитию различных навыков и знаний, эти различия сказываются и на результатах тестов. Общий
200
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
средой. В связи с этим возникает вопрос об относительной трудности заданий для групп с различными культурами. Если трудность измеряет- ся обычным способом, т.е. с помощью процента справившихся с зада- нием, то будет ли ранг порядка задания тем же самым от группы к груп- пе, независимо от общего уровня его выполнения? Уже в первых исследованиях, направленных на выяснение этого вопроса, был обнару- жен ряд существенных различий между городскими и сельскими детьми по отношению к трудности заданий тестов Станфорд-Бине (Н.Е. Jones, H.S.Conrad, M.B.BIanchard, 1930) и общей информативности теста (M.E.Shimberg, 1929). Более полную информацию о групповых различиях относительно трудности заданий дает мера взаимодействия между заданием и груп- пой, получаемая посредством дисперсионного анализа. Существует и другой метод, по которому определяется корреляция в двух группах процента выполнивших одни и те же задания или значений А. При отсут- ствии значимого взаимодействия между заданием и группой, т.е. если
Рис. 27. Двумерное распределение трудности заданий предварительного теста способ- ности к обучению для двух случайных выборок белых учеников-старшеклассников (W. Н. Angoff, S. F. Ford, 1973). С разрешения Национального совета по статистике в образовании
201
АНАЛИЗ ЗАДАНИЙ
относительные трудности заданий одинаковы для обоих групп, эта кор- реляция должна быть близка к 1,0. Эти более совершенные средства ста- тистического анализа были применены для исследования предваритель- ного теста способности к обучению для старшеклассников. Изучению было подвергнуто влияние на относительную трудность заданий этого теста таких факторов, как этнический, социоэкономический и проживание в городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973; Т. A. Cleary, Т. L. Hilton, 1968). Было обнаружено значимое, хотя и слабое взаимодействие между заданиями и группами. Корреляция между значениями А для двух этни- ческих групп была несколько ниже корреляции для двух случайных вы- борок из одной и той же этнической группы. На рис. 27 и 28 представ- лены два двумерных распределения показателя А. При сравнении двух случайных выборок белых старшеклассников (рис. 27) значения показате- ля А для заданий теста оказались весьма сходными, причем коэффициент корреляции достиг 0,987. Когда же были сопоставлены результаты белых
Рис. 28. Двумерное роспредепение трудности заданий предварительного теста способ- ности к обучению для двух случайных выборок белых и черных учеников-старше- классников (W. Н. Angoff, S. F. Ford, 1973). С разрешения Национального совета по статистике в образовании
10 12 14 16 Чмакйыия А для выбооки черных школьников
202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и черных школьников (рис. 28), выяснилось, что для негритянских детей задания не только были в целом труднее, но и имели несколько иную от- носительную трудность, на что указывает коэффициент корреляции 0,929. Попытки выяснить причины этих различий привели к следующим предварительным выводам. Во-первых, обследование содержания зада- ний не вскрыло какой-либо связи между ними и известными различиями в предшествующем жизненном опыте сравниваемых групп. Во-вторых, уравнивание групп по когнитивной переменной, на которую были ориен- тированы задания, приводило к сокращению групповых различий как по среднему показателю, так и по взаимодействию между заданием и груп- пой. Последний результат указывает на то, что относительная трудность заданий зависит, по крайней мере отчасти, от абсолютного уровня раз- вития измеряемой тестом способности. Возможно, например, что лица с разными уровнями способностей пользуются при выполнении одного и того же задания различными методами решения задач или когни- тивными навыками. Поэтому задания, оказавшиеся относительно трудными при решении их методом А, могут оказаться намного легче, если их решать методом В, и наоборот. Следует добавить, что все методы исследования взаимодействия между заданием и группой в тестах способностей применимы также к личностным тестам. В последнем случае, правда, измеряется не труд- ность заданий, а относительная частота выбора конкретных ответов в тестах типа шкал способностей или личностных опросников. Отбор заданий для минимизации или максимизации груп- повых различий. При построении определенных тестов взаимодей- ствие между заданием и группой используется в качестве признака для отбора заданий. В ходе разработки, например, тестов Станфорд-Вине составители стремились исключить задания, ставящие представителей того или иного пола в более выгодное положение. При этом предполага- лось, что такие задания отражают чисто случайные и несущественные различия в опыте двух полов (Q. McNemar, 1942, гл. 5). Однако ввиду ограниченного числа заданий для каждого возрастного уровня было не- возможно изъять все задания, выполняемые по-разному представителя- ми полов. Поэтому чтобы исключить фактор пола из суммарного ре- зультата теста, оставшиеся задания такого рода были сбалансированы так, чтобы мальчики имели преимущество в таком же числе заданий, что и девочки. Описанный подход, однако, нельзя применить ко всем случаям груп- повых различий. В то время как одни тесты, такие, как Станфорд-Бине, сглаживают различия в выполнении теста испытуемыми мужского и женского пола, в других тестах такие различия сохраняются, но для каждого пола приводятся отдельные нормы. Это чаще практикуется в тестах специальных способностей, в которых, как правило, системати- чески обнаруживается значительная разница в пользу одного или друго- го пола. Более того, при определенных обстоятельствах задания выбираются с целью не сократить, а довести до максимума различия между резуль- татами мужчин и женщин. Примером здесь служат шкалы мужественно- сти и женственности, разработанные для использования в некоторых личностных опросниках (см. гл. 17). Поскольку цель этих шкал-опреде- лить, в какой степени ответы индивида согласуются со свойственной на- шей культуре характеристиками мужественности и женственности, то
203 АНАЛИЗ ЗАДАНИЙ
в них сохраняются только те задания, которые обеспечивают значимое различение полов. Подобное разнообразие методик можно обнаружить и применитель- но к другим групповым различиям в выполнении заданий. При разра- ботке шкалы социоэкономического статуса многостадийного личностно- го опросника штата Миннесота (ММР1) сохранялись только те вопросы, которые значимо дифференцировали ответы старшеклассников, принад- лежащих к двум контрастным социоэкономическим группам (H.G.Ga- ugh, 1948). Перекрестная валидация этой шкалы на новой выборке стар- шеклассников обнаружила корреляцию 0,5 с объективными показателя- ми социоэкономического статуса. Цель этого теста-определить, в какой степени индивидуальные эмоциональные и социальные реакции испытуе- мого сходны с реакциями, характерными для людей высшего или низше- го социоэкономического уровня. Поэтому задания, подчеркивающие раз- личия между социальными слоями, включались в тест, а те, которые обладали низкой или нулевой разрешающей способностью, отбрасыва- лись. Эта процедура напоминает ту, которая была использована при раз- работке шкал мужественности и женственности. Очевидно, что в тестах обоих типов дифференциация групп является критерием, по которому проводится валидация теста. В подобных случаях социоэкономический уровень и пол являются соответственно наиболее существенными пере- менными, на основе которых выбираются задания. Можно также привести примеры противоположного подхода к со- циоэкономическим и культурным различиям в тесте. Широкое исследова- ние культурных различий в заданиях тестов интеллекта было предприня- то в Чикагском университете (К. Eells et а1., 1951). Исследователи полагали, что большая часть таких тестов ставит в невыгодные условия детей из семей низших социоэкономических слоев, поскольку многие за- дания предполагают наличие у испытуемых информации, навыков и ин- тересов, типичных для детей из семей среднего достатка. Чтобы подтвер- дить эту гипотезу фактическими данными, был проведен детальный анализ заданий восьми весьма распространенных групповых тестов ин- теллекта. По каждому заданию сравнивались частоты правильных отве- тов детей из семей более высокого и более низкого социоэкономического уровня. На основании полученных результатов двумя исследователями был подготовлен специальный тест, как предполагалось, более <справед- ливый> по отношению к американским детям из низших слоев городско- го населения. При разработке этого теста составители стремились ис- ключить из него задания, которые, как выяснилось, ставят в более выгодное положение детей из семей среднего достатка. Как и в случае различий пола, нельзя выработать при рассмотрении заданий строгой линии поведения, ведущей к выявлению культурных различий, но можно указать на некоторые основные положения соста- вления и интерпретации тестов. Во-первых, вопрос о том, сохранить или отбросить задание, значимо дифференцирующее те или иные группы, ре- шается в зависимости от назначения теста. Если прогнозируемые крите-
Применение этого теста, известною под названием <Игры Дейвиса-Иилса>, было впоследствии приостановлено, поскольку он оказался неудовлетворительным по ряду фак- торов, включая низкую валидность в прогнозировании школьной успеваемости и других практических критериев. Более того, ожидаемое преимущество в этом тесте для детей низ- ших слоев населения не подтвердилось на других выборках.
204 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
рии существенно различаются для лиц разного пола, социоэкономиче- ского уровня или иных категорий, то задания теста, по всей вероятности, должны выявлять такие групповые различия. Устранить подобные зада- ния из теста-значило бы понизить его валидность по прогнозированию данных критериев (A. Anastasi, 1966). Во-вторых, если с помощью теста предполагается измерять сходство индивида с той или иной группой, то Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|