Анастази А. » Психологическое тестирование

рам. Так, результаты теста могут не коррелировать значимо с оценками

профессиональных навыков мастером и тем не менее оказаться валидны-

ми относительно более поздних данных ухода с работы или продвиже-

ния по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959).

Ввиду комплексности критерия валидация теста относительно слож-

ного критерия профессиональных навыков, академической успеваемости

и других аналогичных показателей часто представляет сомнительную

ценность и обладает лишь локальной значимостью. В случае относитель-

139 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия

ной независимости различных критериев более эффективна валидация те-

ста относительно того аспекта критерия, на который этот тест ориенти-

рован в первую очередь. Анализ этих более специфических соотношений

осмысляет тестовые показатели с точки зрения многомерности крите-

риального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace,

1965). Например, один тест может хорошо прогнозировать скорость во-

сприятия клерка и точность выполнения мелкой работы, другой-гра-

мотность его письма, третий-способность сосредоточиться на выполня-

емой работе и т.д.

Возвращаясь к практическим вопросам оценки теста или комбина-

ции тестов как средства прогнозирования комплексного критерия (ска-

жем, успеха в работе), мы сталкиваемся с необходимостью проведения

конкретной валидации для каждой частной ситуации и повторения ее че-

рез короткие промежутки времени. Это считается желательным и часто

рекомендуется в руководствах к тестам. В большинстве случаев, однако,

следовать таким предписаниям не удается. Даже если мы располагаем

хорошо подготовленным персоналом, большинство валидационных ис-

следований, осуществляемых в условиях производства, часто оказывают-

ся неудовлетворительными минимум по трем причинам. Во-первых,

трудно получить надежные и достаточно полные критериальные данные.

Во-вторых, число работников, выполняющих одну и ту же или близкие

функции на одном предприятии, часто слишком мало для получения ста-

тистически значимых результатов. В-третьих, корреляция, как правило,

снижается ввиду ограниченного разброса показателей, что объясняется

предварительным отбором: фактически испытуемыми оказываются

лишь те, кто был принят на работу.

В силу перечисленных обстоятельств среди психологов, занимаю-

щихся проблемами кадров, проявляется растущий интерес к так называе-

мой синтетической валидности. Это понятие было введено Ч. X. Лоши

(С.Н. Lawshe, 1952) и определено М. Балмой как <установление валидно-

сти в конкретных условиях на основе систематического анализа элемен-

тов деятельности, определение по этим элементам валидности теста

и объединение составляющих валидностей в единый показатель>

(M.J.Balma, 1959, р. 395). Были разработаны методы сбора необхо-

димых эмпирических данных и получения из них значения синтетической

валидности для частного комплексного критерия (R.M. Guion, 1965;

С.Н. Lawshe, M.J. Balma, 1966, гл. 14; E.J. McCormick, 1959; E.S. Prirnoff,

1959; 1975). По сути дела весь процесс складывается из трех этапов: (1)

детальный анализ деятельности для выделения ее элементов и определе-

ния их относительных весов; (2) анализ и экспериментальное исследова-

ние каждого теста для выяснения того, в какой степени он измеряет на-

выки в выполнении каждого из выделенных элементов деятельности; (3)

определение валидности каждого теста путем синтеза весов отдельных

элементов в деятельности и в тесте.

В результате длительного исследования лиц, поступавших на работу

в Гражданскую службу США, Э.С. Примов (E.S. Prirnoff, 1975) вывел так

называемый J-коэффициент-показатель синтетической валидности. Про-

цедура его получения предусматривает, в частности, список элементов

деятельности, записанных на языке профессиональных действий, и оцен-

ку относительной важности этих элементов куратором работы или мето-

дистом. На выборках из всей совокупности подавших заявление (т. е. без

ттг>г>уг<-пцця птбопа) опоеделяются коэффициенты корреляции между

140 ПРИНЦИПЫ ПСИХО.ЮГИЧЕСКОГО ТЕСТИРОВАНИЯ

результатами тестов и самооценкой элементов деятельности. Приме-

няются различные меры для повышения стабильности корреляции и ве-

сов, вычисленных на основе самооценок, а также для обеспечения надле-

жащего учета критериев. С этой целью исследуются различные выборки

испытуемых. Окончательная оценка корреляции между тестом и выпол-

нением деятельности определяется на основе корреляции каждого эле-

мента с конкретной деятельностью и весов тех же самых элементов

в данном тестер Как выяснилось, J-коэффициент позволил повысить

шансы приема на работу представителей различных меньшинств и лиц

с низким образовательным цензом, поскольку он ориентирован на навы-

ки, существенные для выполнения работы (E.S. Prirnoff, 1975).

Иное использование синтетической валидности, особенно пригодное

для небольших фирм, в которых тот или иной вид работы выполняется

небольшим числом сотрудников, описано Р. М. Гюйоном (R. М. Guion,

1965). Исследование было проведено на предприятии со штатом из 48 со-

трудников, каждый из которых выполнял обязанности, отличные от обя-

занностей остальных. Детальный анализ этих обязанностей тем не менее

выявил 7 элементов, общих для многих видов работ. Каждому сотрудни-

ку давались оценки по всем элементам его деятельности, и эти оценки

сопоставлялись с его результатами по каждому тесту батареи профес-

сиональных качеств. На основе такого анализа для каждого вида работы

удалось синтезировать свою батарею, состоящую из двух тестов, наилуч-

ших с точки зрения их корреляции с элементами соответствующей дея-

тельности. Когда составленные таким путем батареи были проверены

при приеме 13 новых сотрудников, результаты оказались весьма обнаде-

живающими. Ввиду малого количества изученных случаев данные этого

исследования носят предварительный характер и лишь указывают на

возможность применения синтетической валидности.

Эти два примера синтетической валидности приведены единственно

с целью проиллюстрировать область применения данного метода.

Чтобы познакомиться с реальными процедурами, читателю следует

обратиться к первоисточникам. Итак, понятие <синтетическая валид-

ность> может быть использовано по-разному в зависимости от конкрет-

ной ситуации. Из него вырастает довольно многообещающий подход

к проблеме комплексного и непостоянного критерия; оно позволяет ком-

пановать тестовые батареи сообразно специфике работы и определять

валидность в условиях, когда адекватная валидность критерия практиче-

ски неосуществима. ,

КОНСТРУКТНАЯ ВАЛИДНОСТЬ

Конструктная валидность теста показывает, насколько его результаты

могут рассматриваться в качестве меры некоего теоретического кон-

структа или свойства. Примерами таких конструктов являются интел-

лект, понимание пространственных отношений, плавность речи, скорость

ходьбы, невротизм и тревожность. Будучи нацелена на широкие, устой-

" Сгатистическая обработка основана на применении уравнения множественной ре-

грессии (см. гл. 7). Для каждого элемента деятельности его корреляция с деятельностью

в целом умножается на его вес в тесте, и полученные произведения суммируются по всем

элементам деятельности.

141 ВЛЛИДНОСП.. OlIIOUHl.lh ПОНЯТИЯ

чивые и более абстрактные описания типов поведения, чем ранее рассмо-

тренные тины ва.лидностк, конструктная валидное ib предполагает посте-

пенное накопление информации из разных источников. В дело идут

любые данные, бросающие сеет на природу рассматриваемого свойства,

на условия, от которых зависит его развитие и проявление. Ниже обсу-

ждаются конкретные методы получения конструктной валидности.

Возрастные изменения. Главным критерием, используемым при

валидации ряда тестов интеллекта, является возрастная дифференциация.

Тесты типа Станфорд-Вине и большинство тестов для дошкольников

проверяются на фактический возраст с тем, чтобы выяснить, повышают-

ся ли тестовые результаты детей от года к году. Поскольку для детского

возраста характерно постоянное духовное и физическое развитие, резуль-

таты валидного теста также должны соответственно повышаться. Само

понятие возрастной шкалы интеллекта, по мысли А. Бине, исходит из то-

го положения, что <интеллект> растет по крайней мере до наступления

зрелости.

Критерий возрастной дифференциации, разумеется, неприменим

к таким функциям, которые не обнаруживают четких и постоянных воз-

растных изменений. В области тестирования личности, например, этот

критерий нашел ограниченное применение. Более тою, необходимо от-

метить, что возрастная дифференциация, даже когда она применима,

является необходимым, но не достаточным условием валидности. Иначе

говоря, если тестовые результаты нс улучшаются с возрастом, то это,

видимо, указывает на невалидность теста относительно умений, которые

он должен измерять. Вместе с тем, доказывая, что тест измеряет некое

свойство, совершенствующееся с возрастом, мы еще не очерчиваем до-

статочно точно область, охватываемую тестом. Измерение роста и веса

также с возрастом дает все более высокие результаты, однако оно никак

не является тестом интеллекта.

В заключение подчеркнем еще один момент, касающийся интерпре-

тации возрастного критерия. Психологический тест, валидность которого

установлена относительно такого критерия, измеряет поведенческие ха-

рактеристики, растущие с возрастом в условиях той среды, в которой

тест был стандартизован. Поскольку различные культуры могут стиму-

лировать развитие различных поведенческих характеристик, критерий

возрастной дифференциации нельзя считать универсальным. Как и все

другие критерии, он действителен лишь для определенной культурной

среды.

Анализ возрастных изменений играет большую роль в конструктной

валидации уже упоминавшихся в гл. 4 порядковых шкал Пиаже. Основ-

ной предпосылкой таких шкал является последовательность ступеней

развития, проявляющаяся н том, 410 развитие представлений, сложив-

шихся на ранних ступенях, служи т предпосылкой к овладению последую-

щими интеллектуальными операциями. Таким образом, содержанию

этих шкал присуща имманентная иерархичность. Конструктная валид-

ность порядковых шкал, следовательно, включасг эмпирические данные

об инвариантах носле;1.ова1сл1>пых ступеней развития. Это означает про-

верку выполнения теста детьми на разных уровнях развития данного

представления, скажем, постоянства или сохранения объекта. Нужно ли

убеждаться в том, что владение каким-то представлением на данном

уровне означает владение им и на более низких уровнях? Поскольку кри-

142 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ствии с иерархичностью ступеней развития, их валидность также зависит

от эмпирической подтверждаемости данной иерархии.

Корреляция с другими тестами. Корреляция между новым

и аналогичными ему существующими тестами рассматривается как при-

знак того, что новый тест измеряет примерно ту же сферу поведения, что

и другие одноименные тесты, такие, как тесты интеллекта или тесты тех-

нических способностей и т.д. В отличие от валидности по критерию

здесь корреляция должна быть, но не слишком высокой. Если новый

тест слишком тесно коррелирует с уже существующим и не обладает

преимуществами в смысле краткости или легкости применения, то это

означает излишнее дублирование имеющегося теста.

Корреляция с другими тестами применяется, помимо этого, в каче-

стве меры независимости нового теста от влияния определенных посто-

ронних факторов. Например, тест специальных способностей или лич-

ностный тест должен обладать незначительной корреляцией с тестами

общего интеллекта или способности к обучению. Соответственно пони-

мание читаемого не должно заметно влиять на выполнение таких тестов.

Это объясняет, почему корреляции с тестами общего интеллекта, чтения

и понимания слов иногда приводятся как косвенное, или негативное, до-

казательство валидности. В этих случаях высокая корреляция ставила бы

под сомнение валидность теста. Однако низкая корреляция сама по себе

еще не гарантирует достаточной валидности. Нужно иметь в виду, что

этот способ использования корреляции с другими тестами аналогичен

одному из рассмотренных выше вспомогательных приемов валидации по

содержанию.

Факторный анализ. Прямое отношение к конструктной валидно-

сти имеет факторный анализ-статистический метод выделения психоло-

гических свойств. В сущности факторный анализ представляет собой усо-

вершенствованную технику анализа соотношений данных поведения.

Например, если 300 испытуемых пройдут 20 тестов, то первый шаг со-

стоит в вычислении попарных корреляций между всеми тестами. Провер-

ка полученной таким путем таблицы из 190 коэффициентов корреляции

уже может выявить коррелирующие между собой тесты, что означало

бы выделение общих для них свойств. Если такие тесты, как словарный,

синонимов, антонимов и завершения предложений, тесно коррелируют

между собой и слабо-с другими тестами, то мы могли бы выделить на-

личие общего им фактора-понимание слов.

Поскольку такой проверочный анализ корреляционной таблищд

и труден и ненадежен, то для выявления общих факторов, за счет ко-

торых можно объяснить полученные корреляции, применяются более

точные статистические методы. Эти методы будут еще рассмотрены

в гл. 13, где речь пойдет о комплексных батареях способностей, разра-

батываемых при помощи факторного анализа.

В ходе факторного анализа равное количеству тестов число пере-

менных или категорий, служащих для описания выполнения теста инди-

видом, сокращается до нескольких факторов или общих свойств. В при-

веденном выше примере для объяснения попарных корреляций между 20

тестами хватило бы 5-6 факторов. Иначе говоря, результаты каждого

индивида по 20 тестам можно было бы заменить данными по 5 или

6 факторам. Главное назначение факторного анализа состоит в упроще-

нии описания данных путем сокращения числа категорий до нескольких

143 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ

После идентификации факторов их можно использовать для описа-

ния факторного состава теста. Каждый тест может быть охарактеризо-

ван посредством основных факторов, определяющих его показатели, ве-

сом, или нагрузкой, каждого фактора и корреляцией теста с каждым из

них. Такая корреляция именуется факторной валидностью теста. Так, ес-

ли в словарном тесте фактор понимания слов имеет вес 0,66, то фактор-

ная валидность этого лексического теста как средства измерения пони-

мания слов равна 0,66. Важно отметить, что факторная валидность

представляет собой корреляцию теста с тем, что есть общего для группы

тестов или других указателей поведения. Анализируемое множество

переменных может, конечно, включать в себя как тестовые, так и внете-

стовые данные, в том числе субъективные оценки и другие крите-

риальные меры. Все они наряду с другими тестами могут быть исполь-

зованы для исследования факторной валидности конкретного теста и для

определения измеряемых им свойств.

Внутренняя согласованность. В описаниях ряда тестов, особен-

но тех, которые применяются для исследования личности, говорится, что

валидность теста была установлена методом внутренней согласованно-

сти. Существенной чертой этого метода является использование в каче-

стве критерия суммарного показателя данного теста. Иногда при этом

применяется метод сравнения контрастных групп, которые формируются

из испытуемых, показавших самые высокие и самые низкие суммарные

результаты. Выполнение каждого теста группой с высокими результата-

ми сравнивается с выполнением группой с низкими результатами, и те

задания, с которыми первая группа не справляется значительно лучше,

чем вторая, признаются невалидными и либо отбрасываются, либо пере-

сматриваются. Можно также воспользоваться бисериальной корреляцией

между исходами (<справился-не справился>) каждого задания и сум-

марным результатом теста, и тогда сохраняются только те задания, для

которых отмечена значимая корреляция с тестом в целом. Если тест со-

стоит из заданий, прошедших такого рода отбор, то говорят, что тест