Анастази А. » Психологическое тестирование

обладает внутренней согласованностью, поскольку все его задания под-

чинены основному направлению теста как целого.

Критерий внутренней согласованности означает также корреляцию

между результатами субтеста и суммарным результатом. Многие тесты

интеллекта, например, состоят из раздельно применяемых субтестов (та-

ких, как словарный, арифметический, завершение картинки и т.д.), из ре-

зультатов которых складывается общий результат теста. При построе-

нии таких тестов определяется корреляция между результатами каждого

субтеста с общим результатом и субтесты, плохо коррелирующие с те-

стом в целом, отбрасываются. Коэффициенты корреляции для оставших-

ся субтестов приводятся затем как свидетельство внутренней согласован-

ности всего теста.

Очевидно, что корреляции внутренней согласованности теста-суще-

ственная мера его однородности. Поскольку это свойство помогает оха-

рактеризовать область поведения или свойство, выборочно представлен-

ное в тесте, то степень однородности теста имеет отношение

к конструктной валидности. Тем не менее роль внутренней согласованно-

сти в валидности теста весьма ограничена. При отсутствии информации,

внешней по отношению к тесту, мало что можно сказать о том, что он

измеряет.

.-_-".""" "др""" д результаты

144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯ

теста. Еще одним источником данных о конструктной валидности мо-

гут служить эксперименты, в которых исследуется влияние тех или иных

факторов на результаты теста. При проверке валидности критериально-

ориентированного теста, предназначенного, скажем, для использования

в индивидуальном обучении, один из подходов состоит в сравнении ре-

зультатов тестирования до и после экспериментального воздействия.

Предполагается, например, что результаты до обучения должны быть

низкими, а после обучения - высокими. То же соотношение можно прове-

рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеале

с каждым заданием до обучения должно справиться минимальное, а по-

сле обучения-максимальное число учеников. Задания, с которыми мало

кто справляется в обоих случаях, слишком трудны, а те, с которыми

справляются все и до и после обучения, слишком доступны с точки зре-

ния целей, преследуемых тестом. Если многие в первый раз справляются,

а во в горой раз не справляются с заданием, то что-то неладно или

с этим заданием, или с обучением, или с тем и другим.

Тест, предназначенный для измерения тревожности, можно испы-

тать, давая его испытуемым до и после того, как они были помещены

в обстановку, провоцирующую состояние тревоги (примером может слу-

жить проверка знаний в условиях, отвлекающих от проверки, и в стрес-

совой ситуации). Начальные тестовые показатели можно сопоставить

с физиологическими и иными показателями тревоги во время и после

экспериментального воздействия. Вместе с тем можно сравнить резуль-

таты тестирования до и после воздействия. Значимый прирост показате-

ля теста будет свидетельствовать о том, что он отражает текущий уро-

вень тревожности. Аналогичным образом можно построить эксперимент

на проверку теста относительно других измеряемых им свойств.

Конвергентная и дискриминантная валидности. В своем

глубоком анализе конструктной валидности Д.Т. Кэмпбелл

(D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави-

сит не только от того, насколько тесно он коррелирует с другими пере-

менными, с которыми теоретически должен коррелировать, но и от от-

сутствия значимой корреляции с переменными, с которыми он не должен

быть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске

(D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на-

званы конвергентной и дискриминантной валидацией. Например, значи-

мая корреляция теста технических способностей с последующими оцен-

ками но курсу производственною обучения относится к конвергентной

валидности, тогда как дискриминант ной валидности отвечала бы низкая

и незначимая корреляция с пониманием читаемою текста, поскольку это

умение безотносигельно к icciy. предназначенному измерять технические

способное т и.

Напомним. 410 требование низкой корреляции с безотносительными

к тесту переменными рассматривалось выше в связи с дополнительными

процедурами валидацни по содержанию. Дискриминантная валидация

также имеет прямое отпопгенпс к определению валидности личностных

тестов, в которых безотносшельные к гесту переменные, причем разны-

ми путями, могут влиять на результаты.

В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло-

жена схема эксперимента, позволяюгцею одновременно производить

конвергентную и дпскриминапгпую валидацию. названную ими много-

145

иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯ

гает оценку двух или более свойств двумя или более методами. Табл. 12,

взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра-

жены всевозможные корреляции показателей по трем свойствам, изме-

ряемым тремя методами. Эти свойства А, В и С могут обозначать со-

ответственно склонность к лидерству, общительность и мотивацию

достижений. В качестве методов могут выступать (1) опросник, который

испытуемый заполняет сам, (2) проективная методика и (3) оценки кол-

лег. Таким образом, А означает данные о стремлении к лидерству, по-

лученные с помощью онросника, л;-данные по тому же признаку, но на

основании проективного теста, а Сд-оценки мотивации достижений, да-

ваемые коллегами, и т.д.

Гипотетические коэффициенты корреляции, приведенные в табл. 12,

включают в себя коэффициенты надежности (они стоят в скобках вдоль

главной диагонали) и коэффициенты валидности (напечатаны полу-

жирным шрифтом но трем коротким диагоналям). Как показывают

коэффициенты валидности, результаты измерения каждого свойства раз-

личными методами коррелируют между собой. Здесь каждая мера сопо-

ставляется с другими независимыми мерами того же свойства, как и

в знакомой нам процедуре валидации. Таблица также содержит коэффи-

циенты корреляции между различными свойствами, измеренными одним

и тем же (сплошные треугольники) и разными (пунктирные треугольни-

Таблица 12

Гипотетическая миоюметодная матрица свойств (D.T.Campbell, D.W.Fiske, 1959, р. 82)

Мотод 1

Метод 2

Метод 3

свойства А B.i С.)

В, С, АЗ

0,89)

Метод 1 В<

.(0,76)

Ag 0,570,22 0,0910,93)

Метод 2 Bg 1 0,220,57 0,10

I -j

Ll -ЇU Ъ

0,22 0 1.0,670,42 0,33 1,94)

1 1

Метод 3 Вд 1 0,23 0,58 0,12 0,43" 0,660,34

0,11 0,110,45 [0,34 0,320,58

.(0,85)

146 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ки) методами. Конструктная валидность может считаться удовлетвори-

тельной, если коэффициенты валидности явно выше коэффициентов кор-

реляции между различными свойствами, измеренными различными

методами. Они также должны быть выше коэффициентов корреляции

между различными свойствами, измеренными одним и тем же методом.

Например, корреляция между стремлением к лидерству, определенным

путем самооценки и проективным методом, должна быть выше, чем кор-

реляция между стремлением к лидерству и общительностью, найденным

по опросникам, заполняемым самим испытуемым. Если последняя кор-

реляция, представляющая дисперсию при фиксированном методе, была

бы высокой, то это могло бы означать, например, что на индиви-

дуальные результаты данного опросника заметно влияет такой безотно-

сительный к тесту фактор, как способность понимать вопросы или жела-

ние предстать в выгодном свете по всем свойствам.

Д. В. Фиске (D. W. Fiske, 1973) считает желательным дополнительно

воспользоваться еще одним множеством корреляций, особенно при кон-

структной валидности личностных тестов. Эти корреляции относятся

к измерению одного и того же свойства одним и тем же методом, но по-

средством разных тестов. Например, два исследователя могут независи-

мо друг от друга составить опросники выносливости, а результаты обо-

их опросников могут по-разному коррелировать с другими свойствами

личности. Если это происходит, то нельзя считать, что оба опросника из-

меряют один и тот же личностный конструкт-выносливость.

Добавим, что описанная выше матрица надежности указывает на со-

гласованность двух мер одного и того же свойства, полученных предель-

но сходными методами, такими, как параллельные формы теста; на ва-

лидность между двумя мерами одного свойства, полученными предельно

различными методами, например с помощью теста и посредством опро-

са мнений коллег. Поскольку сходство и различие методов могут про-

являться в разной степени, теоретически надежность и валидность могут

рассматриваться как принадлежащие одному и тому же континууму. Од-

нако, как правило, методы, используемые для измерения надежности

и валидности, легко различимы.

итоги

Мы рассмотрели несколько способов задавать вопрос: <Насколько

валиден данный тест?> Чтобы четче выделить отличительные черты раз-

ных типов валидности, применим каждый из них к тесту, состоящему

из 50 различных арифметических задач. В табл. 13 отражены 4 способа

использования данного теста и соответствующие им процедуры валида-

ции. Из таблицы видно, что выбор процедуры валидации зависит от

последующего назначения результатов теста. Валидность одного и того

же теста в зависимости от цели его применения должна устанавли-

ваться по-разному. Если тест достижений используется для предска-

зания дальнейших успехов на более высоком уровне обучения, как в слу-

чае отбора старшеклассников при их приеме в колледж, то валидность

этого теста нужно устанавливать относительно оценок, получаемых

в колледже, а не относительно содержания данного школьного курса.

Примеры из табл. 13 поясняют различия между разного типа ва-

лидациями. Дальнейшее рассмотрение этих процедур, однако, показы-

вает, что валидности по содержанию, относительно критерия и конструкт-

ная ре являются строго различными или логически упорядоченными

147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия

Таблица 13

Валидность одного и того же арифметического теста применительно к разным целям

Цель тестирования Вопрос) на который должен Тип валидности

ответить тест

Тестирование достижений по Что Дик усвоил на По содержанию

арифметике в средних классах сегодняшний день?

школы

Тестирование способностей для Как Джим будет Прогностическая

предсказания возможности освоения учиться в дальнейшем? относительно критерия

курса математики в старших

классах

Диагностирование трудностей Выявило ли выполнение Текущая относительно

в обучении теста Биллом какие-то критерия

трудности в обучении?

Тестирование логического Как можно охарактери- Конструктная

мышления зовать психическую

деятельность Генри?

категориями. Напротив, конструктная валидность-широкое понятие,

включающее другие типы валидности. Все обсуждавшиеся выше конкрет-

ные методы установления валидностей по содержанию или относитель-

но критерия можно было рассматривать в разделе конструктной валид-

ности. Сравнение показателей двух групп, скажем невротиков и здоро-

вых, является способом проверки конструктной валидности теста, на-

правленного на измерение эмоциональной устойчивости, тревожности и

других свойств личности. Сравнение показателей глубоко умственно от-

сталых и нормальных школьников-это способ исследования конструкт-

ной валидности теста интеллекта. Корреляция теста технических спо-

собностей с успешностью обучения на специализированных курсах и с

выполнением различного рода работ позволяет нам лучше понять

конструкт, измеряемый тестом. Валидность относительно разнообразных

практических критериев обычно приводится в руководствах к тесту с

тем, чтобы будущему его пользователю легче было узнать, что изме-

ряет тест. Даже не будучи заинтересован в предсказании использован-

ных критериев, он по их списку сможет составить себе представле-

ние об области поведения, выборочно представленной в тесте.

Точно так же валидность по содержанию играет важную роль как

при построении, так и при последующей оценке всех тестер. Подбирая

задания для любого нового теста, составитель руководствуется неко-

торыми гипотезами относительно соотношения между выбираемым ти-

пом содержания и поведением, которое он намерен измерять. Все спо-

собы валидации критерия, в том числе обсуждавшиеся в конструктной

валидности, служат инструментом проверки таких гипотез. Что касается

пользующегося.тестом, то при оценке теста ему не следует слишком по-

лагаться на валидностьпо содержанию. Например, при проверке словар-

ного состава опросника эмоциональной устойчивости с точки зрения до-

ступности его для тех, кого намечается тестировать, он может

обнаружить, что результаты определенного теста слишком зависят от

скорости работы испытуемого или что в тесте интеллекта, разработан-

ном 20 лет назад, слишком много устаревших заданий. Все такие нябтттп-

148 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ста. Собственно говоря, нет таких сведений, получаемых в ходе любой

процедуры валидации, которые бы ни имели отношения к конструктной

валидное ти.

Официально термин <конструктная валидность> был введен в психо-

метрию в 1954 г. в <Методических указаниях по психологическим тестам

и диагностике>, являющихся первым изданием ныне действующих

<Норм> Американской психологической ассоциации (Standards..., 1974).

Хотя процедуры, отнесенные к разряду конструктной валидации, в то

время были уже не новы, последовавшее затем обсуждение конструктной

валидности способствовало уточнению формулировок и систематическо-

му обоснованию данного подхода. Понятие конструктной валидности

позволило подчеркнуть роль психологической теории в разработке те-

стов и необходимость формулировать гипотезы, подлежащие подтвер-

ждению или опровержению в процессе валидации. Это особенно важно

при опенке тестов, предназначенных для научных изысканий.

В практическом плане это понятие оказалось полезным при изуче-

нии валидности критериальных мер, применяемых в традиционной вали-

дации по критерию (L.R.James. 1973). Анализируя корреляцию раз-

личных критериальных мер между собой и с другими относительными

переменными, проводя факторный анализ таких данных, можно больше

узнать о значении того или иного критерия. В некоторых случаях резуль-

таты такого исследования приводят к перестройке или замене критерия,

выбранною для валидации теста. Так или иначе они обогащают интер-

претацию данных о валидности теста.

Конструктная валидность находит также практическое применение

в ситуациях, когда валидация по критерию невозможна, например при

определении локальной валидности тестов для отбора персонала на про-

мышленные предприятия. Выше, при обсуждении синтетической валид-

ности, уже говорилось о возникающих в этом случае трудностях. Кон-

структная валидность подсказывает еще один способ преодоления этих

трудностей при оценке применимости существующих тестов к опреде-

ленному виду работ. Как и при построении синтетической валидности,

этот подход предусматривает проведение систематического анализа типа

работы, после чего квалификация выполняющего ее работника описы-

вается в терминах конструктов соответствующего поведения. Далее, если

тест до своей публикации прошел необходимые исследования, то сведе-

ния, пршюдпмые в руководстве к нему, позволяют очертить основные

коне) рук ii.i, измеряемые тестом. Если они явно совпадают с теми, ко-

торые 1п.1лс,к:<1 измерению, то указанные сведения дают возможность

пепосрсдч псине оценить соответствие теста функциям, осуществляемым

при данном циде работ. В противном случае с их помощью можно рас-

СЧ111.П1, ./конфициент или иной количественный показатель синтетиче-

ской палндноии.

Коне 1 рук тая валидность также стимулировала поиски новых путей

получения палидациоппых данных. Хотя основные методы исследования

коне 1 рук iiioii иалидностп уже давно известны, к ним присоединяются все

новые и HOIII.IC процедуры. Однако многочисленность методов сбора

данных lain в себе определенные опасности. Может случиться, что со-