|
Анастази А. » Психологическое тестированиеобладает внутренней согласованностью, поскольку все его задания под- чинены основному направлению теста как целого. Критерий внутренней согласованности означает также корреляцию между результатами субтеста и суммарным результатом. Многие тесты интеллекта, например, состоят из раздельно применяемых субтестов (та- ких, как словарный, арифметический, завершение картинки и т.д.), из ре- зультатов которых складывается общий результат теста. При построе- нии таких тестов определяется корреляция между результатами каждого субтеста с общим результатом и субтесты, плохо коррелирующие с те- стом в целом, отбрасываются. Коэффициенты корреляции для оставших- ся субтестов приводятся затем как свидетельство внутренней согласован- ности всего теста. Очевидно, что корреляции внутренней согласованности теста-суще- ственная мера его однородности. Поскольку это свойство помогает оха- рактеризовать область поведения или свойство, выборочно представлен- ное в тесте, то степень однородности теста имеет отношение к конструктной валидности. Тем не менее роль внутренней согласованно- сти в валидности теста весьма ограничена. При отсутствии информации, внешней по отношению к тесту, мало что можно сказать о том, что он
измеряет. .-_-".""" "др""" д результаты
144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯ
теста. Еще одним источником данных о конструктной валидности мо- гут служить эксперименты, в которых исследуется влияние тех или иных факторов на результаты теста. При проверке валидности критериально- ориентированного теста, предназначенного, скажем, для использования в индивидуальном обучении, один из подходов состоит в сравнении ре- зультатов тестирования до и после экспериментального воздействия. Предполагается, например, что результаты до обучения должны быть низкими, а после обучения - высокими. То же соотношение можно прове- рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеале с каждым заданием до обучения должно справиться минимальное, а по- сле обучения-максимальное число учеников. Задания, с которыми мало кто справляется в обоих случаях, слишком трудны, а те, с которыми справляются все и до и после обучения, слишком доступны с точки зре- ния целей, преследуемых тестом. Если многие в первый раз справляются, а во в горой раз не справляются с заданием, то что-то неладно или с этим заданием, или с обучением, или с тем и другим. Тест, предназначенный для измерения тревожности, можно испы- тать, давая его испытуемым до и после того, как они были помещены в обстановку, провоцирующую состояние тревоги (примером может слу- жить проверка знаний в условиях, отвлекающих от проверки, и в стрес- совой ситуации). Начальные тестовые показатели можно сопоставить с физиологическими и иными показателями тревоги во время и после экспериментального воздействия. Вместе с тем можно сравнить резуль- таты тестирования до и после воздействия. Значимый прирост показате- ля теста будет свидетельствовать о том, что он отражает текущий уро- вень тревожности. Аналогичным образом можно построить эксперимент на проверку теста относительно других измеряемых им свойств. Конвергентная и дискриминантная валидности. В своем глубоком анализе конструктной валидности Д.Т. Кэмпбелл (D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави- сит не только от того, насколько тесно он коррелирует с другими пере- менными, с которыми теоретически должен коррелировать, но и от от- сутствия значимой корреляции с переменными, с которыми он не должен быть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске (D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на- званы конвергентной и дискриминантной валидацией. Например, значи- мая корреляция теста технических способностей с последующими оцен- ками но курсу производственною обучения относится к конвергентной валидности, тогда как дискриминант ной валидности отвечала бы низкая и незначимая корреляция с пониманием читаемою текста, поскольку это умение безотносигельно к icciy. предназначенному измерять технические способное т и. Напомним. 410 требование низкой корреляции с безотносительными к тесту переменными рассматривалось выше в связи с дополнительными процедурами валидацни по содержанию. Дискриминантная валидация также имеет прямое отпопгенпс к определению валидности личностных тестов, в которых безотносшельные к гесту переменные, причем разны- ми путями, могут влиять на результаты. В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло- жена схема эксперимента, позволяюгцею одновременно производить конвергентную и дпскриминапгпую валидацию. названную ими много-
145
иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯ
гает оценку двух или более свойств двумя или более методами. Табл. 12, взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра- жены всевозможные корреляции показателей по трем свойствам, изме- ряемым тремя методами. Эти свойства А, В и С могут обозначать со- ответственно склонность к лидерству, общительность и мотивацию достижений. В качестве методов могут выступать (1) опросник, который испытуемый заполняет сам, (2) проективная методика и (3) оценки кол- лег. Таким образом, А означает данные о стремлении к лидерству, по- лученные с помощью онросника, л;-данные по тому же признаку, но на основании проективного теста, а Сд-оценки мотивации достижений, да- ваемые коллегами, и т.д. Гипотетические коэффициенты корреляции, приведенные в табл. 12, включают в себя коэффициенты надежности (они стоят в скобках вдоль главной диагонали) и коэффициенты валидности (напечатаны полу- жирным шрифтом но трем коротким диагоналям). Как показывают коэффициенты валидности, результаты измерения каждого свойства раз- личными методами коррелируют между собой. Здесь каждая мера сопо- ставляется с другими независимыми мерами того же свойства, как и в знакомой нам процедуре валидации. Таблица также содержит коэффи- циенты корреляции между различными свойствами, измеренными одним и тем же (сплошные треугольники) и разными (пунктирные треугольни-
Таблица 12 Гипотетическая миоюметодная матрица свойств (D.T.Campbell, D.W.Fiske, 1959, р. 82)
Мотод 1
Метод 2
Метод 3
свойства А B.i С.)
В, С, АЗ
0,89)
Метод 1 В<
.(0,76)
Ag 0,570,22 0,0910,93)
1 Метод 2 Bg 1 0,220,57 0,10
I -j Ll -ЇU Ъ
0,22 0 1.0,670,42 0,33 1,94)
1 1 Метод 3 Вд 1 0,23 0,58 0,12 0,43" 0,660,34
1 0,11 0,110,45 [0,34 0,320,58
.(0,85)
146 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ки) методами. Конструктная валидность может считаться удовлетвори- тельной, если коэффициенты валидности явно выше коэффициентов кор- реляции между различными свойствами, измеренными различными методами. Они также должны быть выше коэффициентов корреляции между различными свойствами, измеренными одним и тем же методом. Например, корреляция между стремлением к лидерству, определенным путем самооценки и проективным методом, должна быть выше, чем кор- реляция между стремлением к лидерству и общительностью, найденным по опросникам, заполняемым самим испытуемым. Если последняя кор- реляция, представляющая дисперсию при фиксированном методе, была бы высокой, то это могло бы означать, например, что на индиви- дуальные результаты данного опросника заметно влияет такой безотно- сительный к тесту фактор, как способность понимать вопросы или жела- ние предстать в выгодном свете по всем свойствам. Д. В. Фиске (D. W. Fiske, 1973) считает желательным дополнительно воспользоваться еще одним множеством корреляций, особенно при кон- структной валидности личностных тестов. Эти корреляции относятся к измерению одного и того же свойства одним и тем же методом, но по- средством разных тестов. Например, два исследователя могут независи- мо друг от друга составить опросники выносливости, а результаты обо- их опросников могут по-разному коррелировать с другими свойствами личности. Если это происходит, то нельзя считать, что оба опросника из- меряют один и тот же личностный конструкт-выносливость. Добавим, что описанная выше матрица надежности указывает на со- гласованность двух мер одного и того же свойства, полученных предель- но сходными методами, такими, как параллельные формы теста; на ва- лидность между двумя мерами одного свойства, полученными предельно различными методами, например с помощью теста и посредством опро- са мнений коллег. Поскольку сходство и различие методов могут про- являться в разной степени, теоретически надежность и валидность могут рассматриваться как принадлежащие одному и тому же континууму. Од- нако, как правило, методы, используемые для измерения надежности и валидности, легко различимы.
итоги
Мы рассмотрели несколько способов задавать вопрос: <Насколько валиден данный тест?> Чтобы четче выделить отличительные черты раз- ных типов валидности, применим каждый из них к тесту, состоящему из 50 различных арифметических задач. В табл. 13 отражены 4 способа использования данного теста и соответствующие им процедуры валида- ции. Из таблицы видно, что выбор процедуры валидации зависит от последующего назначения результатов теста. Валидность одного и того же теста в зависимости от цели его применения должна устанавли- ваться по-разному. Если тест достижений используется для предска- зания дальнейших успехов на более высоком уровне обучения, как в слу- чае отбора старшеклассников при их приеме в колледж, то валидность этого теста нужно устанавливать относительно оценок, получаемых в колледже, а не относительно содержания данного школьного курса. Примеры из табл. 13 поясняют различия между разного типа ва- лидациями. Дальнейшее рассмотрение этих процедур, однако, показы- вает, что валидности по содержанию, относительно критерия и конструкт- ная ре являются строго различными или логически упорядоченными
147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
Таблица 13 Валидность одного и того же арифметического теста применительно к разным целям
Цель тестирования Вопрос) на который должен Тип валидности ответить тест
Тестирование достижений по Что Дик усвоил на По содержанию арифметике в средних классах сегодняшний день? школы Тестирование способностей для Как Джим будет Прогностическая предсказания возможности освоения учиться в дальнейшем? относительно критерия курса математики в старших классах Диагностирование трудностей Выявило ли выполнение Текущая относительно в обучении теста Биллом какие-то критерия трудности в обучении? Тестирование логического Как можно охарактери- Конструктная мышления зовать психическую деятельность Генри?
категориями. Напротив, конструктная валидность-широкое понятие, включающее другие типы валидности. Все обсуждавшиеся выше конкрет- ные методы установления валидностей по содержанию или относитель- но критерия можно было рассматривать в разделе конструктной валид- ности. Сравнение показателей двух групп, скажем невротиков и здоро- вых, является способом проверки конструктной валидности теста, на- правленного на измерение эмоциональной устойчивости, тревожности и других свойств личности. Сравнение показателей глубоко умственно от- сталых и нормальных школьников-это способ исследования конструкт- ной валидности теста интеллекта. Корреляция теста технических спо- собностей с успешностью обучения на специализированных курсах и с выполнением различного рода работ позволяет нам лучше понять конструкт, измеряемый тестом. Валидность относительно разнообразных практических критериев обычно приводится в руководствах к тесту с тем, чтобы будущему его пользователю легче было узнать, что изме- ряет тест. Даже не будучи заинтересован в предсказании использован- ных критериев, он по их списку сможет составить себе представле- ние об области поведения, выборочно представленной в тесте. Точно так же валидность по содержанию играет важную роль как при построении, так и при последующей оценке всех тестер. Подбирая задания для любого нового теста, составитель руководствуется неко- торыми гипотезами относительно соотношения между выбираемым ти- пом содержания и поведением, которое он намерен измерять. Все спо- собы валидации критерия, в том числе обсуждавшиеся в конструктной валидности, служат инструментом проверки таких гипотез. Что касается пользующегося.тестом, то при оценке теста ему не следует слишком по- лагаться на валидностьпо содержанию. Например, при проверке словар- ного состава опросника эмоциональной устойчивости с точки зрения до- ступности его для тех, кого намечается тестировать, он может обнаружить, что результаты определенного теста слишком зависят от скорости работы испытуемого или что в тесте интеллекта, разработан- ном 20 лет назад, слишком много устаревших заданий. Все такие нябтттп-
148 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ста. Собственно говоря, нет таких сведений, получаемых в ходе любой процедуры валидации, которые бы ни имели отношения к конструктной валидное ти. Официально термин <конструктная валидность> был введен в психо- метрию в 1954 г. в <Методических указаниях по психологическим тестам и диагностике>, являющихся первым изданием ныне действующих <Норм> Американской психологической ассоциации (Standards..., 1974). Хотя процедуры, отнесенные к разряду конструктной валидации, в то время были уже не новы, последовавшее затем обсуждение конструктной валидности способствовало уточнению формулировок и систематическо- му обоснованию данного подхода. Понятие конструктной валидности позволило подчеркнуть роль психологической теории в разработке те- стов и необходимость формулировать гипотезы, подлежащие подтвер- ждению или опровержению в процессе валидации. Это особенно важно при опенке тестов, предназначенных для научных изысканий. В практическом плане это понятие оказалось полезным при изуче- нии валидности критериальных мер, применяемых в традиционной вали- дации по критерию (L.R.James. 1973). Анализируя корреляцию раз- личных критериальных мер между собой и с другими относительными переменными, проводя факторный анализ таких данных, можно больше узнать о значении того или иного критерия. В некоторых случаях резуль- таты такого исследования приводят к перестройке или замене критерия, выбранною для валидации теста. Так или иначе они обогащают интер- претацию данных о валидности теста. Конструктная валидность находит также практическое применение в ситуациях, когда валидация по критерию невозможна, например при определении локальной валидности тестов для отбора персонала на про- мышленные предприятия. Выше, при обсуждении синтетической валид- ности, уже говорилось о возникающих в этом случае трудностях. Кон- структная валидность подсказывает еще один способ преодоления этих трудностей при оценке применимости существующих тестов к опреде- ленному виду работ. Как и при построении синтетической валидности, этот подход предусматривает проведение систематического анализа типа работы, после чего квалификация выполняющего ее работника описы- вается в терминах конструктов соответствующего поведения. Далее, если тест до своей публикации прошел необходимые исследования, то сведе- ния, пршюдпмые в руководстве к нему, позволяют очертить основные коне) рук ii.i, измеряемые тестом. Если они явно совпадают с теми, ко- торые 1п.1лс,к:<1 измерению, то указанные сведения дают возможность пепосрсдч псине оценить соответствие теста функциям, осуществляемым при данном циде работ. В противном случае с их помощью можно рас- СЧ111.П1, ./конфициент или иной количественный показатель синтетиче- ской палндноии. Коне 1 рук тая валидность также стимулировала поиски новых путей получения палидациоппых данных. Хотя основные методы исследования коне 1 рук iiioii иалидностп уже давно известны, к ним присоединяются все новые и HOIII.IC процедуры. Однако многочисленность методов сбора данных lain в себе определенные опасности. Может случиться, что со- Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|