Анастази А. » Психологическое тестирование

в успехах при дальнейшем обучении? На эти вопросы удается ответить,

только когда тест проводится до получения критериальных данных, как

при предсказательной валидности.

При разработке тестов специальных способностей роль критерия ча-

сто играют результаты специальной подготовки. Например, валидность

тестов технических способностей устанавливается по конечным результа-

там профессионального обучения. Критерием могут служить результаты

окончания курсов стенографии, машинописи, бухгалтерского дела и т.д.

Валидация тестов музыкальных или художественных способностей про-

водится по успехам в музыкальных и художественных школах. Для ряда

тестов профессиональных способностей была проведена валидация отно-

сительно достижений в юридических, медицинских и высших технических

учебных заведениях. Результаты обучения часто являются источником

-- .,".".... "".."", г.г,г.тттт п т-от-ov гтгписпичириняу ППЯ ИГТЮПТОВЯНИЯ

134 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

служит валидация тестов для отбора слушателей на курсы военных лет-

чиков по результатам первичной летной подготовки. Выполнение про-

граммы специального обучения обычно используется и при валидации

других тестов, предназначенных для отбора военных и промышленных

специалистов.

Среди показателей выполнения программы обучения, используемых

в качестве критерия, могут быть уже упоминавшиеся тесты достижений,

проводимые по завершении курсов, официально присвоенная квалифика-

ция, оценки инструкторов и успешное завершение курсов или отчисление

из них. Валидность комплексных батарей способностей часто устанавли-

вается по оценкам, получаемым по специальным предметам, прохо-

димым в школе или в колледже. Например, результаты теста понимания

слов сравниваются с оценками по английскому языку, данные теста про-

странственной визуализации с оценками по геометрии и т.д.

В связи с использованием данных профессионального обучения как

критериальной меры полезно различать промежуточные и конечные кри-

терии. Применительно к тесту отбора военных летчиков или к тесту ме-

дицинских способностей, например, конечными критериями будут со-

ответственно выполнение боевых заданий и врачебная практика.

Очевидно, для получения таких данных потребуется много времени. Со-

мнительно к тому же, что такой критерий действительно является ко-

нечным. Наконец, даже если бы такие конечные данные удалось полу-

чить, на них, вероятно, сказывалось бы действие многих не поддающихся

контролю факторов, что снижало бы ценность результатов. Так, трудно

было бы оценить относительную степень успеха врачей разных специаль-

ностей в различных частях страны. Поэтому в качестве критериальных

мер часто используются промежуточные критерии.

Наилучшие во многих отношениях критериальные меры основаны

на последующем выполнении реальной деятельности. Они отчасти ис-

пользовались при валидации тестов общего интеллекта и личностных те-

стов, но в основном-при валидации тестов специальных способностей.

Они также применяются при валидации тестов профессионального отбо-

ра в торговле, промышленности, армии. Большинство мер, основанных

на выполнении деятельности, хотя и являются конечным критерием, все

же во многих отношениях хороши и как промежуточные критерии.

В этом качестве они предпочтительнее данных о прохождении специаль-

ного обучения. Вместе с тем при измерении выполнения той или иной

деятельности не удается в такой степени стандартизовать условия изме-

рения, как в случае профессионального обучения. Более того, поскольку

выяснение уровня выполнения деятельности занимает много времени,

оно сопряжено с выбыванием значительного числа испытуемых. Ввиду

того что лица, занимающие номинально одинаковые должности, в раз-

ных организациях выполняют фактически неодинаковые функции, в ру-

ководстве к тесту необходимо приводить сведения не только о валидно-

сти данных по критерию деятельности, но и об обязанностях,

выполнявшихся членами нормативной выборки.

Валидация методом контрастных групп обычно влечет за собой

сложный критерий, в котором отражены накапливающиеся и неконтро-

лируемые избирательные влияния повседневной жизни. Такой критерий

в конечном счете связан с принадлежностью или непринадлежностью ин-

ливила к оппепйлйннпй гпл/ттшэ Маттмтичо. г.., "п",.~---. ----- - - --

135 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ

ставлены с результатами нормальных школьников того же возраста.

В этом случае множество факторов, определивших помещение ребенка

в специальное учреждение для детей с глубокой умственной отста-

лостью, составят критерий валидации. Аналогично валидность теста му-

зыкальных или технических способностей проверяется сравнением ре-

зультатов учащихся музыкальной школы или инженерного колледжа

с данными учеников обычной школы или обычного колледжа.

Разумеется, контрастные группы могут комплектоваться по любому

критерию-по успеваемости, субъективному мнению о качествах лично-

сти, выполнению деятельности или просто по признаку предельных слу-

чаев в каком-либо распределении критериальных мер. Эти группы стано-

вятся различными постепенно под действием многочисленных требова-

ний повседневной жизни. В этих условиях критерий оказывается

сложнее ранее рассмотренных и не поддается четкому определению.

Метод контрастных групп весьма часто применяется при валидации

личностных тестов. Так, определяя валидность теста социальных качеств,

можно сопоставить результаты тестирования торговых и администра-

тивных работников с данными конторских служащих и инженеров. При

этом предполагается, что работающие в торговле или управленческом

аппарате превосходят по своим социальным качествам инженеров

и клерков. Точно так же можно сравнить самых активных и наименее ак-

тивных студентов колледжа. При валидации тестов интересов, таких, как

анкета основных профессиональных интересов (SVIB), и при подготовке

шкал социальных установок часто используются данные разных профес-

сиональных групп. Для определения валидности шкал социальных уста-

новок иногда используются также группы, сформированные по полити-

ческому, религиозному, географическому и иным признакам, поскольку

эти группы представляют явно различные точки зрения.

При разработке некоторых личностных тестов, как отбор заданий,

так и валидация, основываются на врачебном диагнозе. Такой диагноз

допустимо использовать как достаточный критерий, если он ставится по-

сле длительного наблюдения и детального изучения истории болезни,

а не после поверхностного собеседования или осмотра. В последнем слу-

чае на врачебный диагноз можно положиться не больше чем на резуль-

тат самого теста, и такой диагноз следует рассматривать не как крите-

риальную меру, а как результат, валидность которого еще должна быть

установлена.

В связи с другими категориями критериев уже упоминались субъек-

тивные оценки, даваемые школьными учителями, инструкторами специа-

лизированных курсов, мастерами на производстве. Сюда же относятся

отзывы офицеров о подчиненных им военнослужащих, оценки, даваемые

ученикам школьной администрацией, оценки товарищей по работе, по

классу, по клубу и т.д. До сих пор речь шла о субъективных оценках,

играющих лишь вспомогательную роль в получении информации о та-

ком критерии, как академическая успеваемость, обучение на специализи-

рованных курсах, успехи в работе. Теперь же рассмотрим применение

субъективных оценок в качестве основной критериальной меры, особенно

когда такие оценки не ограничиваются описанием конкретных достиже-

ний, а являются мнением наблюдателя по целому ряду свойств, на изме-

рение которых ориентирован тест. Например, испытуемые из выборки

--_".."" " -хапактеоистики по таким признакам, как стремле-

- Т,ТТТ1 чстнпсть.

13о ПРИНЦИПЫ 11ихо..к)гич1-(к()го ТЕСТИГПЛНИЯ

Подобные оценки используются при валидации почти всех типов те-

стов. Они особенно важны в качестве критерия личностных тестов, по-

скольку в этой области трудно установить более объективные критерии.

Это особенно справедливо в отношении социальных качеств, оценка ко-

торых основывается на личных контактах и составляет наиболее ло-

гичный их критерий. Хотя эти оценки подвержены ошибкам, свой-

ственным всем субъективным суждениям, они представляют значитель-

ную ценность, если условия, в которых производится регистрация

мнений, тщательно контролируются. Способы повышения точности

субъективных оценок будут рассмотрены в гл. 20.

Наконец, часто упоминается такой метод валидации, как определе-

ние корреляции между новым и уже использующимся тестами. Если

новый тест представляет собой сфащснный или упрощенный вариант

уже существующего теста, то последний может рассматриваться как кри-

териальная мера. Так, валидация теста <бумага - карандаш> может быть

осуществлена относительно более разработанного и давно употребляю-

щегося теста действия, чья валидность уже известна. Валидность группо-

вого теста может быть проверена относительно индивидуального теста.

Тесты Станфорд-Бине, например, не раз служили критерием при вали-

дации групповых тестов. Следует отметить, что если новый тест не

является более простым или более коротким вариантом уже существую-

щего теста, то использование последнею в качестве критерия недопусти-

мо.

Специфичное ib критерия. Валндпость по критерию наиболее

уместна при изучении локальпоН налпданнн, при которой оценивается

эффективность теста для конкретной пр01раммы тестирования, напри-

мер, когда какая-либо фирма намерена оценить тест для отбора посту-

пающих к ним на работу или когда какой-либо колледж хочет устано-

вить, насколько пригоден тест способности к обучению для предсказания

успешного освоения студентом ма-

icpi.n,! ..:и!

ность по критерию лучше всего на-

зывать практической валидностью

теста при локальном применении.

Определение валидности такого

типа является прикладным иссле-

дованием, и результаты его в мень-

шей степени подлежат обобщению,

нежели результаты иных процедур.

Выло нс раз показано, что ва-

лидносгь данного типа зависит от

конкретных условий. На рис. 15

приводятся примеры разброса

значений корреляции между ре-

зультатами однотипных тестов

я профессиональным умением.

Верхняя диаграмма показывает

распределение 72 коэффициентов

корреляции между данными теста

инэсллскта конторских служащих

и их llnofl)i(lиl>ll-"l-"-"" -""

Рис. IS. Разброс значений коэффициептоп

валидности тестов для конкретных p<.iboi

(Е. Е. Ghiselli, 1966, р. 29)

72 коэффициента корреляции

теста длп служащих и их

профессионального

умении П

X ct s с. 1 оj-U -J i i п i П i!П ,

-100 -0,50 000 +0,50 +

я-

Jl. on

-131 коэффициент корреляции

0 ?теста пальцейой моторики

для слесарей и их

x 1 10профессиональных j 1 умений lj 1 1 1 И 1 1

01 , Т1 , п

137

ПАЛИ, IHOlTli. ОСНОВПЫГ; 11(1ЦЯ1ИЯ

представлены аналогичные данные но гесту пальцевой моторики и про-

фессиональным умениям слесарей. Хотя в обоих примерах значения

коэффициентов корреляции сосредоточены более или менее в одной

области, между ними заметны существенные расхождения. Некоторые

коэффициенты валвдности приближаются к 1, тогда как другие близки

к нулю или явно отрицательны.

Подобная же неоднозначность применительно к прогнозированию

учебных оценок видна из рис. 16. На нем приведено распределение коэф-

фициентов корреляции между оценками по математике и результатами

каждого из субтестов теста различных способностей {DAT). Например,

для теста числовых способностей {NA) самое большое значение коэффи-

циента валидности для мальчиков с результатом от 0,50 до 0,59, в то

время как коэффициент корреляции для разных курсов математики и

в разных школах колеблется от 0,22 до 0,75. Столь же велики различия

и по другим субтестам, и надо добавить, это справедливо и в отношении

других предметов, не представленных на рис. 16.

Разброс значений коэффициентов валидности по критерию выполне-

ния деятельности, показанный на рис. 15, отчасти объясняется различия-

ми между тестами, применяющимися для измерения умственного разви-

тия или пальцевой моторики. Кроме того, часть дисперсий результатов,

отраженных на рис. 15 и 16, обусловлена различиями в однородности

Рис. 16. Суммарный график коэффициентов валидности теста различных способностей

(DAT) (формы S и Т) относительно оценок по курсу математики. Черные полосы

и приведенные рядом с ними числа указывают, сколько коэффициентов кор-

реляции попало в приведенный в крайнем левом столбце интервал.

С разрешения Психологической корпорации штата Нью-Йорк

МальчикиСМ ЧС СМ + ЧС AM ТАИтм по Гр ип

0,70 иL

вышеИз 1

0,60 - 0,69и 8 as52пи

0,50-0,59и 6НбIS2BJв3и 7

0,40-0,49ffi8Я 8S2Я7В 7Mil

0,30-0,39i2ЯП 6т?WIG

0,20-0,29B4ЯВЯ12то

0,19 и нижеИг гMS

ДевочкиСМ ЧСCM t ч сAM ТАИ TMпо гр ия

0.70> вышеS3S31

0,60-0,6912Я 11В 7iИh

0.50-0,59И 816Я4<8

0.40-0,49 0,30-0.39вапЯ4<12 В 6Я8 азp9 1й8Я14а 9mio uais

0,20-0,29"SfiИЗ, Еб K28p8Я13>б

0,19 и НИЖР84L 312 >7И1016

138 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

и уровне исследовавшихся групп. Этого, однако, недостаточно, чтобы

объяснить столь широкий разброс валидности. Основной причиной рас-

хождений несомненно являются различия в самих критериях валидации.

Так, функции клерка или слесаря на разных предприятиях или даже

в разных отделах одного и того же учреждения не совпадают. Точно так

же неодинаковы и содержание курса данного предмета, и индиви-

дуальные качества преподавателей, и их подход к оценке знаний учащих-

ся. Таким образом, то, что представляется <одним и тем же> критерием,

в разных ситуациях оказывается весьма различной комбинацией свойств.

Критерии могут также изменяться во времени. Например, коэффи-

циент валидности теста относительно критериев профессионального обу-

чения часто отличается от его же валидности относительно выполнения

деятельности (Е.Е. Ghiselli, 1966). Есть данные, свидетельствующие

о том, что качества, необходимые для успешного выполнения работы

или даже конкретного задания, зависят от тренированности и профессио-

нального опыта индивида (E.A.FIeishman, 1972; E.A.FIeishman,

B.Fruchter, 1960; E.A.FIeishman, W.E.Hempel, 1956; Е.Е. Ghiselli,

M. Haire, 1960). Имеются также многочисленные указания на то, что кри-

терии выполнения деятельности меняются со временем вследствие изме-

нения характера работы, организационных целей, продвижения работни-

ка по службе и т. д. (А. С. MacKinney, 1967, E. P. Prien, 1966). Как

известно, учебные программы и содержание курсов также изменяются.

Иными словами, наиболее распространенные критерии, используемые

при валидации тестов способностей и интеллекта, а именно выполнение

деятельности и успеваемость-это динамические, а не статические вели-

чины. Отсюда следует, что валидность критерия сама подвержена вре-

менным изменениям.

Синтетическая валидность. Критерии ре только различаются

в зависимости от ситуации и времени, они также, по всей вероятности,

достаточно сложны по составу (J. M. Richards, С. W. Taylol P. В. Price,

T.L. Jacobsen, 1965). Успех на работе, в школе, в повседневной жизни за-

висит не от одного, а от многих свойств. Отсюда и многогранность

практических критериев. Поэтому для валидации теста могут быть ис-

пользованы различные меры профессиональных навыков или успеваемо-

сти. Поскольку эти меры могут относиться к различным свойствам или

комбинациям свойств, не удивительно, что коэффициенты валидности

для одного и того же теста неодинаковы. Когда различные крите-

риальные меры получают на одних и тех же испытуемых, их взаимокор-

реляция весьма низка. Например, может оказаться, что между числом

несчастных случаев или количеством невыходов на работу и производи-

тельностью или частотой допускаемых ошибок не будет обнаружено

практически никакой связи (S. E. Seashore, В. P. Indik, В. S. Georgopoulos,

1960). Эти различия, конечно, отражаются на коэффициентах валидности

любого данного теста по отношению к различным критериальным ме-