Бодалев А.А. » Основы психодиагностики, немедицинской психотерапии и психологического конконсультирования

сии> и <ипохондрии> по ММР1 - Шхвацабая, 1980). Очевидно, что.

подобные личностные сдвиги никак нельзя интерпретировать в смысле

В этом случае имеет место схема исследования, известная под названием <ква-

зиэксперимента>: контроль осуществляется не в виде воздействия на независимую

переменную, но в виде привлечения особой выборки испытуемых. Подробнее о ква-

зиэкспериментах см. кн.: Д. Кэмпбелл, 1980.

STR.78

симптомов предрасположенности к определенным психогенным заболе-

ваниям, они относятся к следствиям, а не к причинам этих заболе-

ваний.

Конструктная валидность. В отличие от прагматической валиди-

зации собственно психологическую валидизацию порой оказывается.

провести гораздо труднее в силу отсутствия какого-либо более объек-

тивного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для изме-

рения данного свойства в психологии уже имеется процедура с изве-

стной валидностью. В этом случае корреляция между баллами двух

тестов - линейная (3.2.3) или ранговая (3.2.5) указывает на то, обла-

дает ли новый тест конвергентной валидностью по отношению к ста-

рому. Если новый тест обнаруживает высокую конвергентность резуль-

татов со старыми одновременно оказывается более компактными эко-

номичным в проведении и подсчете, то психодиагносты получают воз-

можность использовать новый тест вместо старого.

Однако во мнох случаях для измеряемого свойства психодиагност

не может найти в литературе ни одного уже апробированного теста с

известной валидностью. В этом случае он может сформулировать ряд

предсказательных гипотез о том, как будет коррелировать его новый

тест с другими тестами, измеряющими родственные характеристики

испытуемых. Эти гипотезы выдвигаются на основе теоретических пред-

ставлений об измеряемом свойстве. Их подтверждение указывает на

валидность выдвигаемого конструкта, т. е. на конструктну ю валидность

теста. В западной литературе это операциональное определение кон-

структной валидности называется <предполагаемой валидностью>

(assumed validity).

Представления о конструктной валидности тестов постоянно раз-

виваются с пополнением репертуара методик. Эмпирические исследова-

ния взаимосвязей результатов, полу-

чаемых с помощью разных методик,

обогащают теоретические представ-

ления об измеряемых свойствах.

С другой стороны, понятие кон-

структной валидности указывает на

высокую зависимость эмпирических

связей .теста от теоретических пред-

ставлений автора теста об измеряе-

мом свойстве. Для иллюстрации при-

веден пример взаимоотношений меж-

ду двумя популярными тест-опросни-

ками: MAS Ж. Тейлор и ЕР1 Г. Айзен-

ка. Многочисленные корреляционные

исследования, проведенные на репре-

зентативных выборках, показали, что

шкала (Л1Л5) <тревожность> Тейлор

положительно коррелирует со шкалой

<неиротизм> Айзенка и отрицательнс

со шкалой <экстраверсия> Айзенка

Стабильность

ЭкспраНерсия

Итл/мСерст

MAS)

/рёВОЖНОСЬ

Неиротизм

Рис. 10. Векторная модель соотно-

шения показателя <тревожности> по

тест-опроснику MAS с факторами _ _.._.....

(по осям Х и Y) тест-опросника Ай- соотношения МОЖНО ПрОИЛЛЮСТрИ-

T ровать геометрически (рис. 10): век

тор MAS оказывается расположенных

в квадранте <неиротизм - интроверсия>, образованном системой из ор

тогональных (статистически независимых) факторов ЕР1.

С точки зрения концепции Г. Айзенка, эти данные можно рассмат

STR.79

ривать как свидетельства низкой валидности шкалы Тейлор: MAS кор-

релирует не только с релевантным фактором <нейротизм>, но и с

иррелевантным фактором <интроверсия>. С этой точки зрения опросник

Тейлор оказывается просто нечувствительным к особой разновидности

<нейротизма> .- к нейротизму (тревожности) экстравертов: в перечне

пунктов MAS отсутствуют высказывания, в которых могла бы проя-

виться тревожность экстраверта. Однако с точки зрения того теорети-

ческого смысла, который приписывают показателям MAS К. Спенс и

Ж. Тейлор, эта ситуация вполне закономерна, желательна и никак не

является артефактом - следствием дефекта их диагностического сред-

ства. Согласно К. Спенсу, пытавшемуся переносить на человеческое

.поведение теорию научения Халла, MAS измеряет общий уровень

драйва - неспециализированного побуждения, которое как раз дости-

гает максимума при сочетании нейротизма (специфическая активация

по Г. Айзенку) и интроверсии (неспецифичеекая активация). Таким

образом, вовсе не всегда краткие названия тестов однозначно выра-

жают теоретический статус диагностического конструкта - понятия об

измеряемом свойстве.

Конвергентная и дискриминантная валидность. От того, как психо-

лог определяет диагностический конструкт, зависит стратегия включе-

ния в тест определенных пуйктов. Если Айзенк определяет свойство

<нейротизм> как независимое от экстраверсии-интроверсии, то это

означает, что в его опроснике примерно поровну должны быть пред-

ставлены пункты, с которыми будут соглашаться невротичные интро-

верты и невротичные экстраверты (векторы этих пунктов должны быть

примерно поровну распределены в правом и левом нижних квадрантах;

см. рис. 10). Если же на практике окажется, что в тесте будут пре-

обладать пункты из квадранта <нейротизм-интроверсия>, то, с точки

зрения теории Айзенка, это означает, что шкала <нейротизм> оказы-

вается нагруженной иррелевантным фактором - <интроверсией>. (Точ-

но такой же эффект возникает, если появится перекос в выборке -

если в ней будет больше невротичных интровертов, чем невротичных

экстравертов.)

Для того чтобы не сталкиваться с такими сложностями, психологи

хотели бы иметь дело с такими эмпирическими показателями (пункта-

ми), которые однозначно информируют только об одном факторе. Но

это требование реально никогда не выполняется: всякий эмпирический

показатель оказывается детерминированным не только тем фактором,

который нам нужен, но и другими - иррелевантными задаче изме-

рения. Это положение схематически проиллюстрировано на рис. II.,

На рис. II постоянным для всех показателей 1, 2 и 3 являечся фак-

тор А - релевантный фактор, но каждый раз он оказывается сопря-

жен с иррелевантными -X, Y и Z. Задача состоит в специальном под-

боре пунктов, чтобы все потенциальные иррелевантные факторы

были уравновешены: ни один из них не встречался бы чаще других

на множестве пунктов, включенных в тест. Таким образом, по отно-

шению к факторам, которые концептуально определяются как орто-

гональные к измеряемому (встречающиеся с ним во всех комбинациях),

составитель теста должен при отборе пунктов применить стратегию

искусственного балансирования (Готтсданкер P., 1982).

Соответствие пунктов измеряемому фактору обеспечивает конвер-

гентную валидность теста. Сбалансированность пунктов относительно

иррелевантных факторов обеспечивает дискриминантную валидность.

Эмпирически она выражается в отсутствии значимой корреляции с тес-

том, измеряющим концептуально независимое свойство.

STR.80

z у л

Факторы

Рис. II. Связь эмпирических инди-

каторов (показателей Пь Па, Пз) с

релевантным (измеряемым) факто-

ром А и с иррелевантными (<шумо-

выми>) факторами X, Y,Z, обуслов-

ливающими невалидность показа-

телей

С точки зрения теории Айзенка, тест Тейлор не обладает дискри

минантной валидностью по Ьтношению кофактору <экстраверсия-интрс

версия>, хотя и обладает определенной койвергентной валидностью п

отношению к релевантному фактору - <нейротизм>.

Экспертная эмпирическая валидизация. В отсутствие какого-либ

уже валидизированного теста, параллельно измеряющего изучаемо

свойство, а также в отсутствие разрг

ботанного теоретического контекст.

позволяющего проверять конструк"

ную валидность, поиходиагност оказь

вается перед необходимостью привл(

чения к валидизации теста эксперте

В отличие от экспертного анализа ci

держания теста эмпирическая экспер

ная валидизация предполагает рабо

экспертов не с тестом (лучше, чтоб

о нем эксперты вообще ничего i

знали), а с испытуемыми из выбор)

стандартизации.

Экспертам следует обеспечи

стандартные условия для наблюл

ния за испытуемыми. Но не всег,

такое стандартизованное наблюден

удается организовать. Даже если мы предприняли серьезные ус

Л1ия по организации наблюдения за поведением испытуемых в в

кой-либо искусственной лабораторной ситуации, такое наблюдение i

равно будет значительно уступать по информативности <полевом

наблюдению - в естественных условиях. Если измеряемое свойст

теоретически определено как устойчивая универсальная черта лич1

сти - как диспозиция к инвариантному поведению в широком спет

ситуаций (см. гл. 4), то и отдельного полевого наблюдения окаже1

недостаточно для получения полноценного экспертного критерия ]

лядности.

Поэтому на практике часто прибегают к оценкам особого типа

к субъективным оценкам, которые выносят испытуемому люди из i

круга, имеющие опыт реального общения с ним. С учетом этого п

цедура оценивания приспосабливается к обычным людям, не явл?

щимся психологами. На психолога падает большая нагрузка по

ставлению детальной инструкции оценщикам, однозначно задаюи

смысл оцениваемой характеристики. Лучшие условия для такой п

цедуры возникают при наличии группы испытуемых, тесно общающ

ся между собой, которые могут одновременно побывать и испытуе)

ми по отношению к тесту, и оценщиками по отношению друг к др

В советской литературе эта процедура получила сокращенное обоз

чение ГОЛ - <групповая оценка личности> (Кузьмин Н. В., Се

нов В. С., 1977).

Для того чтобы групповая оценка была источником действия

но валидной информации, оценщики должны согласованно оценив

испытуемых. Если в оценках разных оценщиков нет согласованно

то это означает, что либо оцениваемое свойство не проявилос

объекта оценивания, либо оценщики по-разному проинтерпретиров

инструкцию. Для измерения согласованности должна быть пострс

табличка с оценками (табл. 4).

Методы анализа данных, содержащихся в такой табличке, (j

мально совершенно эквивалентны тем методам, которые применяв

STR.81

для обработки таблиц <испытуемые Х пункты> (см. 3.1). В частно-

сти, суммы по строкам дают нам суммарные баллы, полученные каж-

дым испытуемым у всех К оценщиков. Таким образом, оценщики в

данном случае оказываются формально в роли пунктов теста. Рас-

считывая попарные корреляции между различными столбцами этой

таблички, можно получить коэффициенты согласованности для отдель-

Таблица 4

Оценщики

-о,0>S

Испытуемые ~~

HI И.Хц 21XM 22Xift хCi 02

и>XniХпаXnfcCn

ных пар оценщиков. Глобальной мерой согласованности оценщиков

может служить тот же коэффициент надежности а Кронбаха (форму-

ла (3.2.7)).

Если сама групповая оценка не обнаруживает надежности, то она

не может использоваться в качестве критерия валидизации при про-

верке валидности теста.

Эмпирическое значение коэффициента валидности рассчитывается

как линейная или ранговая корреляция между двумя рядами значе-

ний - тестовыми баллами и суммарными баллами экспертной оценки.

Это эмпирическое значение при наличии невысокого коэффициента на-

дежности критерия корректируют по формуле

r--, (3.3.1)

У <с

где Тех - эмпирическая корреляция с критерием;

ас - надежность критерия;

г(х-корреляция с <истинным> критерием (<истинная> валидность

теста).

Анализ пунктов по критерию валидности. Валидность целого теста

зависит от валидности входящих в него пунктов. Максимальная ва-

лидность достигается за счет отбора таких пунктов из пилотажной

батареи, которые, обладая значимой корреляцией с критерием, мини-

мально коррелируют между собой. Отбор пунктов именно по критерию

валидности обеспечивает максимальную прагматическую эффектив-

ность теста. Вручную (на калькуляторе) такой отбор можно произве-

сти, рассчитывая бисериальную корреляцию (или фи-корреляцию) кри-

терия с каждым пунктом из пилотажной батареи (см. формулы (3.2.14)

и (3,2.16)). При наличии компьютера можно использовать более эффек-

тивный алгоритм, основанный на анализе частных корреляций между

критерием и пунктами и предполагающий построение уравнения мно-

жественной регрессии (Аванесов В. С., 1982, с. 153-157). В резуль-

тате в таком уравнении каждый пункт получает весовой коэффициент,

количественно выражающий его вклад в критерий, не сводимый к вкла-

ду других пунктов, т. е. поиск оптимального набора пунктов автома-

тизируется. X. Гаррет приводит следующую яркую иллюстрацию эффек-

Этот весовой коэффициент и используется как ключ к данному пункту в но-

вой, скорректированной версии теста.

STR.82

тивности алгоритма, позволяющего подобрать оптимальный набор пунк-

тов. Пусть имеется 20 пунктов, каждый из которых имеет корреляцию

с критерием порядка 0,30. Оказывается, если эти пункты в среднем

коррелируют друг е другом на уровне 7l=0,60, то множественная

корреляция суммарного тестового показателя с критерием равняется

0,38, если же гц= 0,30, множественная корреляция повышается до

0,52. Наконец, при ri,==0,10 эффективность (валидность) теста до-

стигает весьма высокого уровня - 0,79. Те же са-мые проблемы воз-

никают при подборе оптимальной батареи тестов, направленных на

прогнозирование какого-то одного социально ценного показателя

(успеваемость, производительность труда и т. п.).

Как уже указывалось в 3.1, хороший <тест по критерию> (обла-

дающий высокой критериальной валидностью) должен давать моно-

тонную зависимость величины критерия от тестового балла (см. рис. 6).

Для того чтобы получить монотонную линию регрессии, психодиагност

должен включить в тест Х только такие пункты, которые являются

валидными по критерию С. В противном случае на кривой неминуема

появятся провалы Крутизну линии регрессии можно существенно по-

высить за счет нацеленного отбора из первоначальной батареи только

таких заданий, которые обладают значимо высокой корреляцией (или

регрессионным коэффициентом в уравнении множественной регрессии)

с критерием. ,

После отбора валидных пунктов должна быть произведена пере-

крестная валидизация (см. Анастази А., 1982, с. 197). В чем смысл

перекрестной валидизации? Если при анализе корреляций между бата-

реей из 200 заданий и каким-то критерием получают 10 заданий, зна

чимо коррелирующих с критерием на уровне ошибки р<0,05, то эт(

может быть следствием чисто случайного совпадения (сравнит

10/200 = 0,05). Чтобы убедиться в том, что отобранные задания дей

ствительно могут различать (или прогнозировать) критерий, нужн(

рассмотреть, йак коррелируют с критерием эти пункты на другой вы

борке, которая не использовалась при отборе пунктов.

Простой метод реализации принципа перекрёЬтной валидизацш

состоит в том, что вся выборка делится на две случайные половинь

и производится раздельный расчет корреляций пунктов с критерие

для каждой половины выборки, если выделенные (значимые) пункть

совпадают, то перекрестную валидизацию можно считать удачной.

Метод критериального тестирования очень трудоемок. Практическ1

невозможно построить критериальный тест за счет одной статистики

сколь бы мощными выборками и батареями заданий мы не распола

гали. Необходима работа над содержательной валидностью заданий

Критериальное тестирование имеет ограниченное применение в задача;

построения методик с широкой областью применения.

Таким образом, еще раз подчеркнем, что анализ валидности от

дельных пунктов служит не только прагматическим целям, но може

и должен служить целям углубления представлений о содержательно

теоретическом смысле измеряемого свойства: на основании содержа

тельного анализа пунктов, отобранных по критерию, психолог уточняе-

и корректирует свою первоначальную теоретическую схему, свое пони

мание измеряемого свойства.

Ї Некоторые незначительные локальные провалы при наличии общей высокой ре

грессии (высокий контраст крайних Р от X) можно устранить, увеличивая интерва,

равнозначности.

STR.83

Достоверность самоотчета. Внутри общей проблемы валидности це-

лесообразно выделить вопрос об обеспечении валидности процедур