Бодалев А.А. » Основы психодиагностики, немедицинской психотерапии и психологического конконсультирования

женную форму. Поэтому обычно предпринимаются попытки аппрокс

мировать эмпирическую линию регрессии какой-либо функциональн

зависимостью, что позволяет затем производить прогноз с применен

ем формулы (а не таблицы или графика).

Например, если линия регрессии имеет вид приблизительно так<

какой изображен на рис. 6, то применение процентильной нормали:

ции позволяет получить простую линейную регрессию С по нормали:

ванной шкале Z. Это как раз тот случай, когда имеет место экви)

лентность стратегии, использующей выборочно-статистические тестов

нормы, и стратегии, использующей критериальные нормы.

Операции по анализу распределения тестовых баллов, построен

тестовых норм и проверке их репрезентативности. В заключение эт

параграфа коротко опишем действия, которые последовательно д

жен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную, или стра

фицированную по какому-либо параметру) из той популяции, на к(

рой предполагается применять тест. Провести на каждом испытуе1

из выборки тест в сжатые сроки (чтобы устранить иррелевантный {

брос, вызванный внешними событиями, происшедшими за время об<

дования).

2. Произвести группировку <сырых> баллов с учетом выбран

интервала квантования (интервала равнозначности). Интервал oi

деляется величиной W/m, где W=Xma-x- Xmin - размах; m - кол]

ство интервалов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для задан

STR.67

интервалов равнозначности) в виде таблицы и в виде соответствую-

.щих графиков гистограммы и кумуляты.

4. Произвести расчет среднего и стандартного отклонений, а также

асимметрии и эксцесса с помощью компьютера. Проверить гипотезы о

значимости асимметрии и эксцесса. Сравнить результаты проверки с

визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с

помощью критерия Колмогорова (при п<200 с помощью более мощ-

ных критериев) или произвести процентильную .нормализацию с пере-

водом в стандартную шкалу, а также линейную стандартизацию и

сравнить их результаты (с точностью до целых значений стандартных

<очков).

6. Если совпадения не будет - нормальность отвергается, тогда

произвести проверку устойчивости распределения расщеплением вы-

борки на две случайные половины. При совпадении нормализованных

баллов для половины и для целой выборки считать нормализованную

шкалу устойчивой.

7. Проверить однородность распределения по отношению к варьи-

.рованию заданного популяционного признака (пол, профессия и т. п.)

-с помощью критерия Колмогорова. Построить в совмещенных коорди-

натах графики гистограммы и кумуляты для полной и частной выбо-

рок. При значимых различиях разбить выборку на разнородные под-

выборки.

8. Построить таблицы процентильных и нормализованных тестовых

.норм (для каждого интервала равнозначности <сырого> балла). При

наличии разнородных подвыборок для каждой Подвыборки должна

быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для дове-

рительных интервалов (на уровне Р<0,01) с учетом стандартной

ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом

предполагаемого механизма решения того или иного теста.

II. В случае негативных результатов - отсутствия устойчивых

<орм для шкалы с заданным числом градаций (с заданной точностью

прогноза критериальной деятельности) - осуществить обследование

<)олее широкой выборки или отказаться от плана использования данно-

го теста.

3.2. НАДЕЖНОСТЬ ТЕСТА

В дифференциальной психометрике проблемы валидности и надеж-

ности тесно взаимосвязаны, тем не менее мы последуем традиции раз-

дельного изложения методов проверки этих важнейших психометриче-

ских свойств теста.

Надежность и точность. Как уже отмечалось в 3.1, общий раз-

брос (дисперсию) результатов произведенных измерений можно пред-

ставить как результат суммации двух источников разнообразия: само-

го измеряемого свойства и нестабильности измерительной процедуры,

обусловливающей наличие ошибки измерения. Это представление вы-

ражено в формуле, описывающей надежность теста в виде отношения

истинной .дисперсии к дисперсии эмпирически зарегистрированных

баллов:

(3.2.1)

STR.68

Так как истинная дисперсия и дисперсия ошибки связаны очевид-

ным соотношением, формула (3.2,1) легко преобразуется в формулу

Рюлона:

(3.2.2)

Одиее

распределение

Распределение 1 Распределение

эмпирическом / инШидумьнвго

среднего ~ /~\Вчта

где а - надежность теста; S - дисперсия ошибки;

Si - дисперсия теста (эмпирическая);

S - истинная дисперсия (дисперсия измеряемого свойства).

Величина ошибки измерения - обратный индикатор точности из-

мерения. Чем выше ошибка, тем шире диапазон неопределенности на

шкале (доверительный интервал индивидуального балла), внутри ко-

торого оказывается статистически

возможной локализация истинного

балла данного испытуемого. Таким

образом, для проверки гипотезы о зна-

чимости отличия балла испытуемого

от среднего значения оказывается не-

достаточным только оценить ошибку

среднего, нужно еще оценить ошибку

измерения, обусловливающую разбро

в положении индивидуального балла

Возникает картина, схематически пред

ставленная на рис. 7.

Как же определить ошибку изм(

рения? На помощь приходят коррел?

ционные методы, позволяющие опр<

делить точность (надежность) чер(

устойчивость и согласованность р

зультатов, получаемых как на ypoal

целого теста, так и на уровне о

дельных его пунктов.

Рис. 7. Соотношение общего распре-

деления, распределения индивиду-

ального балла и распределения эм-

пирического среднего: Sm-стан-

дартное отклонение эмпирического

среднего, S" - стандартное отклоне-

ние (дисперсия) ошибки

Надежность целого теста. 1. Надежность-устойчивость (ретестов

надежность). Измеряется с помощью повторного проведения теста

той же выборке испытуемых, обычно через две недели после первс

тестирования. Для интервальных шкал подсчитывается хорошо изве

ный коэффициент корреляции произведения моментов Пирсона:

ltst

2х112х21

"12=

Vi - (2х1 In) (2х1, - (2x")2/n)

где хц - тестовый балл i-того испытуемого при первом измере1

X2i - тестовый балл того же испытуемого при повторном и:

рении;

ч - количество испытуемых.

Оценка значимости этого коэффициента основывается на неско.

иной логике, чем это обычно делается при проверке нулевой гипотез

о равенстве корреляций нулю. Высокая надежность достигается т(

когда дисперсия ошибки оказывается пренебрежительно малой. С

сительную долю дисперсии ошибки легко установить из формулы

STR.69

=--i-- (3.2.4)

Таким образом, для нас существеннее близость к единице, а не от-

даленность от нуля. Обычно в тестологической практике редко удает-

ся достичь коэффициентов, превышающих 0,7-0,8. При г==0,75 относи-

тельная доля стандартной ошибки равна 1-0,75 == 0,5. Этой ошиб-

кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически по-

лученное отклонение индивидуального тестового балла от среднего по

выборке оказывается, как правило, завышенным. Для того чтобы вы-

яснить <истинное> значение тестового балла индивида, применяется

формула

x>=rXi+\- r)x, (3.2.4.1)

где Xw - истинный балл;

х, - эмпирический балл i-того испытуемого;

т - эмпирически измеренная надежность теста;

х - среднее для теста.

Предположим, испытуемый получил балл ZQ по шкале Стэнфор-

да - Вине, равный 120 нормализованным очкам, М==100, г==0,9. Тог-

да истинный балл будет равен: Хоо=0,90Х120+0,10Х100=118.

Конечно, требование ретестовой надежности является корректным

лишь по отношению к таким психическим характеристикам индивидов,

которые сами являются устойчивыми во времени. Если мы строим

тест для измерения эмоциональных состояний (бодрости, тревоги

и т. д.), то, очевидно, требовать от него ретестовой надежности бес-

смысленно: у испытуемых быстрее изменится состояние, чем они за>

будут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестирова-

нию используется коэффициент ранговой корреляции Спирмена:

Р=1- . (3.2.5)

п (-i)

где di - разность рангов i-того испытуемого в первом и втором ранго-

вом ряду.

При наличии компьютера целесообразно использовать более на-

дежный, но более трудоемкий в вычислении коэффициент ранговой

корреляции Кендалла (1975).

2. Надежность - согласованность (одномоментная надежность}.

Эта разновидность надежности независима от устойчивости, имеет осо-

бую содержательную и операциональную природу. Простейший спо-

соб ее измерения состоит в коррелировании параллельных форм теста

Анастази А., 1982, кн. 1, с. 106). Чаще всего параллельные формы те-

ста получают расщеплением составного теста на <четную> и <нечетную>

половины: к первой относятся четные пункты, ко второй - нечетные.

По каждой половине рассчитываются суммарные баллы и между дву-.

мя рядами баллов по испытуемым рассчитываются допустимые (с уче-

том уровня измерения) коэффициенты корреляции. Если параллель-

ные тесты не нормализованы, то предпочтительнее использовать ран-

говую корреляцию. При таком расщеплении получается коэффициент,

относящийся к половинам теста. Для того чтобы найти надежность це-

лого теста, пользуются формулой Спирмена - Брауна:

(3.2.6)

STR.70

где fx - эмпирически рассчитанная корреляция для половин;

Гхх - надежность целого теста.

Делить тест на две части можно разными способами, и каждый раз

получаются несколько разные коэффициенты (Аванесов В. С., 1982,

с. 122), поэтому в психометрике предложен способ оценки синхронной

надежности, который соответствует разбиению теста на такое количе-

ство частей, сколько в нем отдельных пунктов. Такова формула Крон-

баха:

и- k /=1

Ut T- - 1 -~

k -1 S

где а - коэффициент Кронбаха;

k - количество пунктов (заданий) теста;

S)- дисперсия по ;-тому пункту теста;

Sc- дисперсия суммарных баллов по всему тесту.

Обратите внимание на структурное подобие формулы Кронбаха и фор-

мулы (3.2.2) Рюлона.

Несколько раньте была получена формула Кьюдера - Ричардсона,

аналогичная формуле Кронбаха для частного случая - когда ответы

на каждый пункт теста интерпретируются как дихотомические пере-

менные с двумя значениями (1 и 0):

-1 W

, i /w

KR --I- \_____fc-

~~k~l

где K.R20 - традиционное обозначение получаемого коэффициента;

Р,Ц} - дисперсия J-ТОЙ дихотомической переменной, какой явля-

N (<верно>) .

ется J-ТЫЙ пункт теста; Р-- > q=-р.

В 1957 г. Дж. Ките предложил следующий критерий для оценки ста-

тистической значимости коэффициента о:

_i == ""-, (3.2.9)

fe(l-et)+tt

где _i - эмпирическое значение статистики -квадрат с п-

степенью свободы;

k - количество пунктов;

п - количество испытуемых;

a - надежность.

Формулы (3.2.7) и (3.2.8) позволяют оценить взаимную согласован

ность пунктов теста, используя при этом только подсчет дисперсий

Однако коэффициенты а и КРм позволяют оценить и среднюю корр<

ляцию между t-тым и ;-тым произвольными пунктами теста, так ка

связаны с этой средней корреляцией следующей формулой:

(х =- _ (3.2.Н

+(k- )п,

где гц - средняя корреляция между пунктами теста. Легко увиде

идентичность формулы (3.2.10) обобщенной формуле Спирмена - Бр

уна, позволяющей прогнозировать повышения синхронной надежное

STR.71

теста с увеличением численности пунктов теста в k раз Аванесов В. С.,

1982, с. 121). Из этой формулы видно, что при больших k малое зна-

чение гц может сочетаться с высокой надежностью. Пусть г

fe==100, тогда по формуле (3.2.10)

_ ioo-0,1 __ io

1+99.0,1 10,9

Широкое распространение компьютерных программ факторного ана-

лиза для исследования взаимоотношений между пунктами теста иа

одномоментным данным) привело к обоснованию еще одной достаточ-

но эффективной формулы надежности теста, которой легко воспользо-

ваться, получив стандартную распечатку компьютерных результатов

факторного анализа по методу главных компонент:

(3.2.11)

где 6 - коэффициент, получивший название тета-надежности теста1

k - число пунктов теста;

i - наибольшее значение характеристического корня матрицы

интеркорреляций пунктов (наибольшее собственное значение, или абсо-

лютный вес первой главной компоненты).

Как и предыдущие, формула (3.2.11) также относится к оценке на-

дежности одномерного теста, направленного на измерение одной ха-

рактеристики. Но, кроме того, она применима и для многофакторного

теста, хотя и нуждается в пересчете после первоначального отбора

пунктов, релевантных фактору (после того как на основании много-

факторного анализа отобраны пункты по одному фактору, снова про-

водится факторный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов. Надежность теста обеспечивается

надежностью пунктов, из которых он состоит. Чтобы повысить ретесто-

вую (диахронную) надежность теста в целом, надо отобрать из исход-

ного набора пунктов, апробируемых в пилотажных психометрических

экспериментах, такие пункты, на которые испытуемые дают устойчи-

вые ответы. Для дихотомических пунктов (типа <решил - не решил>,

<да-нет>) устойчивость удобно измерять с использованием четырех-

клеточной матрицы сопряженности:

Тест 1

Да Нет

Здесь в клеточке А суммируются частота ответов <верно>, данных

испытуемым при первом и втором тестировании, в клеточке В - числа

случаев, когда испытуемый при первом тестировании отвечал <верно>,

а .при втором - <неверно> и т. д. В качестве меры корреляции вычис-

ляется фи-коэффициент:

(р , - (3.2.12)

y(a+b){c+d)(a+c)(b+d)

Как известно, значимость фи-коэффициента определяется с по-

мощью критерия хи-квадрат:

STR.72

x!=.q). (3.2.13)

Если вычисленное значение хи-квадрат выше табличного с одной

степенью свободы, то нулевая гипотеза (о нулевой устойчивости) от-

вергается. Удобство в использовании фи-коэффициента состоит в том,

что он одновременно оценивает степень оптимальности данного пункта

по силе (трудности): фи-койффициент оказывается тем меньше, чем

сильнее частота ответов <да> отличается от частоты ответа <нет>.

Кроме того, сама"четырехклеточная таблица позволяет нам про-

следить возможную несимметричность в устойчивости ответов <да> и

<нет> (это важнее для задач, чем для вопросов: например, может ока-

заться, что все испытуемые, уже решившие однажды данную задачу,

решают ее при повторном тестировании - это наводит на мысль о

том, что при втором тестировании происходит сбережение опыта, при-

обретенного при первом тестировании). Выявленные в результате та-

кого анализа неустойчивые и неинформативные (слишком сильные или

слишком слабые) пункты должны быть исключены из теста. Пункты

следует считать недостаточно устойчивыми, если на репрезентативной

выборке величина}-превышает 0,71. При этом (р<0,5.

Для того чтобы повысить одномоментную (синхронную) надежность

теста, следует из исходной пилотажной батареи пунктов отбросить те,

которые плохо согласованы с остальными В отсутствие компьютера

согласованность для пунктов также очень просто определяется с по-

мощью четырехклеточной корреляции. В этом случае в первом столбце

таблички суммируются ответы испытуемых из <высокой> группы (по

величине суммарного балла), во втором столбце - из <низкой>.

Высокая Низкая

"низкая " группаДа Нет (АВ

СD

При нормальном распределении час-, " тот суммарных баллов <высокая> и группа <низкая> группы отсекаются справа и слева 27%-ными маргинальными IJ квантилями (рис. 8). ll Для оценки согласованности с сум- марным баллом применяется полная -%>. (

27/, 73% X фИ-К с. 8. Области (квантили) <высо-оэффициента: 2а -.Pi-Iп 1

VPiW-Pi

Рис. 8. Области (квантили) <высо- P - fp-lN_ Р

кой> и <низкой> группы на графике

распределения тестовых баллов __ количество ответов <верно>

(<да>) на 1-тый пункт теста;

N -.сумма всех элементов таблички;