Анастази А. » Психологическое тестирование

разность между этими двумя коэффициентами может служить для при-

близительной оценки однородности теста.

Формула Кьюдера-Ричардсона годится только для случаев, когда

выполнение заданий оценивается как правильное или ошибочное, т. е. по

принципу <все или ничего>. В некоторых тестах, однако, практикуется

более дифференцированная форма представления результатов отдельных

заданий. Например, в личностном опроснике респондент может получать

по отдельным заданиям различные числовые показатели в зависимости

от того, выбрал ли он в наборе ответов <обычно>, <иногда>, <редко>,

<никогда>. Для таких тестов выведена обобщенная формула, известная

как коэффициент альфа (L.J. Cronbach, 1951; M.R. Novick, C.Lewis, 1967).

В этой формуле вместо ? стоит So?-сумма дисперсий результатов от-

дельных заданий. Процедура состоит в нахождении дисперсии индиви-

Простой вывод этой формулы приведен в работе Р.Л.Ибела (R.L.Ebel, 1965,

р. 320-327).

И Строго говоря, это утверждение справедливо, лишь когда применяется формула

Рппня я нс. коппепяттия половин или (Ьопмула Спирмана-Брауна (M.R. Novick,

112 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

дуальных результатов по каждому заданию с последующим суммирова-

нием этих дисперсий по всем заданиям (R.L.Ebel, 1965, р. 326-330).

Формула коэффициента альфа выглядит следующим образом:

_ п( - ?о?)

" ("-1) , 1

Надежность субъективных оценок. Как мы видим, различные

типы надежности отличаются друг от друга тем, какие факторы взяты

в качестве источников дисперсии ошибки. В одном случае такая диспер-

сия означает временные колебания, в другом-различия в сериях парал-

лельных заданий, в третьем-несогласованность тестовых заданий. 1

В свою очередь, факторы, не учтенные при измерении дисперсии ошиб-

ки, в основном делятся на два типа: (а) факторы, чья дисперсия сохра-

няется в показателях, поскольку они входят в изучаемые различия, и (б)

посторонние факторы, поддающиеся экспериментальному контролю. На-

пример, в руководстве к тесту не принято сообщать об ошибках измере-

ния, которые могут появиться в результате проведения теста в отвле-

кающей обстановке или в более короткое или длительное, чем это

положено, время. Подобных отклонений можно избежать, и поэтому нет

нужды в отдельных коэффициентах надежности, соответствующих дис-

персии отвлечения или дисперсии временных лимитов.

Большинство тестов, особенно если они предназначены для массово-

го обследования с использованием компьютеров для вычисления показа-

телей, настолько стандартизированы, что их проведение и регистрация

результатов сводят на нет дисперсию ошибки, обусловленную этими

факторами. Пользуясь такими тестами, необходимо лишь внимательно

следить за выполнением соответствующих предписаний. Вместе с тем

имеются данные, свидетельствующие о том, что в клинических тестах,

применяемых при интенсивных индивидуальных обследованиях, важным

источником ошибки являются различия в способе проведения теста.

С помощью специальных экспериментов удается отделить соответствую-

щую дисперсию от той, которая обусловлена колебаниями в состоянии

испытуемого или использованием различных форм теста.

Сравнительно просто установить, насколько значителен другой ис-

точник ошибки, обусловленный дисперсией подсчета. Некоторые типы

тестов, особенно тесты творческих способностей и проективные лич-

ностные тесты, сильно зависят от оценки подсчитывающего показате-

ли теста. В таких тестах надежность подсчета столь же важно знать, как

и уже знакомые нам коэффициенты надежности. Такую надежность

субъективной оценки можно определить, сравнив два тестовых бланка

с оценками, заполненные двумя экспертами независимо друг от друга.

Коэффициент корреляции полученных таким образом результатов вы-

числяется обычным путем и служит искомой мерой надежности подсче-

та. Если результаты теста определяются на основе суждений эксперимен-

татора, то в руководстве к тесту необходимо также привести

и коэффициент надежности подсчета.

Итоги. Различные типы только что рассмотренных коэффициентов

надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены

по числу форм теста и сеансов тестирования, необходимых для их опре-

деления. В табл. 9 представлены источники дисперсии ошибки, учиты-

ваемые каждой из процедур определения коэффициента надежности.

-------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-

113

НАДЕЖНОСТЬ

Таблица 8

Методы измерения надежности теста

в мвисимости от форм теста и сеансов

тестирования

Таблица 9

Источники дисперсии ошибки для раз-

личных коэффициентов надежности

Необходимое число сеансов тес-Необходимое число форм теста

тированияоднадве

расщеплен-

наявзаимозаменяе-

Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)

ных оце-

нок

Тип коэффициента

надежности

Дисперсия ошибки

ретестовый

временные колебания

состояния испытуемого

ретестовая

взаимозаменяе-

мые (проводимые

через определен-

ный промежуток

времени)

взаимозаме-

няемых формнеоднородность

(непосредст-содержания

венный)

взаимозаме-колебания в состоянии

няемых формиспытуемого и неодно-

(с временнымзначность содержания

интервалом)

расщеплениянеоднозначность

содержания

неоднородность и

Кьюдера-Ри-неоднозначность

чардсона,содержания

альфаиндивидуальные

субъективныхразличия у ставящих

оценокоценки

ственно в процентах дисперсии показателей, определяемой разными

источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо

дисперсии результатов теста зависят от истинной дисперсии по измеряе-

мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-

му определению применяемой процедуры). Читателю, знакомому со ста-

тистикой, напомним, что долю общей дисперсии представляет квадрат

коэффициента корреляции. Действительно, доля <истинной> дисперсии

в результатах теста есть квадрат корреляции между результатами оди-

ночной формы теста и истинными результатами, свободными от слу-

чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-

на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса

надежности и дает коэффициент надежности (гц), который, следователь-

но, может интерпретироваться как процент <истинной> дисперсии.

Эксперименты, позволяющие получать разные типы коэффициентов

надежности для одной и той же группы, допускают разложение суммар-

ной дисперсии показателей на отдельные составляющие. Рассмотрим

следующий гипотетический пример. Предположим, 100 шестиклассников

с интервалом в два месяца прошли формы А и В теста творческих спо-

собностей, причем надежность взаимозаменяемых форм составила 0,7,

надежность, найденная методом расщепления и вычисленная по формуле

Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-

лученная благодаря привлечению еще одного эксперта, проставившего

новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.

" Выводы индекса надежности, основанные на двух различных сериях допущений,

приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3).

В целях более точной оценки коэффициента внутренней согласованности корреля-

ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-

п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

Таблица 10

Анализ источников дисперсии ошибки в гипотетическом тесте

Надежность взаимозаменяемых

форм теста с временным интервалом

1-0 7= 0,3

Изменения состояния

испытуемого + неоднознач-

ность содержания

Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность

формуле Спирмана-Брауна содержания

Разность = 0,1 Изменения состояния

испытуемого

Надежность субъективных оценок

1 - 0,92 = 0,08 Индивидуальные

различия у

ставящих оценки

Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38

<истинная> дисперсия = I - 0,38 = 0,62

Анализ этих трех коэффициентов надежности приводится в табл. 10 и на

рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-

держания, из дисперсии ошибки, определяемой временный выборкой

и выборкой содержания, получаем, что дисперсия временных колебаний

равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-

жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-

лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что

<истинная> дисперсия равна 0,62. Эти величины, выраженные в более

привычной процентной форме, графически изображены на рис. Ц.

НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ

При составлении теста и интерпретации его результатов важно разли-

чать измерение скорости выполнения и возможности выполнения. В <чи-

стом> тесте на скорость индивидуальные различия определяются толь-

ко скоростью выполнения заданий. Трудность заданий такого теста

принудительно одинакова, невысока и вполне посильна испытуемым, на

которых рассчитан тест. Но лимит времени устанавливается так, что

никто не успевает выполнить всех заданий. В таких условиях результат

испытуемого отражает только скорость его работы. Вместе с тем в <чи-

стом> тесте возможностей испытуемому предоставляется достаточно

времени для выполнения всех заданий. Но их трудность постепенно воз-

растает от задания к заданию, так что никто не может справиться со все-

ми заданиями, а значит, не может получить высший результат.

Вообще как скоростные тесты, так и тесты возможностей строятся

с таким расчетом, чтобы нельзя было получить высшего результата.

Излагая на элементарном уровне общую идею одного из способов интерпретации

численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных

чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-

НАДЕЖНОСТЬ

"Истинная" дисперсия = 62%

Дисперсия ошибки = 38%

Стабильность во времени; согласованность форм;

независимость от особенностей лиц.оценивающих

выполнение теста

Различия у лиц, оценивающих выполнение теста

Рис. 11. Процентное распределение дисперсии результатов гипотетического теста

Объясняется это неопределенностью такого результата: остается не-

известным, насколько индивидуальный результат оказался бы выше, ес-

ли бы в тесте было использовано больше заданий или соответственно

более трудные задания. Чтобы каждый испытуемый мог полностью про-

демонстрировать, на что он способен, <потолок> теста должен быть за-

ведомо выше его возможностей либо по числу заданий, либо по степени

трудности. Исключение составляют тесты владения навыком, например

критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-

кого тестирования не в том, чтобы установить границы возможностей

индивида, а в определении того, достиг ли он заранее установленного

уровня выполнения.

Практически большинство тестов являются одновременно и ско-

ростными, и тестами возможностей, однако пропорция, в которой пред-

ставлены оба эти компонента, может быть различной. Знание этой про-

порции необходимо не только для того, чтобы понять, что измеряет

тест, но и для выбора надлежащей процедуры оценки его надежности.

Коэффициенты надежности, получаемые при однократном предъявлении

теста, когда определяется корреляция данных по заданиям с четными

и нечетными номерами или используется формула Кьюдера-Ричардсо-

на, неприменимы к тестам на .скорость. Чем больше индивидуальные

различия в тестовых результатах зависят от скорости выполнения, тем

более завышенными оказываются коэффициенты надежности, опреде-

ленные этими методами. Это видно из следующего контрастного приме-

ра. Пусть некий тест, состоящий из 50 заданий, является чисто ско-

ростным тестом, т.е. индивидуальные различия в результатах опреде-

ляются лишь числом выполненных заданий, а не числом ошибок. Тогда

испытуемый А, набравший 44 очка, очевидно, получит по 22 очка за

четные и за нечетные задания. Точно так же испытуемый В, показавший

результат 34, справится с 17 четными и 17 нечетными заданиями. Следо-

вательно, если не считать нескольких случайных ошибок, допущенных по

небрежности, корреляция между четными и нечетными заданиями будет

полной, т.е. равна 1. Но такая корреляция, однако, явно завышена и не

дает никакой информации о надежности теста.

Проверка процедур, используемых при определении надежности ме-

тодом расщепления и по формуле Кьюдера-Ричардсона, показала, что

обе они основаны на согласованности числа ошибок. Если же различия

индивидуальных тестовых результатов определяются не ошибками,

а скоростью, то и мера их надежности должна, очевидно, основываться

на согласованности заданий на скорость. Когда же выполнение теста за-

nwru-г пгтнпнпомйннп пт скоппсти и возможностей выполнения, то коэ(Ь-

116 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

вления теста, окажутся ниже 1,00, но все еще будут завышенными. Такие

коэффициенты надежности не поддаются адекватной интерпретации, по-

скольку на индивидуальные различия в тестовых результатах заметное

влияние оказывает скорость выполнения заданий.

Какие же процедуры определения надежности пригодны для тестов

с выраженным скоростным компонентом? Такими процедурами могли

бы быть метод ретеста (если его удается применить) и метод взаимоза-

меняемых форм. Можно воспользоваться и методом расщепления при

условии, что задания теста расчленяются по временным характеристи-

кам, а не по порядковым номерам. Иными словами, сравниваемые ре-

зультаты должны быть получены временным разделением частей теста.

Одним из способов такого разделения является применение двух эквива-

лентных частей теста с разделенным временным ограничением. Напри-

мер, четные и нечетные задания распечатываются на разных листах, и по

каждому набору заданий устанавливается временной лимит, равный по-

ловине лимита для всего теста. Такая процедура равносильна проведе-

нию следующих друг за другом двух эквивалентных форм теста. Каждая

форма, однако, вдвое короче целого теста, тогда как результаты испы-

туемого определяются по всему тесту. Поэтому необходимо воспользо-

ваться формулой Спирмана-Брауна или какой-либо другой формулой

этого типа для определения надежности всего теста.

Если раздельное применение двух половин теста недопустимо, то

вместо него можно воспользоваться разделением полного времени теста

на четыре части с регистрацией результатов отдельно для каждой че-

тверти. Это легко осуществить, прося испытуемого по сигналу экспери-

ментатора отметить крестиком выполняемое в этот момент задание.

Число заданий, выполненных за первую и четвертую части полного вре-

менного лимита, составит результат по одной из сравниваемых половин

теста. Показатель другой половины теста будет равен числу заданий,

с которыми испытуемый справился за вторую и третью четверти. Такая

комбинация четвертей способствует нейтрализации кумулятивных эффек-

тов тренировки, утомления и других факторов. Этот метод лучше всего

подходит для тестов, задания которых не особенно отличаются друг от

друга по степени трудности.

В каких случаях временной компонент следует считать суще-

ственным? При каких условиях нужно соблюдать рассмотренные выше

меры предосторожности? Очевидно, само по себе использование лими-

тов времени еще не означает, что мы имеем дело с тестом на скорость.

Если все испытуемые укладываются в отведенное время, то скорость ра-

боты не сказывается на показателях. В качестве приблизительной меры

существенности скоростного компонента, казалось бы, можно взять про-

цент испытуемых, не успевающих закончить тест. Однако даже если ник-

то не укладывается в отведенные временные рамки, скорость выполне-

ния может оказаться тут ни при чем. Например, если все испытуемые

выполнят 40 заданий из 50, то индивидуальные различия в скорости от-

сутствуют, хотя никто не успевает выполнить весь тест.

Существенным здесь оказывается следующий вопрос: <В какой сте-

пени индивидуальные различия в тестовых результатах определяются