Анастази А. » Психологическое тестирование

стирования, надежность взаимозаменяемых форм оказывается полезной

мерой для оценки многих тестов.

Понятие выборки заданий, или выборки содержания, лежит в основе

не только данного, но и других типов надежности, о которых речь пой-

дет дальше. Поэтому рассмотрим данную концепцию подробнее. Ве-

роятно, каждому когда-то доставались на экзамене вопросы именно по

той теме, к которой он был особенно хорошо подготовлен или, напро-

тив, знал этот материал особенно плохо. Столь знакомая всем ситуация

Под параллельными (parallel), или взаимозаменяемыми (alternate) формами теста

понимаются серии заданий, не обязательно дающие первичные результаты с одинаковы-

ми М ист, но снабженные таблицами эквивалентности. Параллельные формы следует от-

личать от уравненных (matched) форм, состоявших из заданий, попарно уравненных по

структуре и содержанию, и эквивалентных (equivalent) форм, не уравненных, но тем не ме-

нее дающих результаты, обладающие весьма близкими статистическими характеристика-

"" nfiiiiee наименование упомянутых серий-сопоставимые (comparable) формы. В амери-

~"""""Ї и иные, неканонизированные названия отдельных

""- ""tud). дублированные

107

НАДЕЖНОСТЬ

поясняет дисперсию ошибки, связанную с выборочным представлением

содержания. В какой степени показатели данного теста зависят от факто-

ров, проявляющих себя именно в данном наборе заданий? И если другой

исследователь, работая независимо от нас, подготовил бы другой тест

в соответствии с теми же требованиями, то насколько бы результаты

этих тестов отличались друг от друга? Предположим, что для теста сло-

варного запаса был составлен список из 40 слов. Предположим делее,

что с той же целью был составлен второй список из 40 других слов, при-

чем были соблюдены все предосторожности, чтобы трудность теста

осталась той же самой. Различия в показателях, полученных в двух те-

стах одними и теми же испытуемыми, иллюстрирует рассматриваемый

тип дисперсии ошибки. Под действием факторов, связанных с прошлым

опытом различных испытуемых, относительная трудность двух списков

будет несколько меняться от одного индивида к другому. Например,

первый список может содержать большее число слов, незнакомых испы-

туемому А, чем второй, в котором, в свою очередь, могло оказаться не-

пропорционально много слов, незнакомых испытуемому В. Если сло-

варный запас (т.е. истинные показатели) обоих испытуемых приблизи-

тельно одинаков, то В тем не менее превзойдет А по первому списку,

тогда как А превзойдет В по второму. Относительное положение испы-

туемых А и В по данным двум спискам окажется взаимно противопо-

ложным из-за случайных различий в подборе слов.

Как и при ретестовой надежности, надежность взаимозаменяемых

форм всегда должна дополняться указанием длительности временного

интервала, разделяющего два предъявления теста, а также описанием

происшедших за это время событий. Если обе формы применяются не-

посредственно одна за другой, то корреляция отражает надежность, отно-

сящуюся к замене форм, а не к временному фактору. Дисперсия ошибки

в этом случае вызывается колебаниями в выполнении двух наборов зада-

ний, а не временным фактором.

При разработке взаимозаменяемых форм, безусловно, следует поза-

ботиться о том, чтобы они были действительно таковыми. Важно, чтобы

параллельные формы были бы независимо построенными тестами, отве-

чающими одним и тем же требованиям. Такие тесты должны содержать

одинаковое число заданий, представленных в одной и той же форме и

с однотипным содержанием. Диапазон и уровни трудности заданий так-

же должны быть одинаковыми. Инструкции, временные рамки, поясняю-

щие примеры, формат бланков и другие аспекты тестирования также не-

обходимо проверить на сопоставимость.

Следует добавить, что наличие пареллельных форм желательно и по

другим соображениям, независимо от определения надежности теста.

Взаимозаменяемые формы полезны при катамнестических исследованиях

и при изучении влияния определенных экспериментальных факторов на

выполнение теста. Применение нескольких взаимозаменяемых форм

уменьшает действие искушенности в тестировании и вероятность обма-

на.

Хотя по сравнению с ретестовой надежностью надежность взаимоза-

меняемых форм применяется достаточно широко, она также имеет свои

недостатки. Прежде всего, если изучаемые функции поведения подвер-

жены значительному влиянию фактора тренировки, использование па-

раллельных форм ослабит, но не устранит его полностью. Конечно, если

" -----""", "е:т,,пт,пг,пт. nnun in тп -лее-, уттучтпение оезультатов

108 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

при повторном проведении теста, то это не повлияло бы на корреляцию

показателей, поскольку добавление постоянной величины к каждому ре-

зультату не меняет коэффициента корреляции. Однако, скорее всего.

улучшение результатов для разных испытуемых будет неодинаковым

вследствие индивидуальных различий в опыте работы с подобным мате-

риалом, в мотивации участия в тесте и по других причинам. В этих усло-

виях эффект тренировки является дополнительным источником диспер-

сии, снижающим корреляцию между двумя формами. Но если влияние

тренированности невелико, то снижение будет ничтожным.

Другая проблема связана с возможным изменением природы теста

при повторном его проведении. Например, если в параллельных задачах

на сообразительность применен один и тот же принцип, то испытуемый,

однажды найдя решение, и во второй раз применит его. В подобных слу-

чаях одной замены содержания задания явно недостаточно для того,

чтобы избежать эффекта переноса. Наконец, следует добавить, что для

многих тестов взаимозаменяемые формы отсутствуют ввиду трудностей,

связанных с их составлением. В силу этих причин часто приходится

обращаться к другим методам оценки надежности.

Метод расщепления. Меру надежности можно определить и на

основании однократного применения единственной формы теста, поль-

зуясь для этого процедурой расщепления. При таком способе каждый ис-

пытуемый получает два результата благодаря разбиению теста на две

сопоставимые части. Очевидно, что надежность, найденная методом рас-

щепления, является мерой согласованности выборок содержания. Вре-

менная стабильность показателей в ней не представлена, поскольку при-

меняется только один сеанс тестирования. Этот тип коэффициента

надежности иногда называют коэффициентом внутренней согласованно-

сти, ибо для его определения требуется лишь единственное применение

одной формы теста.

Первая проблема, с которой мы сталкиваемся, применяя метод рас-

щепления, связана с тем, как разделить тест надвое, чтобы при этом по-

лучились наиболее сопоставимые части. Всякий тест можно членить мно-

гими способами. Для большинства из них первая и вторая половины, как

правило, несопоставимы вследствие различий в природе и уровнях труд-

ности заданий, а также в связи с увеличивающейся вовлеченностью

в тест практики, утомления, скуки и т. д. Адекватная основным целям те-

стирования процедура разбивает результаты по четным и нечетным за-

даниям теста. Если задания теста расположены в порядке возрастания

трудности, то такое разбиение обеспечивает достаточную эквивалент-

ность показателей обеих половин. Одна предосторожность, которую тре-

буется при этом соблюдать, относится к случаю, когда тест содержит

группу взаимосвязанных заданий-например, когда несколько вопросов

касаются какой-то конкретной диаграммы или одного и того же фраг-

мента текста. В подобном случае каждая такая группа заданий должна

быть целиком отнесена либо к одной, либо к другой половине. Если за-

дания таких групп разделить на две части, то возникнет обманчивое

сходство сравниваемых показателей, так как любая ошибка в понимании

задачи скажется на выполнении заданий из обеих половин.

Полученные показатели по двум частям теста коррелируются обыч-

ным методом. Нужно иметь в виду, однако, что эта корреляция в дей-

ствительности отражает надежность лишь половины теста. Например,

--.-.. "". rnn- nnn-r.n,,rr т,о iru norroiilitt тп i-rTT

109 НАДЕЖНОСТЬ

для двух серий результатов, каждая из которых содержит только 50 за-

даний. В отличие от надежности этого типа, в ретестовой надежности,

и надежности взаимозаменяемых форм каждый показатель вычисляется

на основе общего числа заданий теста.

При прочих равных условиях, чем больше заданий содержит тест,

тем выше его надежность. Вполне оправданно ожидать, что чем обшир-

нее выборка поведения, тем адекватнее и согласованнее получаемые еди-

ницы измерения. Влияние увеличения или же сокращения теста на его

коэффициент надежности можно оценить посредством формулы Спирма-

на - Брауна:

l+(n-l)rii

где rii-исходное значение коэффициента надежности, Гц-его значение

после расширения или сокращения теста, а п -отношение нового числа

заданий к первоначальному. Так, если число заданий теста возросло с 25

до 100, топ равно 4, а если оно сократилось с 60 до 30, топ равно 1/2.

Формула Спирмана-Брауна широко используется для пересчета надеж-

ности, определенной по методу расщепления, и во многих руководствах

к тестам приводится уже пересчитанное значение. Поскольку переход от

расщепленного теста к его полной форме всегда означает удвоение числа

заданий, то эта формула принимает вид:

"~Ti

П.Ж. Рюлон (P.J. Rulon, 1939) предложил другой способ определе-

ния надежности методом расщепления. Для расчетов требуется знать

только дисперсию разностей между результатами каждого испытуемого

по обеим половинам теста (ст) и дисперсию суммарных результатов (ст).

Значения этих величин подставляются в формулу, определяющую надеж-

ность теста в целом:

.--

Интересно отметить связь между этой формулой и определением

дисперсии ошибки. Любая разность между результатами испытуемого

по двум половинам теста представляет собой случайную ошибку. Дис-

персия таких разностей, поделенная на дисперсию результатов, дает

долю дисперсии ошибки. Вычитая долю дисперсии ошибки из единицы,

мы получаем долю <истинной> дисперсии, которая и равна коэффициен-

ту надежности.

Метод Кьюдера-Ричардсона. Четвертый метод определения

надежности, также основайный на однократном предъявлении единствен-

ной формы теста, использует согласованность ответов по всем заданиям

теста. На согласованность этого рода влияют два источника дисперсии

ошибки: (1) выборка содержания на надежность взаимозаменяемых

форм и расщепления и (2) неоднородность исследуемой области поведе-

ния. Чем однороднее эта область, тем выше согласованность результа-

Увеличение числа заданий теста не повлияет, однако, на его временную стабиль-

110 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

тов заданий теста. Например, если в одном тесте приведены задания

только на умножение, а в другом представлено сложение, вычитание, ум-

ножение и деление, то в первом тесте согласованность выполнения от-

дельных заданий будет, вероятно, большей, чем во втором. Во втором

более разнородном тесте один испытуемый может лучше справиться

с вычитанием, чем с другими действиями, другой покажет относительно

высокий результат в делении, но хуже проявит себя в сложении, вычита-

нии и умножении и т.д. Более контрастным примером однородности

и разнородности мог бы служить тест, состоящий из 40 заданий на пони-

мание слов, и тест, содержащий 10 словарных заданий, 10 заданий на

пространственные отношения, 10 на арифметическое мышление и 10 на

скорость восприятия. В последнем тесте связь между индивидуальным

выполнением различных типов заданий может быть незначительной или

полностью отсутствовать.

Очевидно, что чем однороднее тест, тем однозначнее его резуль-

таты. Предположим, что в последнем из только что упомянутых тестов

Смит и Джонс получили по 20 очков. Можем ли мы заключить, что

с этим тестом они справились одинаково? Совсем нет. Смит мог пра-

вильно ответить на 10 словарных вопросов, получить по очку за каждое

из заданий на скорость восприятия и не выполнить ни одного задания на

арифметическое рассуждение и пространственные отношения. Напротив,

20 очков Джонса могли распределиться таким образом: 5 за скорость

восприятия, 5 за пространственные отношения, 10 за арифметическое

рассуждение и 0 за словарь.

Суммарный показатель в 20 очков мог бы, конечно, означать и мно-

жество других сочетаний в выполнении заданий. Вместе с тем в более

однородном словарном тесте показатель 20 будет, вероятно, означать,

что испытуемый правильно указал значение примерно 20 первых слов,

если слова расположены в порядке возрастания трудности. Он мог оши-

биться в отношении двух-трех сравнительно легких слов, дать пра-

вильный ответ по более трудным словам, расположенным под номера-

ми, большими 20, но такие индивидуальные колебания ничтожны по

сравнению с теми, которые присущи разнородному тесту.

Весьма существенным в этой связи является вопрос: насколько

однороден сам критерий, на предсказание которого направлен тест? Хо-

тя однородные тесты могут предпочитаться, поскольку их показатели

допускают довольно однозначную интерпретацию, но однородный тест

сам по себе, очевидно, непригоден для предсказания весьма неоднород-

ного критерия. Более того, при предсказании неоднородного критерия

разнородность заданий теста не обязательно означала бы дисперсию

ошибки. Хорошим примером разнородных тестов, предназначенных для

предсказания неоднородного критерия, являются традиционные тесты

интеллекта. В подобных случаях весьма желательно составить несколько

относительно однородных тестов, каждый из которых измерял бы раз-

личные фазы неоднородного критерия. Тем самым однозначная интер-

претация результатов теста могла бы сочетаться с адекватным охватом

критерия.

Самая распространенная процедура определения согласованности

выполнения заданий теста была разработана Г. Ф. Кьюдером и М. В. Ри-

чардсоном (G.F. Kuder, M.W. Richardson, 1937). Как и в методе расще-

Ill НАДЕЖНОСТЬ

двух половин теста для анализа используются данные о выполнении ис-

пытуемыми каждого задания. Из различных формул, приведенных в ука-

занной статье, широко применяется так называемая формула 20:

п(о} - ?то)

"=-т).г

В этой формуле Гц - коэффициент надежности всего теста, п -число

заданий, <-стандартное отклонение суммарных показателей теста.

Единственным новым элементом в этой формуле является сумма Е д, где

р и q -доля испытуемых, соответственно справившихся и не справивших-

ся с каждым заданием. Чтобы вычислить ? , нужно для каждого зада-

ния определить произведение р х q, а затем сложить эти произведения

по всем заданиям. Поскольку в процессе составления теста величина

р часто фиксируется для определения уровня трудности каждого задания,

этот метод определения надежности требует лишь незначительных доба-

вочных вычислений.

Можно математически доказать, что коэффициент надежности по

Кьюдеру-Ричардсону представляет собой при всех возможных разбие-

ниях теста надвое среднее значение коэффициентов, найденных методом

расщепления (L.J. Cronbach, 1951). Обычный же коэффициент надежно-

сти для расщепленного теста основан на разбиении, построенном в рас-

чете на получение эквивалентных половин. Поэтому в случае не вполне

однородного теста коэффициент Кьюдера-Ричардсона меньше получен-

ного методом расщепления. Следующий контрастный пример поясняет,

в чем причина такого расхождения. Пусть мы имеем тест из 50 заданий

25 различных видов (например, задания 1 и 2-на понимание слов, 3

и 4-на арифметическое рассуждение, 5 и 6-пространственную ориента-

цию и т.д.). Четные и нечетные задания этого теста теоретически могут

весьма тесно коррелировать друг с другом, что при использовании об-

щепринятой процедуры расщепления даст высокий коэффициент надеж-

ности. Но однородность этого теста, как и воспроизводимость успехов

и неудач по всем 50 заданиям, будет очень низкой. Поэтому в данном

примере следует ожидать, что коэффициент Кьюдера-Ричардсона ока-

жется намного ниже, чем в случае метода расщепления. Заметим, что