Анастази А. » Психологическое тестирование

ний, то это устранило бы многие нападки на IQ, вызванные недоразуме-

ниями и неправильными представлениями. В общем виде критериально-

ориентированный подход равносилен интерпретации тестовых результа-

тов соответственно доказанной валидности конкретного теста, а не

посредством неких туманных сущностей, лежащих в его основе. Разуме-

ется, такая интерпретация может сочетаться с отнесением результатов

к нормам.

Тестирование овладения навыком. Второй важной особен-

ностью почти любого критериально-ориентированного теста является ме-

тодика тестирования овладения навыком. Существенно, что оценка вы-

полнения заданий в этом случае производится по принципу <все или

В идеале такие тесты следуют симплексной модели шкалы Гуттмана (W.J. Ро-

pham, T.R. Husek, 1969), так же как и уже обсуждавшиеся в этой главе порядковые шкалы

-r--- - -

Вследстви епени трудно.

НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА

Следует отметить, что критериально-ориентированное тестирование

вовсе не так ново и не столь уж сильно отличается от тестирования,

ориентированного на нормы, как полагают некоторые из его сторонни-

ков. Абсолютная оценка индивидуального выполнения теста в баллах

или процентах, несомненно, намного старше нормативной интерпрета-

ции. Еще до введения термина <критериально-ориентированное тестиро-

вание> делались попытки более точно описать выполнение теста с точки

зрения его содержания (R.L. Ebel, 1962; J.C. Flanagan, 1962; A. Anastasi,

1968, p. 69-70). Другим примером могут служить первые шкалы продук-

тивности, оценивавшие качество почерка, сочинений или рисунков сопо-

ставлением индивидуальной работы с серией стандартных эталонов. Бо-

лее того, Р. Л. Ибел (R.L. Ebel, 1972Ь) заметил, что в педагогике понятие

<овладение навыком>, означающее усвоение определенных единиц зна-

ния по принципу <все или ничего>, было достаточно популярным

в 20-30-х гг. нашего столетия, но позднее было забыто.

В том или ином виде нормы всегда дают о себе знать независимо от

того, как выражаются показатели теста (W.H. Angoff, 1974). Сам выбор

содержания или навыков, подлежащих измерению, определяется знанием

экспериментатора, чего можно добиться от испытуемого на определен-

ном уровне его развития или обучения. Такой выбор предполагает нали-

чие сведений о том, как в подобных ситуациях действовали другие испы-

туемые. Более того, наложение дихотомии <овладел-не овладел> на

континуум умений не снимает индивидуальных различий. Например, ес-

ли уровень понимания текста задается формулировкой <умение понять

содержание газеты <Нью-Йорк Тайме>, то все еще остается достаточно

места для значительных индивидуальных различий в степени понимания.

Прогностические таблицы. Результаты теста можно также

интерпретировать в соответствии с критерием ожидаемого выполнения

предстоящей программы обучения или работы. В этом случае термин

<критерий> употребляется сообразно тому, как это вообще принято

в психометрии, т. е. так, как, скажем, в выражении <валидность теста

определяется относительно некоторого критерия> (см. гл. 2). Строго го-

воря, термин <критериально-ориентированное тестирование> должен

был бы относиться к этому типу интерпретации выполнения теста, тогда

как другие подходы, обсуждавшиеся в этом разделе, правильнее было бы

назвать отнесением к содержанию. Собственно, именно эта терминоло-

гия и используется в тестовых стандартах Американской психологиче-

ской ассоциации (Standards.., 1974).

В прогностической таблице приводится вероятность различных кри-

териальных результатов испытуемых в зависимости от полученного ими

результата теста. Например, если учащийся в тесте SAT показал резуль-

тат 530, то каковы шансы на то, что первый курс колледжа он закончит

со средней оценкой А, В, С, D или f? Информацию такого рода можно

получить, сверив двумерное распределение показателей предиктора

В американских колледжах и старших классах средних школ принята следующая

система оценки успеваемости. По каждому предмету учащийся получает итоговую оценку

по пятибалльной системе А, В, С, D и F. Эти балльные оценки переводятся в цифровую

форму: А приравнивается к 4 (наивысший балл), В-к 3, С-к 2, D-к 1 и. наконец, FK 0.

Каждая из полученных оценок в цифровом выражении умножается на зачетное число ча-

сов по соответствующему предмету. Все такие произведения складываются, и результат

делится на сумму зачетных часов по всем предметам. Полученная таким образом средняя

90 11"ИНЦИ11Ы ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

(SAT) с критерием будущего статуса (средняя оценка успеваемости пер-

вокурсника). Заменив число случаев в каждой ячейке такого двумерного

распределения на проценты, мы получим прогностическую таблицу.

Примером может служить табл. 6, в которой представлены данные, по-

лученные мальчиками-старшеклассниками (всего 171 человек), записав-

шимися на курс истории США. В качестве предиктора здесь использо-

ван показатель теста словесного мышления из батареи DAT, применен-

ного в начале курса, а в качестве критерия будущего статуса-оценки, по-

лученные по окончании курса. Корреляция между показателем теста

и данным критерием составила 0,66.

В первой колонке табл. 6 приведены тестовые результаты, распреде-

ление на классы интервалов, во второй-число учеников, результаты ко-

торых попали в тот или иной интервал. Остальные цифры таблицы

указывают процент учеников из каждого интервала значений предикто-

ра, получивших ту или иную оценку по окончании курса. Так, из 46 уче-

ников, получивших в тесте на словесное мышление 40 и более очков, 15Їо

получили оценки в 100-балльной системе в интервале 70-79, 22Їо-в ин-

тервале 80-89 и 63Їо-90 и выше. С другой стороны, из 46 учеников, по-

казавших в тесте результат ниже 20, 30Ї получили оценки ниже 70,

52Їо-между 70 и 79 и 17Їо-между 80 и 89. В пределах рассматриваемых

данных эти проценты лучше всего выражают вероятность получения ин-

дивидом того или иного критериального балла. Например, если новый

ученик получит тестовый показатель 34 (т.е. попадет в интервал 30-39),

то его шансы получить балл 90 и выше составляет 17 из 100, шансы по-

лучить балл в интервале 80-90 будут равны 39 из 100 и т.д.

На практике критерий будущего статуса может быть заменен

бинарным критерием-предсказанием успеха или неудачи в работе,

в прохождении учебного курса и т.д. Вероятности успеха или неудачи по

каждому интервалу значений показателя прогностического теста могут

быть представлены в виде так называемой карты прогноза. Рис. 7 есть

пример такой карты, составленной для батареи отбора пилотов, разра-

ботанной для военно-воздушных сил США, на которой для каждого ста-

найна показан процент курсантов, не закончивших начального курса лет-

ной подготовки. Так, в процессе подготовки отсеялось 77Їд, получивших

станайн 1 и только 4% получивших станайн 9. В пределах этих крайних

значений от более низких к более высоким станайнам процент отсева по-

стоянно уменьшается. С

помощью этой карты про-

гноза можно, например,

предсказать, что примерно

40"о курсантов, получив-

ших станайн 4, потерпят

неудачу и приблизительно

60% из них удовлетвори-

тельно завершат началь-

ный курс. Аналогичные

прогнозы по каждому ста-

найну можно строить и от-

носительно вероятности

успеха или неудачи от-

дельных курсантов. Так,

Таблица 6

Прогностическая таблица соотношении результатов те-

ста словесного мышления и оценок, полученных по кур-

су истории США, 171 мальчиком >i XI класса

С разрешения Психологической корпорации штата

Нью-Йорк

Результат тестаЧисло случаевllpoueui получивших критериальную оценку

ниже 7070-7980-8990 и выше

40 и выше 30-39 20-29 ниже 2046 36 6 43 12 46 3015 39 63 5222 39 21 1763 i7 5

НАДЕЖНОСТЬ

-г-.

.Станаин Число Процент отчисленных с курсов летной подготовки

человек

9 21,4741f,

8 19,44410%

17 32,129

1 1.6 39,398

i 15 34,975

4 23,69940%

13 11,209i i

2 2,13957%

1 9047%

3 10 20 30 40 50 60 70 80 90 100

Рис. 7. Карта прогноза соотношения выполнения батареи по отбору пилотов и от-

числения с к/рсов летной подготовки (J. С. Flanagan, 1947, р. 58)

S сант имеет 60 шансов против 40, т.е. 3 шанса против 2, успешно за-

. кончить начальный курс подготовки. Нетрудно видеть, что помимо кри-

1 териально-ориентированной интерпретации тестовых показателей про-

1 гностические таблицы и карты дают общее представление о валидности

теста в предсказании по данному критерию.

1 ГЛАВА 5. НАДЕЖНОСТЬ

Под надежностью понимается согласованность результатов теста, полу-

чаемых при повторном его применении к тем же испытуемым в раз-i личные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования. На

S понятии <надежность> основывается вычисление ошибки измерения, кс

. торая служит для указания вероятных пределов колебаний измеряемой

величины, возникающих под действием посторонних случайных факто-

ров.

Понятие <надежность теста> может относиться к различным аспек-

1 там согласованности результатов. В самом широком смысле надежность

1. геста показывает, в какой степени индивидуальные различия в тестовых

6 результатах оказываются <истинными>, а в какой могут быть приписаны

1 случайным ошибкам. Говоря более специальным языком, измерение на-

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

показателей, являющуюся дисперсией ошибки. Вопрос, однако, в том, что

считать дисперсией ошибки. Одни и те же факторы, которые примени-

тельно к одним задачам являются посторонними, при решении других

проблем уже считаются источниками <истинных> различий. Например,

если нас интересуют колебания настроения, то происходящие день ото

дня изменения в результатах теста эмоционального состояния могли от-

носится к цели тестирования и, следовательно, к истинной дисперсии ре-

зультатов. Но если тест предназначен для измерения более стабильных

характеристик личности, то те же ежедневные колебания можно отнести

к дисперсии ошибки.

Существенно, что любые изменения условий, в которых проводится

тест, если они не имеют отношения к его цели, увеличивают дисперсию

ошибки. Поэтому, придерживаясь единых условий тестирования (контро-

лируя общую обстановку, временные ограничения, инструктирование ис-

пытуемого, контакт с ним и другие аналогичные факторы), эксперимен-

татор уменьшает дисперсию ошибки и повышает надежность теста. Но

и в оптимальных условиях ни один тест не является абсолютно надеж-

ным инструментом. Поэтому стандартный набор данных о тесте должен

включать в себя и меру надежности. Такая мера характеризует тест, ког-

да он применяется в стандартных условиях и проводится с испытуемы-

ми, похожими на тех, кто участвовал в нормативной выборке. Следова-

тельно, необходимо также приводить сведения об этой выборке.

Разновидностей надежности теста так же много, как и условий,

влияющих на результаты теста, поэтому любые такие условия могут

оказаться посторонними по отношению к какой-то цели, и тогда обусло-

вленная ими дисперсия должна войти в дисперсию ошибки. Однако

практическое применение находит лишь несколько типов надежности.

В этой главе мы обсудим важнейшие способы измерения надежности те-

стовых результатов, а также соответствующие им источники дисперсии

ошибки. Поскольку все типы надежности отражают степень последова-

тельности или согласованности двух независимо полученных серий пока-

зателей, то в качестве их меры может выступать коэффициент корреля-

ции. Соответственно в следующем разделе рассматриваются некоторые

из основных характеристик коэффициента корреляции, их назначение

и интерпретация. Более специальное обсуждение корреляции с под-

робным описанием вычислительных процедур приводится в элемен-

тарных учебниках по статистике для педагогов и психологов (J. P. Guil-

ford, В. Fruchter, 1973).

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

Понятие корреляции. Коэффициент корреляции (г) выражает сте-

пень соответствия или связи между двумя сериями показателей теста.

Например, если испытуемый, получивший высший результат по перемен-

ной 1, получает высший результат и по переменной 2, а испытуемый, по-

лучивший второй лучший результат по переменной 1, получает такой же

результат по переменной 2 и т.д. до самого низшего результата, то

имеет место полная корреляция между переменными 1 и 2. Коэффициент

корреляции будет при этом равен + 1,0.

Рис. 8 иллюстрирует гипотетический случай полной положительной

корреляции. На рисунке представлена диаграмма рассеяния, или двумер-

ное распределение. Каждая палочка на этой диаграмме отмечает резуль-

НАДЕЖНОСТЬ

тат испытуемого как по переменной 1 (горизонтальная ось), так и по

переменной 2 (вертикальная ось). Нетрудно заметить, что все 100 случаев

распределились вдоль диагонали, идущей из левого нижнего угла

в правый верхний угол диаграммы. Такое распределение означает по-

лную положительную корреляцию ( + 1,0), поскольку из него видно, что

относительное положение каждого испытуемого по обеим переменным

одинаково. Чем ближе двумерное распределение к этой диагонали, тем

выше положительная корреляция.

На рис. 9 изображена полная отрицательная корреляция ( -1,0).

В этом случае результаты по одной переменной полностью обратны ре-

зультатам другой: лучший индивидуальный результат по переменной

1 оказывается худшим по переменной 2, и наоборот, причем подобная

обратимость воспроизводится по всему распределению. Из диаграммы

видно, что все испытуемые распределяются по диагонали, идущей из ле-

вого верхнего в правый нижний угол, т. е. перпендикулярно направлению,

соответствующему полной положительной корреляции.

Нулевая корреляция указывает на полное отсутствие связи. Если ме-

сто каждого испытуемого по переменной 1 определить методом выта-

Рис. 8. Двумерное распределение для гипотетической корреляции (4-1.0)

90-99

80-89

70-79

1 60-69

150-59

d 40-49

30-39

ill

Mi-ill

Wtwr ч

mm 4M-1

т-мг M-w 4М-

тм ш-iii

wtm

Wt 1

ст>

<Т>

It-

сп ст>

in <о

о о

1Л и)

100

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

скивания бумажек с именами из шляпы, а затем ту же процедуру повто-

рить (для переменной 2), то в итоге мы и получим примерно нулевую

корреляцию. В этих условиях, зная результат индивида по переменной 1,

невозможно предсказать его относительное положение по переменной 2.

Испытуемый, имеющий высший показатель по переменной 1, может по-

лучить высокий, средний или низкий показатель по переменной 2. Одни

индивиды могут случайно оказаться выше или ниже среднего показателя

по обеим переменным, другие будут выше среднего по одной перемен-

ной и ниже среднего по другой, иными словами, не будет никакой зако-

номерности в соответствии показателей у разных испытуемых.

Реальные значения коэффициента корреляции, получаемого практи-

чески, обычно больше 0, но меньше 1. Корреляция между показателями

способностей почти всегда положительна, хотя часто и невысока. Отри-

цательные значения коэффициента корреляции обычно объясняются спе-

цификой самих показателей. Если взять, скажем, время, затраченное ис-

пытуемым, и количество выполненных им заданий, то значение

коэффициента, по всей вероятности, будет отрицательным. Так, если ре-

зультат испытуемого по тесту арифметических вычислений регистрирует-

Рис. 9. Двумерное распределение для гипотетической корреляции (-1,0)

70-79

60-69

50-59

? 0-49

30-39

fM 1

Wtm

mm Mill

-wwt mm w

-Mtwt wt i

mwt ii

м-ill

ill

ст) (70) 0 0(7)0(7) -смгпгюиэоос" ill i Ull 000000000

0 0

in иэ

со

101

НАДЕЖНОСТЬ

ся в виде числа секунд, ушедших на решение всех примеров, тогда как

показателем теста на арифметическое мышление служит число правиль-

но решенных задач, то следует ожидать появления отрицательной корре-

ляции. В этом случае наименее успевающий (работающий медленнее

всех) индивид получит численно самый высокий результат по первому