Анастази А. » Психологическое тестирование

с процентилями, также основанными на процентах случаев. Напомним

(см. гл. 4), что процентили не являю юя равными единицами и меняклся

по величине от центра к краям распределения (рис. 4, гл. 4).

Если исходить из нормального распределения свойства, измеряемо-

го заданием, то уровень трудности можно чьи. .лить в иервальной

шкале с фиксированной единицей, пользуясь <аблицей частот нормаль-

ного распределения. В гл. 4 отмечалось, например, что примерно 34Їо

случаев при нормальном распределении приходится на интервал в 1ст

в обоих направлениях от среднего значения (рис. 3, гл. 4). Принимая это

во внимание, рассмотрим рис. 22, на котором представлен уровень труд-

ности задания, выполненного 84Ї испытуемых. Поскольку испытуемые,

84%

Рис. 22. Соотноше-

ние между процен-

-С.. :, i. аИВШИХСЯ С

;... .. г. и его

.,,.:". (1.о при

нормальном рас-

пределении

182 ПРИНЦИПЫ психологичг.ского ТЕСТИРОВАНИЯ

выполнившие задание, относятся к верхней части распределения, то эти

84Їо займут всю правую половину распределения (50%) и часть (34"д) ле-

вой половины (50 + 34 = 84).

Таким образом, как видно из рис. 22, трудность задания приходится

на 1ст слева от среднего значения. Задание, выполненное 16% группы, бу-

дет соответствовать 1ст справа от среднего, поскольку на область справа

от этой точки приходится 16% случаев (50 -34 = 16). Задание, выпол-

ненное половиной группы, соответствует среднему распределению, т.е.

нулю этой шкалы, положительные значения которой относятся к более

трудным, а отрицательные-к менее трудным заданиям. Уровень трудно-

сти, отвечающий любому проценту справившихся с заданием, можно

найти по таблице нормального распределения, имеющейся в любом

учебнике по статистике.

Поскольку представление трудности заданий в единицах стандартно-

го отклонения нормального распределения сопряжено с использованием

отрицательных чисел и десятичных дробей, такие значения обычно пере-

водят в более удобную шкалу. Одна из таких шкал Д, используемая

Службой тестирования в образовании при разработке тестов, связана со

шкалой (7 следующим соотношением:

Л = 13 + 4х,

где х-трудность задания, выраженная в единицах стандартного отклоне-

ния нормального распределения. Константы 13и4 выбраны произволь-

но с тем, чтобы избежать отрицательных значений и получить достаточ-

но широкий диапазон величин, позволяющий обходиться без десятичных

дробей. Задание, выполняемое почти всеми (точнее, в 99,8% случаев)

и приходящееся на - 3(7, имеет А, равное 13+ 4х(- 3) = 1. Это самое

низкое значение для большинства групп. В противоположность этому за-

дание, с которым справляется 0,13% испытуемых, соответствует 3(7,

и для него Д = 13+4 х 3 = 25. Среднее по трудности задание с ну-

левым значением в шкале ст будет иметь А = 13. Таким образом, шкала

устроена так, что практически все задания охватываются диапазоном

значений А от 1 до 25, причем заданию средней трудности для каждой

данной группы соответствует число 13.

Важным практическим преимуществом шкалы А перед другими ана-

логичными шкалами является то, что для нее составлена таблица

(С. Т. Fan, 1952), с помощью которой по значению р (т.е. по относитель-

ному количеству выполнивших задание) можно непосредственно найти А.

Эта таблица избавляет от необходимости отыскивать сначала место

задания в нормальном распределении и затем переходить к А. На прак-

тике чаще всего можно обойтись порядковой мерой трудности задания,

такой, как величина р. Если же намечается провести более точный стати-

стический анализ, требующий измерения трудности в интервальной шка-

ле, то определить значение А можно без особых усилий.

Распределение результатов теста. Трудность теста в целом,

разумеется, непосредственно зависит от трудности заданий, из которых

он состоит. Полная проверка трудности всего теста применительно к по-

пуляции, для которой он предназначен, осуществляется с помощью рас-

пределения суммарных результатов. Если выборка стандартизации ре-

презентативна срезу такой популяции, то можно ожидать, что эти

183 АНАЛИЗ ЗАДАНИЙ

Предположим, однако, что полученная кривая распределения не нор-

мальна, а явно скошена, так как это изображено на рис. 23. Первое из

этих распределений (часть А), у которого значительная часть результатов

сосредоточена на левом его конце, указывает на то, что для данной

группы тест содержит мало относительно легких заданий, достаточное

число которых необходимо для лучшего различения испытуемых, чьи ре-

зультаты находятся на нижнем конце диапазона значений. В силу этого

испытуемые, результаты которых обычно распределены в довольно ши-

роком диапазоне, получат в этом тесте результаты близкие или равные

О, отсюда и нахождение пика кривой вблизи нижнего края шкалы. Схема

такого искусственного сосредоточения результатов, когда нормальное

распределение показателей по какому-то тесту дает распределение, ско-

шенное влево, приведена на рис. 24, Противоположный этому скос рас-

пределения дается на рис. 23 (в части В). Здесь результаты сосредото-

чены преимущественно на верхнем конце шкалы, что свидетельствует

о чересчур низком потолке трудности в данном тесте. Такого рода ско-

шенное распределение наблюдается, например, когда тест, предназна-

ченный для общей популяции, дается выборке студентов или аспирантов,

многие из которых показывают почти 100Ї(,-ный результат. С помощью

такого теста невозможно измерять индивидуальные различия между ис-

пытуемыми, чьи показатели принадлежат к верхнему краю распределе-

ния. Если бы в тест были включены более трудные задания, многие из

испытуемых, несомненно, набрали бы еще больше очков, чем максимум

для данной серии заданий.

Когда распределение результатов теста, полученное на выборке

стандартизации, заметно отличается от нормального, обычно произво-

дится корректировка трудности заданий, пока не достигается приблизи-

тельно нормальная кривая. В зависимости от типа отклонений от нор-

мального распределения добавляются более легкие или более трудные

Рис. 23. Скошенные .кривые

рамредепцая

А. Сосредоточение результатов на нижнем конце шкалы

Рис. 24. Скос распределения

результатов вследствие не-

достаточного числа легких

заданий

м>м>я> распределение способности

.-- распределение гестовых

результатов

В. Сосредоточение результатов на верхнем конце шкалы

184 ПРИНЦИПЫ ПСИХОЛОГИЧР-СКОГО ТЕСТИРОВАНИЯ

задания, первоначальные задания изымаются или пересматриваются, ме-

няется их положение в шкале трудности, некоторым из пересмотренных

ответов приписываются новые веса. В итоге наиболее частым становится

результат, близкий к 50Їо от максимального количества очков. Тому, кто

не знаком с методами построения психологического теста, 50Їо-ный ре-

зультат может показаться поразительно низким и иногда либо слышатся

возражения против якобы слишком низкого проходного минимума оч-

ков, либо делается вывод, будто протестированная группа оказалась ис-

ключительно слабой. Несостоятельность подобных мнений сразу стано-

вится очевидной, если принять во внимание процедуру разработки

психологического теста, который сознательно конструируется и коррек-

тируется с таким расчетом, чтобы среднее количество правильно выпол-

ненных заданий составляло приблизительно 50Їо от общего их числа.

Только таким путем удается добиться максимальной дифференциации

способностей испытуемых на всех полученных в тесте уровнях. При сред-

нем, приблизительно 50Їо-ном результате создается максимальная воз-

можность получить нормальное распределение и широкий разброс инди-

видуальных показателей

Уровень трудности заданий, составляющих тест, определяет не толь-

ко средний уровень трудности теста, его минимальную и максимальную

трудности, но и разброс тестовых результатов. Как было сказано выше,

максимальный разброс полного результата теста имеет место, когда

трудность заданий в основном близка к р = 0,50. Тот факт, что подоб-

ный отбор заданий обеспечивает лучшую дифференциацию, чем в случае

широкого разброса уровней трудности, поясняет рис. 25. Три распреде-

ления суммарных результатов, приведенные на этом рисунке, получены

Р. Ибелом (R.L. Ebel, 1965) для трех тестов, состоявших каждый из 16

заданий. Задания для теста 1 были отобраны так, чтобы они группирова-

лись вблизи уровня трудности 0,50. В тесте 2 трудность заданий была

распределена по всему диапазону значений р. В тесте же 3 использова-

лись задания, для которых значения р были расположены вблизи краев

этого диапазона. Отметим, что наиболее широкий разброс результатов

теста был получен при р, сосредоточенных вокруг 0,50. Коэффициент

надежности в этом случае оказался максимальным, тогда как в случае

теста с крайними значениями трудности заданий этот коэффициент был

чрезвычайно низким. Эти примеры приведены только в целях иллюстра-

ции, но к аналогичным выводам нас приводит и более специальный ана-

лиз этой проблемы с применением статистических и экспериментальных

средств исследования (L.J. Cronbach, W.A. Warrington, 1952; F.M. Lord,

1952; F.M. Lord, M.R. Novick, 1968).

Связь между трудностью задания и назначением теста.

Стандартизованные психологические тесты в целом строятся так, чтобы

обеспечить наибольшую дифференциацию испытуемых на всех уровнях.

В действительности нормальная кривая обеспечивает более тонкое различение на

краях, чем в центре шкалы. Равная разрешающая способность во всех точках шкалы име-

ла бы место при прямоугольном распределении. Однако нормальная кривая предпочти-

тельнее для последующего статистического анализа результатов, поскольку многие суще-

ствующие статистические методы основываются на распределении, близком к нормально-

му. По этой и другим причинам составители большинства тестов, предназначенных для

общего пользования, вероятно, будут еще какое-то время ориентироваться на нормаль-

185

АНАЛИЗ ЗАДАНИЙ

Наше обсуждение трудности заданий до сих пор относилось к тестам

именно такого рода. Однако при построении тестов специального назна-

чения выбор трудности заданий, так же как и оптимальная форма их

распределения, зависит от типа необходимого различения. Так, тесты,

предназначенные для отсеивания испытуемых, должны содержать зада-

ния, для которых значения р весьма близки к установленному индексу

отбора (F.M. Lord, 1953). Например, чтобы отобрать верхние 20"/о

группы, лучше всего пользоваться заданиями с р, приблизительно рав-

Рис. 25. Соотношение между распределением результатов теста и распределением

заданий по трудности (R. L. Ebel, 1965, р. 363)

186 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ной 0,20. Поскольку при отсеивании никакой дифференциации испы-

туемых, как отсеянных, так и оставшихся, не требуется, время тестирова-

ния используется наиболее эффективно, если задания по трудности

группируются вблизи проходного результата. Отсюда, например, выте-

кает, что если тест предназначен для отбора стипендиатов, то его зада-

ния должны быть значительно труднее среднего задания для да "on по-

пуляции. Аналогично, если отбираются плохо успевающие ученики для

коррекционного обучения, задания желательно выбирать намного легче

обычных.

Еще одним примером может служить национальная программа

оценки прогресса в образовании (F.B. Womer, 1970). Эта программа за-

думывалась как попытка получить непосредственные сведения о качестве

образования в Соединенных Штатах и предусматривала обследование

тщательно подобранных репрезентативных выборок популяции на четы-

рех возрастных уровнях: 9, 13, 17и 26-35 лет. В программе никак не от-

ражались индивидуальные достижения, ее целью было описать знания,

понимание и навыки, свойственные американцам указанных возрастных

категорий. В рамках каждой области содержания для каждой возрастной

группы нужно было получить ответы на следующие три вопроса: (1) Что

знают почти все американцы? (2) Что знает типичный, или средний, аме-

риканец? (3) Что знают наиболее способные американцы? Чтобы отве-

тить на эти вопросы, были подготовлены упражнения трех уровней

трудности: одну треть составляли легкие упражнения (р = 0,9), другую

треть-упражнения средней трудности (р = 0,5) и последнюю треть-

трудные упражнения (р = 0,1). Фактически процент лиц, выполнявших

эти упражнения, каждый раз несколько отклонялся от этих значений. Од-

нако целью составителей тестов было максимальное приближение к вы-

бранным значениям р.

Третий пример, иллюстрирующий выбор трудности заданий со-

образно назначению теста, связан с тестированием владения навыком.

Напомним (см. гл. 4), что тесты владения навыком типичны для крите-

риально-ориентированного тестирования. Если назначение теста-устано-

вить, овладел ли индивид как следует основными, существенными эле-

ментами того или иного навыка или усвоил ли он знания, необходимые

для перехода к следующему этапу обучения, то трудность задания долж-

на быть на уровне 0,8-0,9. При выполнении этого условия мы можем

ожидать, что большинство обследуемых справится почти со всеми зада-

ниями. Таким образом, весьма легкие задания, которые были изъяты из

обычного стандартизованного теста из-за их низкой разрешающей спо-

собности, даже те, с которыми справляется 100Їо испытуемых, как раз

и включаются в тест владения навыком. Аналогично тест, проводимый

перед началом обучения с тем, чтобы выявить учеников, уже освоивших

подлежащие выработке навыки, должен состоять из заданий с весьма

низким р. В этом случае задания с очень низким и даже нулевым р впол-

не допустимы, поскольку они выявляют то, что еще осталось неус-

военным.

Из приведенных примеров явствует, что уровень трудности заданий

зависит от назначения теста. Хотя в большинстве случаев максимум ин-

Ввиду специфики многих тестов, термин <упражнение> к-ячяттгя Дпгтрр v--ru

187

АНАЛИЗ ЗАДАНИЙ

формации об индивидуальном уровне выполнения теста обеспечивают

задания средней трудности (0,50), решение о трудности задания нельзя

принимать бездумно, без учета того, как предполагается использовать

тест.

ВАЛИДШИСТЬ ЗАДАНИЙ

Соотношение между заданием и контрольным критерием. Все

индексы валидности заданий основаны на соотношении между выполне-

нием задания и критериальным выполнением. Любой критерий, исполь-

зуемый для определения валидности теста, годится и для валидации за-

даний, анализ которых может быть использован для повышения не

только конвергентной, но и дискриминантной валидности теста (см.

гл. 6). Задания, таким образом, можно выбирать по признаку высокой

корреляции с критерием и низкой корреляции с безотносительными

к тесту факторами, влияющими на выполнение теста испытуемым. При

разработке, например, теста на арифметическое мышление задания, зна-

чимо коррелирующие с тестом на понимание читаемого текста, должны

быть изъяты.

Поскольку обычно регистрируется лишь факт выполнения или невы-

полнения задания, измерение его валидности, как правило, означает со-

поставление дихотомического показателя (результат выполнения зада-

ния) с непрерывной переменной (критерием). В известных ситуациях

критерий может быть также дихотомичным (например, окончание кол-

леджа или отчисление из него, успех или неудача в работе). Более того,

непрерывный критерий для целей анализа может быть превращен в ди-

хотомический. На рис. 26 изображены три характеристические кривые,

иллюстрирующие основные соотношения между заданием и критерием.

Каждая из этих кривых дает представление о взаимосвязи между про-

центом справившихся с заданием испытуемых и соответствующим клас-

сом интервалов критериального показателя. Нетрудно видеть, что зада-

ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-

тельно один и тот же процент испытуемых во всем диапазоне критерия.

С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие между

процентом выполнивших задания и критериальным показателем выра-

жено более четко. Из этих двух более валидно задание 3, ибо его харак-

теристическая кривая круче идет вверх.

Рис. 26. Харокте-

.ристические кри-