Анастази А. » Психологическое тестирование

рилось выше, содержат несколько предикторов, но принцип тот же

самый.

Когда тестовые и критериальные показатели выражены в стан-

дартных единицах с о = 1,00, наклон линии регрессии равен коэффициен-

ту коппелянии. Поэтому если коэффициенты валидности теста для двух

176

ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ошибкой наклона. На рис. 21 дается схематическое изображение линий

регрессии для нескольких двумерных распределений. Эллипсы предста-

вляют области расположения <палочек> для каждой выборки. Случай

1 соответствует двумерным распределениям двух групп с различными

средними значениями предиктора, но с общей линией регрессии между

предиктором и критерием. В данном случае систематическая ошибка на-

клона отсутствует, поскольку любому тестовому показателю в обеих

группах соответствует один и тот же показатель критериальный. Случай

Рис. 21. Системотические ошибки наклона и интерсепта в прогнозируемых критериаль-

ных показателях.

Эллипсами отмечены области, в которых располагаются тестовые показатели членов

каждой группы соответственно критериальному выполнению этих же индивидов.

Случаи 1-3 взяты из статьи М. Гордона (М. A. Gordon, 1953, р. 3)

Случай 1

Тестовый показатель

Случай 3

Тестовый показатель

177 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ

2 иллюстрирует ошибку наклона с более низким коэффициентом валид-

ности для группы меньшинств.

При сравнительной валидации необходимо соблюдать определенные

меры предосторожности. Например, использование субъективных оценок

в роли критерия может привести к результатам, отличающимся от тех,

которые будут иметь место при применении более объективных крите-

риев (A. R. Bass, J.N.Turner, 1973; J.T.Campbell, L. A. Crooks,

M.H. Mahoney, D.A. Rock, 1973; J.J. Kirkpatrick, R.B. Ewen, R.S. Battett,

R. A. Katzell, 1968). Ошибки могут возникнуть также, если сравниваются

этнические выборки, сформированные из людей различной социальной

и профессиональной принадлежности. В таких случаях, по всей вероятно-

сти, смешиваются этнические и социально-профессиональные факторы

(J.J. Kirkpatrick et aL, 1968).

Трудности часто вытекают из того, что число испытуемых значи-

тельно меньше в выборке меньшинств, чем в выборке большинства. При

этих условиях один и тот же коэффициент валидности может оказаться

статистически значимым для выборки большинства и незначимым для

выборки меньшинств. Для группы в 100 человек, например, коэффициент

корреляции 0,27 значим на уровне 0,01, тогда как при 30 испытуемых тот

же коэффициент далек от минимальной значимости даже на уровне 0,05.

По этой причине следует определять не значимость валидности раздель-

но для каждой группы, а оценивать значимость разности между двумя

коэффициентами валидности (Standards..., 1974, ?9). В противном случае

можно легко доказать, что тест валиден, скажем, для белых и не валиден

для негров. Для этого требуется лишь, чтобы выборка белых была до-

статочно велика, а выборка негров-достаточно мала! Желательно по-

этому проверить на другой паре независимых выборок, действительно

ли валидность для первой группы больше, чем для второй.

Систематическая ошибка интерцепта. Даже когда тест обла-

дает одинаковой валидностью в двух группах, может иметь место систе-

матическая ошибка интерцепта. Интерцепт линии регрессии-это точка,

в которой она пересекает вертикальную ось. Систематическая ошибка

интерцепта означает, что тест систематически завышает или занижает

значение критерия для частной группы. Вернемся к рис. 21. В случае

1 выборки меньшинства и большинство имеют идентичную регрессию.

В этих условиях нет ни ошибки наклона, ни ошибки интерцепта, хотя

группы значимо отличаются друг от друга и по среднему результату те-

ста, и по критериальному показателю. В случае 3 линии регрессии двух

групп имеют один и тот же наклон, но разные интерцепты. Здесь

у группы большинства {В) более высокий интерцепт, чем у группы мень-

шинства {А), т. е. линия регрессии большинства пересекает ось Y выше,

чем линия регрессии меньшинства. Несмотря на то что коэффициент ва-

лидности для обеих групп один и тот же, тестовый результат Х будет

для них соответствовать различным критериальным показателям - Уд

и YB.

Таким образом, один и тот же тестовый результат для этих групп

имеет разное прогнозирующее значение. В этих обстоятельствах средний

показатель большинства, как и в случае 1, превышает средний показа-

тель меньшинства как по тесту, так и по критерию. Но ввиду различия

интерцептов применение линии регрессии большинства привело бы к за

амшснию кпитепиальных показателей членов группы меньшинства. Если

178 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

его применение поставит группу меньшинства в более благоприятные ус-

ловия. Систематическая ошибка интерцептаозначает, что группа с более

высоким интерцептом находится в менее выгодных условиях.

Психологи, которые озабочены возможной неблагоприятностью те-

стов для меньшинств, имеют в виду случай 4 из рис. 21. Заметим, что

здесь большинство показывает более высокие результаты в тесте, но

и большинство, и меньшинства равны по критерию. Теперь уже у мень-

шйнств более высокий интерцепт. Отбор всех претендентов с помощью

проходного минимума, установленного для большинства, будет озна-

чать, что меньшинство попадает в неблагоприятные условия. В этих ус-

ловиях использование линии регрессии большинства для обеих групп

приводит к недооценке критериальных показателей членов группы мень-

шинства. Такая ситуация, по-видимому, может возникнуть, когда значи-

тельная часть дисперсии теста безотносительна к прогнозируемому кри-

терию и определяется функциями, в которых большинство превосходит

меньшинство. Полный анализ выполняемой работы и удовлетворитель-

ная валидность теста являются гарантией против такого рода явлений.

Математические расчеты показывают (R.R. Reilly, 1973), что случай

3 имеет место, если обе группы отличаются по третьей переменной (на-

пример, по социокультурным традициям), которая положительно корре-

лирует как с тестом, так и с критерием. В этих условиях тест дает завы-

шенный прогноз для группы меньшинства и использование одного

и того же нормативного результата для обеих групп ставит меньшин-

ство в привилегированное положение. Этот теоретический результат

подтвердился эмпирически. Пользуясь преимущественно статистической

процедурой, разработанной X. Гулликсеном и С. С. Уилксом

(Н. Gulliksen, S.S. Wilks, 1950), ряд исследователей выявили наличие си-

стематической ошибки интерцепта при предсказании успеваемости в кол-

ледже (Т. A. Cleary, 1968; G. Temp, 1971), на юридическом факультете

(R.L. Linn, 1975), успешности выполнения программы подготовки армей-

ских и военно-воздушных сил (М.А. Gordon, 1953; М.Н. Maier,

C.W. Shore, R. Marion, 1972) и многочисленных производственных обя-

занностей (J.T.Campbell et aJ" 1973; D.L. Grant, D.W. Bray, 1970;

W. W. Ruch, 1972).

Интересно отметить, что те же результаты были получены при срав-

нении групп, распределенных по образовательному или социоэкономиче-

скому уровню. Армейская классификационная батарея завышала прогно-

зируемое выполнение программы обучения военной специальности для

тех, кто был отсеян из старших классов школы, и занижала его для вы-

пускников колледжей (М.Н. Maier, 1972). Заниженный прогноз по резуль-

татам тестов способности к обучению имел место для студентов, у ко-

торых профессиональное положение отцов было достаточно высоко,

и завышенный прогноз-для студентов, чьи отцы занимали более низкое

профессиональное положение (V. Н. Hewer, 1965). Во всех этих работах

сравнение групп с высокими и низкими результатами теста либо вообще

не обнаруживало разницы в интерцептах, либо выявляло в них неболь-

шую систематическую ошибку, ставившую группу с более низкими пока-

зателями в несколько лучшие условия.

Проблема систематической ошибки теста сложнее, чем она может

показаться при столь упрощенном изложении. Это область, в которую,

не имея серьезных статистических знаний, следует вторгаться с осторож-

ностью. Некоторые специалисты предложили птг"" -

179 АНАЛИЗ ЗАДАНИЙ

ния систематической ошибки теста, основанные не на прогнозируемых

критериальных показателях, а на проценте лиц в группах меньшинств

и большинства, превосходящих нормативные показатели теста и крите-

рия (N.S. Cole, 1972; R.L. Linn, 1973; F.L.Schmidt, J.E. Hunter, 1974;

R.L. Thorndike, 1971). Но другие исследователи, проводя сравнительную

оценку нескольких моделей систематической ошибки теста и поставив

под сомнение концептуальную и методическую обоснованность этих

процедур, сформулировали общую математическую модель отбора пер-

сонала, инвариантного относительно культуры (A. L. Gross, W.H.Su,

1975; N.S.Petersen, 1974; N.S.Petersen, M.R.Novick, 1976). На основе

теории решений в модели объединяются данные вероятности различных

исходов и субъективные оценки относительной полезности каждого из

них (принятие ненужного работника, непринятие нужного работника

и т.д.). Кроме того, доказывается, что не существует единой оптималь-

ной модели беспристрастного отбора, а предлагаемая модель лишь поз-

воляет применительно к определенным условиям сформулировать сгра-

тегию решений, максимизирующую ожидаемую общую полезность

сообразно конкретным целям тестирования и оценкам полезности раз-

личных исходов.

Исследования в области систематической ошибки теста как стати-

стическими методами, так и экспериментально показали, что на совре-

менном уровне знаний введение различных нормативных результатов

для разных подгрупп популяции не вполне оправдано. Статистические

поправки к показателям тестов, нормативным результатам или прогно-

стическим формулам вряд ли много дадут для устранения социальной

несправедливости. Более конструктивны другие подходы, уже обсуждав-

шиеся в этой главе. Среди них можно назвать комплексные тесты спо-

собностей и стратегии распределения, позволяющие полнее использовать

разные структуры способностей, формируемые несходными культурами.

То же можно сказать и об адаптивных программах типа индивидуализи-

рованного обучения. Чтобы такие программы максимально соответство-

вали индивидуальным особенностям личности, тест должен как можно

точнее определять уровень развития необходимых способностей.

ГЛАВА 8. АНАЛИЗ ЗАДАНИЙ

Знакомство с основными понятиями и методами анализа заданий, а так-

же с другими фазами построения теста может оказаться полезным при

оценке опубликованных тестов. Помимо этого анализ заданий имеет

прямое отношение к составлению неформальных локальных тестов типа

подготовленных учителем для работы в классе опросов или конт-

рольных работ. Некоторые из рассматриваемых ниже общих принципов

подготовки эффективных заданий, а также простые статистические при-

емы их анализа послужат совершенствованию предъявляемых в классе

тестов и могут быть применены даже к небольшим группам.

В заданиях может анализироваться как их качественная сторона, т. е.

их содержание и форма, так и количественная, т.е. их статистические

свойства. Качественный анализ включает рассмотрение валидности по

содержанию (см. гл. 6) и оценку эффективности письменных заданий,

п кптппой пойдет оечь в гл. 14. Количественный анализ означает

180 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

ность и надежность теста в конечном счете зависят от свойств заданий,

и их предварительный анализ позволяет повысить эти свойства теста.

Устраняя, добавляя, заменяя или пересматривая отдельные задания,

можно усовершенствовать тест в целом.

Анализ заданий позволяет сократить тест, повышая в то же время

его валидность и надежность. При прочих равных условиях более

длинный тест валиднее и надежнее, чем более короткий. Влияние увели-

чения и сокращения теста на коэффициент надежности обсуждалось

в гл. 5, где также была приведена формула Спирмана-Брауна для оцен-

ки этого влияния. Согласно этой формуле, надежность теста меняется,

когда изъятые задания эквивалентны оставшимся, а вновь вводимые-

уже имеющимся. Аналогичные изменения валидности имеют место, когда

отбрасываются или добавляются задания, обладающие эквивалентной

валидностью. Однако такие оценки влияния увеличения или сокращения

теста на его надежность и валидность действительны только для случай-

ного отбора заданий, проводимого без их анализа. Когда же сокращение

теста идет за счет устранения наименее удачных заданий, результатом

может быть повышение его валидности и надежности.

ТРУДНОСТЬ ЗАДАНИЙ

Процент справившихся с заданием. Чаще всего трудность задания

определяется процентом испытуемых, давших правильный ответ. Чем

легче задание, тем выше этот процент. Слово, значение которого пра-

вильно указало 70Їо выборки стандартизации (р = 0,70), считается более

легким, чем слово, которое знают только 15Їо (р == 0,15). Обычно зада-

ния располагаются в порядке нарастания трудности, так, чтобы обсле-

дуемый начинал с относительно легких заданий и затем переходил ко

все более сложным. Такое расположение дает индивиду больше уверен-

ности и снижает вероятность того, что он, затратив слишком много

времени на задания, которые для него слишком трудны, упустит из вида

те, которые ему по силам.

В процессе составления теста задания подбираются так, чтобы они

соответствовали определенному уровню трудности. Большинство стан-

дартизованных тестов способностей предназначены для как можно более

точной оценки индивидуального уровня развития способности, и если

в таком тесте никто не может справиться с заданием, то оно оказывается

просто лишним грузом. То же можно сказать и о заданиях, с которыми

справляются все. Ни те, ни другие не несут никакой информации об ин-

дивидуальных различиях. А поскольку такие задания не влияют на ва-

риативность тестовых результатов, они ничего не прибавляют к надеж-

ности или валидности теста. Чем ближе трудность задания к 1,00 или

к 0, тем менее дифференцированную информацию можно получить с его

помощью. И наоборот, чем ближе уровень трудности к 0,50, тем выше

его разрешающая способность. Предположим, что из 100 испытуемых 50

справились и 50 не справились с заданием {р == 0,50). Это задание позво-

ляет нам провести попарное различие между каждым, кто справился

и кто не справился с заданием, что дает 50 х 50 = 2500 сравнений или

битов различительной информации. При р = 0,70 мы будем иметь 70 х

х 30 == 2100 битов информации, при р == 0,90-90 х 10 = 900 битов,

а ппи п == I Oh-inn у п-т- n To " .-..---- --- ----

181

АНАЛИЧ ЗАДАНИЙ

Таким образом выходит, что для максимальной дифференциации все

задания должны быть на уровне трудности 0,50. Решение, однако, ослож-

няется тем фактом, что в пределах одного теста задания могут коррели-

ровать друг с другом. Чем однороднее тест, тем выше эти корреляции.

В экстремальной ситуации, если все задания скоррелированы и имеют

уровень трудности 0,50, то одни и те же 50 испытуемых справятся

с каждым заданием. В итоге одна половина обследованных покажет

IOOo-ный результат, а результатом другой половины будет ноль. Ввиду

взаимокорреляции заданий лучше всего выбирать их так, чтобы уровень

трудности отдельных заданий имел некоторый умеренный разброс, но

в среднем составлял 0,50.

Интервальные шкалы. Процент испытуемых, справляющихся

с заданием, соответствует степени его трудности в порядковой шкале,

т.е. правильно указывает ранговый порядок, или относительную труд-

ность заданий. Если, к примеру, процент справившихся с заданием 1, 2

и 3 соответственно равен 30, 20 и 10, то мы можем заключить, что зада-

ние 1-самое легкое, а задание 3-самое трудное из них. Но мы не мо-

жем утверждать, что различие в трудности между заданиями 1 и 2 то же,

что и между заданиями 2 и 3. Равные разности процентов будут соответ-

ствовать равным различиям трудности только для прямоугольного рас-

пределения, т.е. для равномерного распределения случаев по всему диа-

пазону. Эта проблема аналогична той, с которой мы встретились в свя:чи