Анастази А. » Психологическое тестирование

давать значения различиям между показателями, чьи процентильные по-

лосы перекрывают друг друга, особенно если перекрытие превышает по-

ловину их длины. В профиле, приведенном на рис. 13, например,

различие между показателями словесного рассуждения и способности

к действию с числами, по-видимому, отражает подлинную разницу

в уровне способности, чего нельзя сказать о различии между технически-

ми рассуждениями и пространственными представлениями. Различие же

между абстрактными и техническими рассуждениями остается неясным.

Следует помнить, что стандартная ошибка различий двух показате-

лей больше, чем ошибка измерения каждого из них в отдельности. Это

вытекает из того, что на это различие влияют случайные ошибки измере-

ния обоих показателей. Зная величины стандартных ошибок для каждого

из двух результатов теста, стандартную ошибку разности различий мож-

но вычислить по следующей формуле:

= 1/1 + 2.

где стд-стандартная ошибка различий двух результатов, а с и

ст"2 -стандартные ошибки измерения каждого результата. Подставляя

<71/1- rii на место (71 и ст]/1-Гц на место (72, можно выразить о а

через коэффициенты надежности:

= ст/2- ri, - г" .

Здесь

ку предполагается, что их показатели при сравнении были переведены

в одну и ту же шкалу.

Проиллюстрируем приведенную выше процедуру на примере вер-

бального IQ и IQ шкалы действия интеллекта взрослых Векслера. Най-

" Поскольку коэффициент надежности (и, следовательно, ет") несколько меняется

в зависимости от субтеста, класса и пола, действительные диапазоны дюймовых полос на

123

НАДЕЖНОСТЬ

денные методом расщепления коэффициенты надежности этих показате-

лей равны соответственно 0,96 и 0,93. Для этой шкалы стандартный IQ

имеет М -- 100 и о = 15. Таким образом, стандартная ошибка различия

двух результатов может быть найдена следующим образом:

Рис. 13. Профиль результатов теста различных

с использованием процентильных полос,

способностей (DAT), построенный

о Ugsgg g s 5 11 1 11 III ll 11 1 L

вч со + 1-. 3 i>o r3 uio s o

Первич-з u Suю з < ss i с 10 (u т i?" 5-5 з S и

ный ре-

зультат213051433844399640

Процен-тиль609580953080909985

124 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

о а == 152~0,96~0,93 - 4,95.

Чтобы определить, насколько велики такие различия результатов в слу-

чае уровня 0,05, умножим стандартную ошибку разности 4,95 на 1,96, что

даст 9,7, т.е. приблизительно 10 единиц шкалы. Следовательно, различия

выполнения индивидом вербального IQ и IQ действия по этой шкале

должны быть не меньше 10, чтобы их можно было считать значимыми

на уровне 0,05.

НАДЕЖНОСТЬ КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫХ ТЕСТОВ

В гл. 4 говорилось, что критериальный тест обычно (хотя и не всегда)

оценивает выполнение скорее как овладение навыком, чем как уровнь до-

стижений. Основное статистическое следствие из тестирования владения

навыком-снижение вариативности результатов у испытуемых. Теорети-

чески, если обучение каждого индивида продолжать, пока тот не овла-

деет навыком, вариативность упадет до нуля. Низкая вариативность

объясняется не только спецификой процедуры критериально-ориентиро-

ванного тестирования, но, как будет видно из гл. 8, она привносится

в тесты через построение и отбор заданий.

В одном из предыдущих разделов этой главы объяснялось, что лю-

бая корреляция, и коэффициент надежности в том числе, зависит от раз-

нородности состава группы, на которой она определяется. С повыше-

нием однородности выборки коэффициент корреляции снижается. Следо-

вательно, было бы неправильно оценивать надежность большинства

критериально-ориентированных тестов обычными методами. При этих

условиях даже тесты с высокой стабильностью и внутренне согласо-

ванные могли бы иметь коэффициент надежности близкий к нулю.

При построении критериально-ориентированных тестов важно найти

ответы на следующие два вопроса: (1) какое число заданий следует счи-

тать достаточным для надежной оценки тех учебных задач, к которым

относится тест? и (2) какое количество заданий должно быть выполнено,

чтобы оценка овладения навыком была надежной? Ответы на эти два

вопроса в настоящее время даются большей частью на основе субъек-

тивных суждений. Однако предпринимаются усилия для разработки ста-

тистических методов, которые давали бы объективную эмпирическую

оценку (R.L.Ferguson, M.R.Novick, 1973; R.UIaser, A.J.Nitko, 1971;

R.K.Hambleton, M.R.Novick, 1973; S.A.Livingston, 1972; J.Millman,

1974). Несколько примеров послужат иллюстрацией характера и разно-

сторонности этих усилий.

Два вопроса о числе заданий и зачетных нормативах могут быть со-

единены в одной предпосылке, поддающейся проверке методами теории

решений и последовательного анализа (R.GIaser, A.J.Nitko, 1971;

B.W. Lindgren, G.W. McElrath, 1969; A. Wald, 1947). Собственно говоря,

" Более полное обсуждение специальных статистических процедур, необходимых для

построения и оценки критериально-ориентированных тестов, приводится в работах

Р. Гласера, А. Нитко, Р. Хамблетона, М. Новика, Дж. Миллмана, В. Попхама, Т. Гусека

(R. Glaser, A.J. Nitko, 1971; R.K. Hambleton, M.R. Novick, 1973; J. Millman, 1974; W.J. Po-

pham, T.R. Husek, 1969). В работах Дж. Миллмана (J. Millman, 1972, 1973) дается серия та-

блиц для определения минимального числа заданий, требуемого для установления овладе-

ния навыком на определенном уровне.

125 НАДЕЖНОСТЬ

требуется проверить гипотезу, что испытуемый достиг требуемого овла-

дения навыком в какой-то содержательной области или учебными зада-

чами, тестовыми заданиями. Последовательный анализ состоит в осу-

ществлении одного за другим серии наблюдений, после каждого из

которых принимается решение: (1) принять гипотезу, (2) отклонить гипо-

тезу, (3) провести дополнительное наблюдение. Таким образом, число на-

блюдений (в данном случае-число заданий), необходимых для получе-

ния надежного заключения, определяется в процессе тестирования.

Испытуемый выполняет не фиксированный, заранее определенный .набор

заданий, а продолжает выполнять задания, пока не принимается реше-

ние, владеет он навыком или нет. С этого момента тестирование прекра-

щается и учащийся либо переводится на следующий уровень обучения,

либо продолжается его подготовка по овладению навыком на уровне,

который предполагается тестом. При описанном в гл. 4 применении

компьютеров такая процедура последовательных решений вполне осуще-

ствима и позволяет сократить общее время тестирования, сохраняя при

этом необходимую надежность оценки уровня владения навыком

(R. Glaser, J. Nitko, 1971).

Некоторые исследователи применяют бейесовский метод оценки, ко-

торый сам по себе весьма приспособлен для принятия того типа реше-

ний, которые требуются при тестировании владения навыком. Ввиду

многочисленности тестируемых конкретных учебных задач в критериаль-

но-ориентированных тестах каждая задача обычно обеспечивается не-

большим числом заданий. Для восполнения связанного с этим недостат-

ка информации разработаны способы привлечения дополнительных

данных по тестам, проведенным ранее с тем же учащимся, а также ре-

зультатов тестирования других учеников (R. L. Ferguson, М. R. Novick,

1973; R.K.Hambleton, M.R. Novick, 1973).

Когда гибкие, адаптированные к индивиду процедуры оказываются

неприменимы, для оценки надежности теста можно использовать более

традиционные методы. Например, правильность решения об овладении

навыком может быть проверена выполнением учебных задач следующе-

го уровня. Значительна ли доля учащихся, достигших или превысивших

зачетный норматив теста владения навыком на более низком уровне, но

после, казалось бы, достаточного периода обучения не сумевших овла-

деть навыком на следующем уровне? Можно ли считать на основе ана-

лиза возникших затруднений, что они не достигли по-настоящему

и предыдущего уровня? Если да, то эти данные вполне бы могли озна-

чать недостаточную надежность теста. Может оказаться необходимым

включить в тест больше заданий или установить более высокий за-

четный норматив. Еще одним способом (R. К. Hambleton, М. R. Novick,

1973) определения надежности теста владения навыком является предъяв-

ление двух параллельных форм одним и тем же индивидам и регистра-

ция процента испытуемых, для которых по обеим формам принимается

одинаковое решение (овладение или неовладение навыком).

При разработке некоторых критериально-ориентированных тестов

Служба тестирования в образовании до сих пор эмпирическим путем

устанавливает стандарты овладения навыком. Применяемая процедура

предусматривает предъявление теста не только ученикам того класса, на

которых этот тест рассчитан, но также учащимся следующего и преды-

дущего класса. Чтобы выявить случаи мнимого овладения соответствую-

126 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

овладения ими в старшем классе, привлекается мнение учителя,

позволяющее осуществлять более дифференцированную оценку. За-

четный норматив выбирается затем так, чтобы число ошибочных реше-

ний, принимаемых с его помощью, было минимальным.

Все статистические процедуры, предназначенные для критериально-

ориентированных тестов, находятся в стадии разработки. Многое еще

предстоит сделать как в теоретическом, так и в экспериментальном пла-

не, прежде чем удастся получить наиболее эффективную методику, со-

ответствующую различным ситуациям тестирования.

ГЛАВА 6. ВАЛИДНОСТЬ.

ОСНОВНЫЕ ПОНЯТИЯ

Валидность теста-понятие, указывающее нам, что тест измеряет и на-

сколько хорошо он это делает. Следует иметь в виду, что название теста

не может служить указанием на то, что он измеряет. Оно лишь позво-

ляет опознать его. По большей части названия тестов слишком широки

и расплывчаты, чтобы по ним можно было установить, на какую сферу

поведения ориентирован тест. Правда, в последнее время наметилась

тенденция давать тестам более конкретные и операционально опреде-

ленные названия. Установить, какое свойство измеряет данный тест,

можно, лишь ознакомившись с объективными источниками информации

и эмпирическими процедурами, применявшимися для установления его

валидности (A. Anastasi, 1950). Более того, про валидность нельзя гово-

рить обобщенно, например, что тест имеет высокую или низкую валид-

ность. При ее определении всегда должно быть указано конкретное пред-

назначение теста.

Цель любой процедуры определения валидного теста-выяснить, как

выполнение теста соотносится с другими независимо наблюдаемыми

фактами исследуемых характеристик поведения. Конкретных методов ис-

следования подобных соотношений достаточно много. В <Стандартах

учебных и психологических тестов> (Standards for Educational, 1974) эти

методы распределяются по трем основным критериям: (1) валидность по

содержанию, (2) валидность по критерию и (3) конструктная валидность.

Каждый из этих типов валидности обсуждается в одном из последую-

щих разделов, а анализу их соотношения между собой посвящен заклю-

чительный раздел главы. Методика анализа и интерпретация данных

о валидности при выработке практических решений рассматриваются

в гл. 7.

ВАЛИДНОСТЬ ПО СОДЕРЖАНИЮ

Природа. Валидность по содержанию в сущности означает системати-

ческую проверку содержания теста с тем, чтобы установить, соответ-

ствует ли оно репрезентативной выборке измеряемой области поведения.

Такая процедура валидации обычно применяется при оценке тестов до-

стижений, предназначенных для измерения того, насколько индивид

овладел конкретными навыками или учебным предметом. Может со-

здаться впечатление, что для установления валидности любого такого

теста достаточно просто проверить его содержание. Например, тест на

127 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ

мог бы быть валидным, если бы состоял соответственно из заданий на

умножение, правописание и ведение бухгалтерских операций.

Решение, однако, не столь просто, как это может показаться. Сразу

же возникает проблема адекватности выборки всего множества заданий,

поэтому тестируемая область поведения должна систематически прове-

ряться с тем, чтобы существовала уверенность, что задания теста ох-

ватывают все ее главные аспекты и в правильной пропорции. Тест легко

перенасытить теми аспектами исследуемой области, по которым легче

составить объективные задания. Поэтому рассматриваемое содержание

следует фиксировать заранее, а не после того как тест уже составлен.

Правильно построенные тесты достижений должны соответствовать не

только предмету обучения, но и его задачам. Содержание, следователь-

но, необходимо определять достаточно широко, включая в него помимо

знания фактического материала такие важнейшие цели обучения, как

применение изученных принципов и интерпретацию данных. Более того,

валидность содержания больше зависит от релевантности тестовых отве-

тов индивида, рассматриваемой в сфере поведения, чем от очевидной ре-

левантности содержания тестовых заданий. Простая проверка теста

может и не выявить те процессы, которые действительно обеспечивают

выполнение теста испытуемым.

Важно также избежать неоправданного обобщения выбранной темы

тестирования. Если, например, орфографический тест с множественным

выбором ответов измеряет способность распознавать правильно и не-

правильно написанные слова, то из этого не следует, что он также изме-

ряет способность правильно написать диктант, количество орфографиче-

ских ошибок в сочинении и другие аспекты грамотности письма

(K.G.Ahlstrom, 1964; D.M.Knoell, C.W.Harris, 1952). Еще одна труд-

ность возникает в связи с возможным влиянием посторонних факторов

на показатели теста. Например, на тест по измерению способностей типа

математических или технических может неявно влиять способность по-

нимать словесную, инструкцию или скорость выполнения простых

и обычных задач.

Конкретные методики. Валидность по содержанию закладывает-

ся в тест уже при отборе соответствующих заданий. Для тестов уровня

знаний подготовке их заданий предшествует полная систематизирован-

ная проверка соответствующих учебников и учебных программ, а также

консультации со специалистами по данному предмету. На основе со-

бранной таким путем информации составляется спецификация теста для

тех, кто будет составлять задания. В спецификации указываются тести-

руемые области содержания (темы), задачи (процессы) обучения, а также

относительное значение каждой темы и прбцесса. На этой основе по

каждой теме устанавливается число заданий различных типов. Удобной

формой представления такой спецификации является таблица, горизон-

тальные графы которой соответствуют темам, а вертикальные-процес-

сам (табл. 30, гл. 14). Разумеется, не во все ячейки этой таблицы должны

быть вписаны задания, поскольку некоторые процессы могут оказаться

несовместимыми с определенными темами. Кстати сказать, подобные

таблицы-спецификации полезны и для подготовки контрольных работ по

любому предмету.

Обсуждение валидности с разных точек зрения читатель найдет в работах

128 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ

При перечислении задач обучения, подлежащих включению в тест

достижений в обучении, можно руководствоваться достаточно под-

робным справочником <Таксономия целей обучения> (В. S. Bloom et al.,

1956; D.R.Krathwohl et al" 1964), составленным группой специалистов

в области педагогического тестирования. Этот справочник снабжен также

различного типа примерами составления заданий по каждой из задач

обучения. Два его тома посвящены соответственно когнитивной и аф-

фективной областям поведения. Первая включает знания (в смысле за-

помненных фактов, терминов, методов, принципов и т.д.), понимание,

применение знаний и их оценку, анализ и синтез. Ко второй, охваты-

вающей установки, интересы, ценности и оценочное восприятие, можно

отнести прием информации, реагирование, оценивание, организацию и

описание.

Данные о валидности по содержанию в руководстве к тесту дости-

жений должны включать сведения об области знаний, навыках или