|
Анастази А. » Психологическое тестированиений, то это устранило бы многие нападки на IQ, вызванные недоразуме- ниями и неправильными представлениями. В общем виде критериально- ориентированный подход равносилен интерпретации тестовых результа- тов соответственно доказанной валидности конкретного теста, а не посредством неких туманных сущностей, лежащих в его основе. Разуме- ется, такая интерпретация может сочетаться с отнесением результатов к нормам. Тестирование овладения навыком. Второй важной особен- ностью почти любого критериально-ориентированного теста является ме- тодика тестирования овладения навыком. Существенно, что оценка вы- полнения заданий в этом случае производится по принципу <все или
В идеале такие тесты следуют симплексной модели шкалы Гуттмана (W.J. Ро- pham, T.R. Husek, 1969), так же как и уже обсуждавшиеся в этой главе порядковые шкалы
-r--- - -
Вследстви епени трудно.
,
95
НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА
Следует отметить, что критериально-ориентированное тестирование вовсе не так ново и не столь уж сильно отличается от тестирования, ориентированного на нормы, как полагают некоторые из его сторонни- ков. Абсолютная оценка индивидуального выполнения теста в баллах или процентах, несомненно, намного старше нормативной интерпрета- ции. Еще до введения термина <критериально-ориентированное тестиро- вание> делались попытки более точно описать выполнение теста с точки зрения его содержания (R.L. Ebel, 1962; J.C. Flanagan, 1962; A. Anastasi, 1968, p. 69-70). Другим примером могут служить первые шкалы продук- тивности, оценивавшие качество почерка, сочинений или рисунков сопо- ставлением индивидуальной работы с серией стандартных эталонов. Бо- лее того, Р. Л. Ибел (R.L. Ebel, 1972Ь) заметил, что в педагогике понятие <овладение навыком>, означающее усвоение определенных единиц зна- ния по принципу <все или ничего>, было достаточно популярным в 20-30-х гг. нашего столетия, но позднее было забыто. В том или ином виде нормы всегда дают о себе знать независимо от того, как выражаются показатели теста (W.H. Angoff, 1974). Сам выбор содержания или навыков, подлежащих измерению, определяется знанием экспериментатора, чего можно добиться от испытуемого на определен- ном уровне его развития или обучения. Такой выбор предполагает нали- чие сведений о том, как в подобных ситуациях действовали другие испы- туемые. Более того, наложение дихотомии <овладел-не овладел> на континуум умений не снимает индивидуальных различий. Например, ес- ли уровень понимания текста задается формулировкой <умение понять содержание газеты <Нью-Йорк Тайме>, то все еще остается достаточно места для значительных индивидуальных различий в степени понимания. Прогностические таблицы. Результаты теста можно также интерпретировать в соответствии с критерием ожидаемого выполнения предстоящей программы обучения или работы. В этом случае термин <критерий> употребляется сообразно тому, как это вообще принято в психометрии, т. е. так, как, скажем, в выражении <валидность теста определяется относительно некоторого критерия> (см. гл. 2). Строго го- воря, термин <критериально-ориентированное тестирование> должен был бы относиться к этому типу интерпретации выполнения теста, тогда как другие подходы, обсуждавшиеся в этом разделе, правильнее было бы назвать отнесением к содержанию. Собственно, именно эта терминоло- гия и используется в тестовых стандартах Американской психологиче- ской ассоциации (Standards.., 1974). В прогностической таблице приводится вероятность различных кри- териальных результатов испытуемых в зависимости от полученного ими результата теста. Например, если учащийся в тесте SAT показал резуль- тат 530, то каковы шансы на то, что первый курс колледжа он закончит со средней оценкой А, В, С, D или f? Информацию такого рода можно получить, сверив двумерное распределение показателей предиктора
В американских колледжах и старших классах средних школ принята следующая система оценки успеваемости. По каждому предмету учащийся получает итоговую оценку по пятибалльной системе А, В, С, D и F. Эти балльные оценки переводятся в цифровую форму: А приравнивается к 4 (наивысший балл), В-к 3, С-к 2, D-к 1 и. наконец, FK 0. Каждая из полученных оценок в цифровом выражении умножается на зачетное число ча- сов по соответствующему предмету. Все такие произведения складываются, и результат делится на сумму зачетных часов по всем предметам. Полученная таким образом средняя
90 11"ИНЦИ11Ы ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
(SAT) с критерием будущего статуса (средняя оценка успеваемости пер- вокурсника). Заменив число случаев в каждой ячейке такого двумерного распределения на проценты, мы получим прогностическую таблицу. Примером может служить табл. 6, в которой представлены данные, по- лученные мальчиками-старшеклассниками (всего 171 человек), записав- шимися на курс истории США. В качестве предиктора здесь использо- ван показатель теста словесного мышления из батареи DAT, применен- ного в начале курса, а в качестве критерия будущего статуса-оценки, по- лученные по окончании курса. Корреляция между показателем теста и данным критерием составила 0,66. В первой колонке табл. 6 приведены тестовые результаты, распреде- ление на классы интервалов, во второй-число учеников, результаты ко- торых попали в тот или иной интервал. Остальные цифры таблицы указывают процент учеников из каждого интервала значений предикто- ра, получивших ту или иную оценку по окончании курса. Так, из 46 уче- ников, получивших в тесте на словесное мышление 40 и более очков, 15Їо получили оценки в 100-балльной системе в интервале 70-79, 22Їо-в ин- тервале 80-89 и 63Їо-90 и выше. С другой стороны, из 46 учеников, по- казавших в тесте результат ниже 20, 30Ї получили оценки ниже 70, 52Їо-между 70 и 79 и 17Їо-между 80 и 89. В пределах рассматриваемых данных эти проценты лучше всего выражают вероятность получения ин- дивидом того или иного критериального балла. Например, если новый ученик получит тестовый показатель 34 (т.е. попадет в интервал 30-39), то его шансы получить балл 90 и выше составляет 17 из 100, шансы по- лучить балл в интервале 80-90 будут равны 39 из 100 и т.д. На практике критерий будущего статуса может быть заменен бинарным критерием-предсказанием успеха или неудачи в работе, в прохождении учебного курса и т.д. Вероятности успеха или неудачи по каждому интервалу значений показателя прогностического теста могут быть представлены в виде так называемой карты прогноза. Рис. 7 есть пример такой карты, составленной для батареи отбора пилотов, разра- ботанной для военно-воздушных сил США, на которой для каждого ста- найна показан процент курсантов, не закончивших начального курса лет- ной подготовки. Так, в процессе подготовки отсеялось 77Їд, получивших станайн 1 и только 4% получивших станайн 9. В пределах этих крайних значений от более низких к более высоким станайнам процент отсева по- стоянно уменьшается. С помощью этой карты про- гноза можно, например, предсказать, что примерно 40"о курсантов, получив- ших станайн 4, потерпят неудачу и приблизительно 60% из них удовлетвори- тельно завершат началь- ный курс. Аналогичные прогнозы по каждому ста- найну можно строить и от- носительно вероятности успеха или неудачи от- дельных курсантов. Так,
Таблица 6
Прогностическая таблица соотношении результатов те- ста словесного мышления и оценок, полученных по кур- су истории США, 171 мальчиком >i XI класса С разрешения Психологической корпорации штата Нью-Йорк
Результат тестаЧисло случаевllpoueui получивших критериальную оценку ниже 7070-7980-8990 и выше 40 и выше 30-39 20-29 ниже 2046 36 6 43 12 46 3015 39 63 5222 39 21 1763 i7 5 97
НАДЕЖНОСТЬ
-г-. .Станаин Число Процент отчисленных с курсов летной подготовки человек 9 21,4741f, 8 19,44410% 17 32,129 1 1.6 39,398 i 15 34,975 4 23,69940%
13 11,209i i
2 2,13957%
1 9047%
3 10 20 30 40 50 60 70 80 90 100 Рис. 7. Карта прогноза соотношения выполнения батареи по отбору пилотов и от- числения с к/рсов летной подготовки (J. С. Flanagan, 1947, р. 58) S сант имеет 60 шансов против 40, т.е. 3 шанса против 2, успешно за- . кончить начальный курс подготовки. Нетрудно видеть, что помимо кри- 1 териально-ориентированной интерпретации тестовых показателей про- 1 гностические таблицы и карты дают общее представление о валидности теста в предсказании по данному критерию. 1 ГЛАВА 5. НАДЕЖНОСТЬ Под надежностью понимается согласованность результатов теста, полу- чаемых при повторном его применении к тем же испытуемым в раз-i личные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования. На S понятии <надежность> основывается вычисление ошибки измерения, кс . торая служит для указания вероятных пределов колебаний измеряемой величины, возникающих под действием посторонних случайных факто- ров. Понятие <надежность теста> может относиться к различным аспек- 1 там согласованности результатов. В самом широком смысле надежность 1. геста показывает, в какой степени индивидуальные различия в тестовых 6 результатах оказываются <истинными>, а в какой могут быть приписаны 1 случайным ошибкам. Говоря более специальным языком, измерение на- 98
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
показателей, являющуюся дисперсией ошибки. Вопрос, однако, в том, что считать дисперсией ошибки. Одни и те же факторы, которые примени- тельно к одним задачам являются посторонними, при решении других проблем уже считаются источниками <истинных> различий. Например, если нас интересуют колебания настроения, то происходящие день ото дня изменения в результатах теста эмоционального состояния могли от- носится к цели тестирования и, следовательно, к истинной дисперсии ре- зультатов. Но если тест предназначен для измерения более стабильных характеристик личности, то те же ежедневные колебания можно отнести к дисперсии ошибки. Существенно, что любые изменения условий, в которых проводится тест, если они не имеют отношения к его цели, увеличивают дисперсию ошибки. Поэтому, придерживаясь единых условий тестирования (контро- лируя общую обстановку, временные ограничения, инструктирование ис- пытуемого, контакт с ним и другие аналогичные факторы), эксперимен- татор уменьшает дисперсию ошибки и повышает надежность теста. Но и в оптимальных условиях ни один тест не является абсолютно надеж- ным инструментом. Поэтому стандартный набор данных о тесте должен включать в себя и меру надежности. Такая мера характеризует тест, ког- да он применяется в стандартных условиях и проводится с испытуемы- ми, похожими на тех, кто участвовал в нормативной выборке. Следова- тельно, необходимо также приводить сведения об этой выборке. Разновидностей надежности теста так же много, как и условий, влияющих на результаты теста, поэтому любые такие условия могут оказаться посторонними по отношению к какой-то цели, и тогда обусло- вленная ими дисперсия должна войти в дисперсию ошибки. Однако практическое применение находит лишь несколько типов надежности. В этой главе мы обсудим важнейшие способы измерения надежности те- стовых результатов, а также соответствующие им источники дисперсии ошибки. Поскольку все типы надежности отражают степень последова- тельности или согласованности двух независимо полученных серий пока- зателей, то в качестве их меры может выступать коэффициент корреля- ции. Соответственно в следующем разделе рассматриваются некоторые из основных характеристик коэффициента корреляции, их назначение и интерпретация. Более специальное обсуждение корреляции с под- робным описанием вычислительных процедур приводится в элемен- тарных учебниках по статистике для педагогов и психологов (J. P. Guil- ford, В. Fruchter, 1973).
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
Понятие корреляции. Коэффициент корреляции (г) выражает сте- пень соответствия или связи между двумя сериями показателей теста. Например, если испытуемый, получивший высший результат по перемен- ной 1, получает высший результат и по переменной 2, а испытуемый, по- лучивший второй лучший результат по переменной 1, получает такой же результат по переменной 2 и т.д. до самого низшего результата, то имеет место полная корреляция между переменными 1 и 2. Коэффициент корреляции будет при этом равен + 1,0. Рис. 8 иллюстрирует гипотетический случай полной положительной корреляции. На рисунке представлена диаграмма рассеяния, или двумер- ное распределение. Каждая палочка на этой диаграмме отмечает резуль-
99
НАДЕЖНОСТЬ
тат испытуемого как по переменной 1 (горизонтальная ось), так и по переменной 2 (вертикальная ось). Нетрудно заметить, что все 100 случаев распределились вдоль диагонали, идущей из левого нижнего угла в правый верхний угол диаграммы. Такое распределение означает по- лную положительную корреляцию ( + 1,0), поскольку из него видно, что относительное положение каждого испытуемого по обеим переменным одинаково. Чем ближе двумерное распределение к этой диагонали, тем выше положительная корреляция. На рис. 9 изображена полная отрицательная корреляция ( -1,0). В этом случае результаты по одной переменной полностью обратны ре- зультатам другой: лучший индивидуальный результат по переменной 1 оказывается худшим по переменной 2, и наоборот, причем подобная обратимость воспроизводится по всему распределению. Из диаграммы видно, что все испытуемые распределяются по диагонали, идущей из ле- вого верхнего в правый нижний угол, т. е. перпендикулярно направлению, соответствующему полной положительной корреляции. Нулевая корреляция указывает на полное отсутствие связи. Если ме- сто каждого испытуемого по переменной 1 определить методом выта-
Рис. 8. Двумерное распределение для гипотетической корреляции (4-1.0)
90-99
80-89
70-79
(N
1 60-69 г
150-59 S у
d 40-49
30-39
ill Mi-ill Wtwr ч mm 4M-1 т-мг M-w 4М- тм ш-iii wtm Wt 1 // ст>
I о
<Т> It-
о ю
сп ст> in <о
о о 1Л и)
о 00
100
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
скивания бумажек с именами из шляпы, а затем ту же процедуру повто- рить (для переменной 2), то в итоге мы и получим примерно нулевую корреляцию. В этих условиях, зная результат индивида по переменной 1, невозможно предсказать его относительное положение по переменной 2. Испытуемый, имеющий высший показатель по переменной 1, может по- лучить высокий, средний или низкий показатель по переменной 2. Одни индивиды могут случайно оказаться выше или ниже среднего показателя по обеим переменным, другие будут выше среднего по одной перемен- ной и ниже среднего по другой, иными словами, не будет никакой зако- номерности в соответствии показателей у разных испытуемых. Реальные значения коэффициента корреляции, получаемого практи- чески, обычно больше 0, но меньше 1. Корреляция между показателями способностей почти всегда положительна, хотя часто и невысока. Отри- цательные значения коэффициента корреляции обычно объясняются спе- цификой самих показателей. Если взять, скажем, время, затраченное ис- пытуемым, и количество выполненных им заданий, то значение коэффициента, по всей вероятности, будет отрицательным. Так, если ре- зультат испытуемого по тесту арифметических вычислений регистрирует-
Рис. 9. Двумерное распределение для гипотетической корреляции (-1,0)
70-79
60-69
50-59
? 0-49
30-39
// fM 1 Wtm mm Mill -wwt mm w -Mtwt wt i mwt ii м-ill ill ст) (70) 0 0(7)0(7) -смгпгюиэоос" ill i Ull 000000000 i
0 0 in иэ
О t
О со
О 01
101
НАДЕЖНОСТЬ
ся в виде числа секунд, ушедших на решение всех примеров, тогда как показателем теста на арифметическое мышление служит число правиль- но решенных задач, то следует ожидать появления отрицательной корре- ляции. В этом случае наименее успевающий (работающий медленнее всех) индивид получит численно самый высокий результат по первому Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|