|
Анастази А. » Психологическое тестированиеciai 1ц-Ю1нн>1 процедур, небольшая часть которых случайно даст положи- -.......". ., nniluT о них. не упоминая тех, что
149 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
вое впечатление. Другая возможная опасность кроется в том, что термин <конструктная валидность> иногда отождествляют с субъективными не- проверенными утверждениями относительно валидности теста. Посколь- ку конструктная валидность является столь широким и расплывчатым понятием, ее часто истолковывают неправильно. Некоторые авторы учебников и тестов, видимо, воспринимают ее как валидность по содер- жанию, представленную на языке психологических категорий. В резуль- тате они выдают за конструктную валидность чисто субъективные рассу- ждения о том, что, по их представлениям, измеряет тест. Еще один источник возможных недоразумений коренится в утвер- ждении, что конструктная валидация <применяется, когда тест подлежит интерпретации в качестве меры свойства или качества, не поддающегося операциональному определению> (L.J.Cronbach, P.E.Meehl, 1955, р. 282). Поскольку эта формулировка содержится в первом появившемся в печати детальном анализе конструктной валидности, ее ошибочно принимают за обоснование необходимости пользоваться конструктной валидностью за неимением иных данных. То, что авторы этой формули- ровки не имели в виду ничего подобного, говорит следующая фраза из той же статьи: <прибегать к конструктной валидности бессмысленно, ес- ли теоретические построения никак не согласуются с наблюдениями> (ibid, р. 291). В этой же связи они критикуют тесты, <валидация которых подменена логическими хитросплетениями> (ibid, р. 291). В самом деле, измеряемый тестом теоретический конструкт, свойство или область по- ведения можно адекватно определить только в свете данных, собранных в процессе его валидации. Такое определение должно учитывать пере- менные, с которыми тест значимо коррелирован, условия, реально влияющие на его результаты, а также то, какие группы тест значимо дифференцирует. Эти процедуры находятся в полном согласии с тем по- ложительным, что пришло в тестирование вместе с понятием <кон- структная валидность>. Только эмпирическое исследование соотношений между тестовыми показателями и другими внешними данными позво- ляет выяснить, что измеряет тест.
ГЛАВА 7. ВАЛИДНОСТЬ.
ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
Гл. 6 была посвящена различным понятиям валидности и тому, как они соотносятся с тем или иным назначением теста. В этой главе обсу- ждаются способы количественного выражения валидности и интерпрета- ция получаемых результатов. Пользующийся тестом обращается к ва- лидности в следующих двух случаях. Первый раз, оценивая пригодность теста для своих целей, он изучает данные о валидности, приведенные в руководстве к тесту или в других доступных источниках. На основе этой информации он получает представление о том, какие психические функции тест измеряет, и решает, соответствуют ли такие функции це- лям его использования теста. В этом случае, полагаясь на опублико- ванные данные о валидности теста, пользователь, какие бы конкретные процедуры при сборе таких данных ни применялись, имеет дело с кон- структной валидностью. В гл. 6 уже отмечалось, что критерии, употре- блявшиеся в опубликованных исследованиях, не обязательно идентичны тем к-пт-ппые ппгттуюптайся тестом собипается ппогнозиповать. Лаже
150 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
одноименные должности на двух различных предприятиях редко совпа- дают по своим обязанностям, точно так же, как два курса английского языка в разных колледжах могут значительно отличаться друг от друга. Ввиду специфичности каждого критерия, пользователю обычно реко- мендуется проверить, если возможно, валидность выбранного теста от- носительно локального критерия. Даже когда опубликованные данные явно указывают на высокую валидность теста в частной ситуации, всегда желательно их непосредственное подтверждение. При определении ва- лидности относительно конкретных локальных критериев пользующийся тестом оценивает его валидность второй раз. Методы, рассматриваемые в этой главе, имеют непосредственное отношение к анализу данных ва- лидации, получаемых самим пользователем теста, но их также можно использовать (по крайней мере большую их часть) для понимания и ин- терпретации сведений о валидности, приводимых в руководствах к тестам.
КОЭФФИЦИЕНТ ВАЛИДНОСТИ И ОШИБКА ПРОГНОЗА
Измерение с оотношени я.; Коэффициент валидности есть корреляция между показателями теста и критериальной мерой. Этот коэффициент позволяет характеризовать валидность единственным показателем,; и по- этому его часто приводят в руководствах к тестам, сообщая его значение для каждого из использованных критериев. Данные, по которым вычис- ляется коэффициент валидности, можно также представить в форме про- гностической таблицы или карты прогноза (см. гл. 4, табл. 6, рис. 7). Собственно говоря, такие таблицы и карты-наглядные иллюстрации то- го, что коэффициент валидности означает для тестируемого индивида. Напомним, что на карте прогноза приводится вероятность для испытуе- мого, показавшего определенный результат, достижения определенного уровня критериального выполнения. Например, с помощью табл. 6 (гл. 4, с. 96), зная результат ученика по тесту словесного мышления ба- тареи DAT, можно определить вероятность получения им той или иной оценки по тому или иному учебному предмету. Согласно этим данным, коэффициент валидности такого теста равен 0,66. Если, как в приведен- ном примере, тестовые и критериальные переменные-континуальны, то применим уже знакомый нам коэффициент корреляции произведения мо- ментов Пирсона. Если же исходные данные выражены в различной фор- ме (скажем, когда критериальные переменные имеют значение <выполне- но-невыполнено>-см. рис. 7, гл. 4), то коэффициенты корреляции вычисляются иными методами. Конкретные процедуры вычислений можно найти в любом учебнике по статистике. Условия, влияющие на коэффициент валидности. Как и в случае надежности, необходимо точно определить характер группы, для которой найден коэффициент валидности. Один и тот же тест может измерять различные функции, если его дать лицам разного возраста, по- ла, образовательного уровня, рода занятий и т. д. Имея различный опыт, испытуемые, например, могут по-разному подойти к решению одной и той же задачи. Следовательно, тест может обладать высокой валид- ностью относительно некоторого критерия в одной популяции и низкой или нулевой валидностью-в другой. Он может также измерять разные (ЬУНКЦИИ В ОаЗНЫХ ПОПУЛЯТТИЯХ ПпчтпУ w-nw паттигтаттипчнаа тп-тйпгнга uf
151 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
репрезентативна для популяции, в которой предполагается использовать тест, валидность необходимо определить заново на соответствующей выборке.. / Разнородность выборки имеет для измерения валидности такое же значение, как и для измерения надежности, поскольку обе характеристи- ки обычно приводятся в виде коэффициентов корреляции. Напомним, что при прочих равных условиях чем больше разброс результатов, тем выше корреляция. Это обстоятельство необходимо иметь в виду при ин- терпретации коэффициентов валидности, приводимых в руководствах к тестам. Специфическая проблема, присущая многим выборкам валидации, связана с предварительным отбором испытуемых. Так, при определении валидности нового теста на группе лиц, недавно принятых на работу, критериальной мерой, очевидно, будет выполнение ими своих обязанно- стей. Вполне вероятно, однако, что эти лица были уже отобраны теми, кто принимает на работу. Поэтому в подобной выборке разброс показа- телей теста и критериальной меры уменьшится на нижнем конце распре- деления, а следовательно, снизит коэффициент валидности. А это значит, что последующее использование теста для отбора всех поступающих на работу, по-видимому, покажет более высокую валидность. / Коэффициенты валидности могут также меняться со временем вследствие изменения норм отбора.; В качестве примера сравним коэффи- циенты валидности, полученные с интервалом в 30 лет при обследовании студентов Иельского университета (P. S. Bumham, 1965). Определялась корреляция между прогностическим показателем, основанным на тестах Совета по вступительным экзаменам в колледж, и успеваемостью в стар- ших классах, с одной стороны, и средним баллом первокурсника-с дру- гой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Про- верка двумерного распределения данных легко выявила причину этого снижения. Дело в том, что в связи с повысившимися требованиями при приеме в колледж группа студентов во втором случае была более одно- родной, чем в первом, по отношению как к предиктору, так и к крите- риальному выполнению. Отсюда и падение корреляции, несмотря на то что точность прогноза успеваемости в колледже осталась в общем пре- жней. Иными словами, наблюдавшийся эффект вовсе не свидетельствует о временном снижении валидности предикторов, а к такому выводу моно бы прийти, упустив из вида различия в однородности групп. -Для правильной интерпретации коэффициента валидности следует принимать во внимание форму зависимости между тестом и критерием. Определение пирсоновского коэффициента корреляции предполагает, что эта зависимость линейна и остается одной и той же по всему диапазону значений предиктора. Однако в ряде ситуаций это условие не выполняет- ся (J. Fisher, 1959; D. Kahneman, 1962). Пусть для выполнения некоторой работы требуется лишь минимальный уровень понимания читаемого, до- статочный для прочтения инструкций, названий и т.д. Но как только этот минимальный уровень превзойден, то от дальнейшего развития данного умения успешность выполнения работы уже не зависит, т.е. ме- жду тестом и выполнением работы существуют нелинейные отношения. Проверка двумерного распределения или диаграммы рассеяния, по- строенной по показателям теста на понимание читаемого и крите- риальных мер, выявила бы, что уровень выполнения работы растет, пока
,-,"" ,,>nrrf -ггала тт тттт-QT "rrVPAAnir ТПНН ПОСЛб ЧеГО
152 lllIIIIUIItIhl ПСИХОЛОГИЧЕСКОГО ТГСТИРОИАПИЯ
он остается примерно тем же. Следовательно, точки на диаграмме ско- рее группируются вокруг кривой, а не прямой линии. В других случаях эта линия может быть и прямой, но точки, изобра- жающие индивидуальные данные, могут отстоять от нее в верхнем конце шкалы дальше, чем в нижнем. Предположим, что выполнение теста спо- собности к обучению-необходимое, но не достаточное условие для ус- воения некоторого учебного предмета. Это значит, что ученики, показав- шие в тесте низкие результаты, справятся с ним плохо, тогда как среди учеников с высокими результатами одни освоят предмет, а другие, из-за недостаточной мотивации, еле его одолеют. В этом случае будет наблю- даться большая вариативность критериального выполнения у учащихся с более высокими тестовыми результатами, чем с более низкими. Опи- санная особенность двумерного распределения называется гетероскеда- стичиостыо. Определение корреляции по Пирсону предполагает наличие гомоскедастичности, т.е. одинаковую дисперсию критерия по всей обла- сти двумерного распределения. В приведенном примере двумерное рас- пределение имеет форму веера, расширяющегося слева направо и снизу вверх. Одною взгляда на двумерное распределение обычно бывает до- статочно для установления характера соотношения между тестом и кри- терием. Прогностические таблицы и карты прогноза также достаточно хорошо выявляют относительную эффективность теста на разных уров- нях. Величина коэффициента валидности. Какова должна быть ве- личина коэффициента валидности? На этот вопрос нет единого ответа. так как при интерпретации коэффициента валидности нужно учитывать ряд побочных обстоятельств. Конечно, корреляция должна быть стати- стически значимой на некотором достаточном уровне (0,01 или 0,05-см. гл. 5). Иными словами, прежде чем делать выводы о валидности теста, нужно иметь уверенность в том, что данный коэффициент валидности не появился в результате случайных выборочных отклонений от нулевого значения. Установив значимость корреляции между тестовыми показателями и критерием, необходимо еще оценить величину корреляции с точки зре- ния использования теста. Если мы хотим оценить величину индивидуаль- ного критериального показателя (скажем, успеваемость первокурсника), то для интерпретации коэффициента валидности уместно обратиться к стандартной ошибке оценки, аналогично рассматривавшейся в связи с надежностью теста ошибке измерения. Напомним, что ошибка измере- ния указывает на допустимые пределы возможной ошибки в индиви- дуальных показателях вследствие ограниченной надежности теста. Точно так же ошибка оценки указывает на допустимые пределы возможной ошибки в прогнозируемой величине индивидуального критериального показателя как результата ограниченной валидности теста. Ошибка оценки находится по следующей формуле:
-~
-ст1 - r,
где r -квадрат коэффициента валидности и -стандартное отклонение критериальных показателей-.3аметим, что при полной валидности ошиб- ка оценки была бы равна нулю. Вместе с тем если валидность теста рав- на нулю, то ошибка оценки совпадает со стандартным отклонением кри- териального распределения. В этих условиях прогноз равносилен
153 ВАЛИДНОСТЬ. ИЗМЕгеНИ И ИПТИРПППАЦИЯ
деление критериальных показателей. Ошибка оценки и IUUCIIMOCIH от меняющейся валидности теста располагается между этими предельными значениями. ______ Из формулы для (7, видно, что величина [/1 - " указывает на вели- чину ошибки относительно ошибки простого угидыччпия, т.е. при нуле- вой валидности. Иными словами, если ]/)- гу = 1,00, то ошибка оцен- ки столь же велика, как и при угадывании. Пользы от теста, сле- довательно не будет никакой. Если коэффициент валидное in равец 0,80,
то 1/1- гу= 0,60, т.е. ошибка составляет 60"" от той, которая бы- ла бы при угадывании. Это означает, что тест позволяет делать про- гнозы о критериальном выполнении индивида с ошибкой на 40"" мень- шей, чем в случае угадывания. Может показаться, что даже при такой необычно высокой валидно- сти, как 0,80, ошибка в предсказываемых показателях все еще значи цель- на. Если основным назначением психологического теста счтать прелска- зание точного положения показателя ипдипида в распредслепип крше- риальных показателей, то вывод будет совершенно обескуражипакнцпм. С точки зрения ошибки оценки большинство тестов представляются не особенно эффективными. Однако чаще всего при тестировании нет необ- ходимости прогнозировать критериальное BbinoJ>nciiiic в индиви- дуальных случаях, но требуется лишь определить, кто из испытуемых превзойдет некоторый минимальный стандарт выполнения, или норма- тивный показатель критерия. Каковы шансы у Мери Грин закончить ме- дицинское училище, у Тома Хиг гипса усвоить курс дифференциальною исчисления, а у Беверли Бруса преуспеть в качестве ас1ропавта? Кто из поступающих, скорее всего, будет хорошим служащим, продавцом, меха- ником? Такая информация полезна не только при отборе кадров, но и при индивидуальном выборе профессии. Например, школьнику полез- но знать, что у него хорошие шансы благополучно окончить юридиче- ский факультет, даже если мы не можем с перечною 11.14 ч.п.ш.. будет ли его средний балл 74 или 81. Тест может заметно повысить эффективность прогноза, если для не- го будет установлена любая, даже низкая, значимая корреляция с крите- рием. В ряде случаев валидность 0,20 или 0,30 уже оправдывает включе- ние теста в программу отбора. Для основных целей тестирования суждение о тесте с точки зрения ошибки оценки чрезмерно строго. Су- дить следует, принимая во внимание иные способы оценки геста, те, ко- торые бы учитывали типы решений, осуществляемых на основе его ре- зультатов. О некоторых из этих методов пойдет речь в следующем разделе.
ВАЛИДНОСТЬ ТЕСТА И ТЕОРИЯ РЕШЕНИЙ Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|