|
Анастази А. » Психологическое тестированиерам. Так, результаты теста могут не коррелировать значимо с оценками профессиональных навыков мастером и тем не менее оказаться валидны- ми относительно более поздних данных ухода с работы или продвиже- ния по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959). Ввиду комплексности критерия валидация теста относительно слож- ного критерия профессиональных навыков, академической успеваемости и других аналогичных показателей часто представляет сомнительную ценность и обладает лишь локальной значимостью. В случае относитель-
139 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
ной независимости различных критериев более эффективна валидация те- ста относительно того аспекта критерия, на который этот тест ориенти- рован в первую очередь. Анализ этих более специфических соотношений осмысляет тестовые показатели с точки зрения многомерности крите- риального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace, 1965). Например, один тест может хорошо прогнозировать скорость во- сприятия клерка и точность выполнения мелкой работы, другой-гра- мотность его письма, третий-способность сосредоточиться на выполня- емой работе и т.д. Возвращаясь к практическим вопросам оценки теста или комбина- ции тестов как средства прогнозирования комплексного критерия (ска- жем, успеха в работе), мы сталкиваемся с необходимостью проведения конкретной валидации для каждой частной ситуации и повторения ее че- рез короткие промежутки времени. Это считается желательным и часто рекомендуется в руководствах к тестам. В большинстве случаев, однако, следовать таким предписаниям не удается. Даже если мы располагаем хорошо подготовленным персоналом, большинство валидационных ис- следований, осуществляемых в условиях производства, часто оказывают- ся неудовлетворительными минимум по трем причинам. Во-первых, трудно получить надежные и достаточно полные критериальные данные. Во-вторых, число работников, выполняющих одну и ту же или близкие функции на одном предприятии, часто слишком мало для получения ста- тистически значимых результатов. В-третьих, корреляция, как правило, снижается ввиду ограниченного разброса показателей, что объясняется предварительным отбором: фактически испытуемыми оказываются лишь те, кто был принят на работу. В силу перечисленных обстоятельств среди психологов, занимаю- щихся проблемами кадров, проявляется растущий интерес к так называе- мой синтетической валидности. Это понятие было введено Ч. X. Лоши (С.Н. Lawshe, 1952) и определено М. Балмой как <установление валидно- сти в конкретных условиях на основе систематического анализа элемен- тов деятельности, определение по этим элементам валидности теста и объединение составляющих валидностей в единый показатель> (M.J.Balma, 1959, р. 395). Были разработаны методы сбора необхо- димых эмпирических данных и получения из них значения синтетической валидности для частного комплексного критерия (R.M. Guion, 1965; С.Н. Lawshe, M.J. Balma, 1966, гл. 14; E.J. McCormick, 1959; E.S. Prirnoff, 1959; 1975). По сути дела весь процесс складывается из трех этапов: (1) детальный анализ деятельности для выделения ее элементов и определе- ния их относительных весов; (2) анализ и экспериментальное исследова- ние каждого теста для выяснения того, в какой степени он измеряет на- выки в выполнении каждого из выделенных элементов деятельности; (3) определение валидности каждого теста путем синтеза весов отдельных элементов в деятельности и в тесте. В результате длительного исследования лиц, поступавших на работу в Гражданскую службу США, Э.С. Примов (E.S. Prirnoff, 1975) вывел так называемый J-коэффициент-показатель синтетической валидности. Про- цедура его получения предусматривает, в частности, список элементов деятельности, записанных на языке профессиональных действий, и оцен- ку относительной важности этих элементов куратором работы или мето- дистом. На выборках из всей совокупности подавших заявление (т. е. без ттг>г>уг<-пцця птбопа) опоеделяются коэффициенты корреляции между
140 ПРИНЦИПЫ ПСИХО.ЮГИЧЕСКОГО ТЕСТИРОВАНИЯ
результатами тестов и самооценкой элементов деятельности. Приме- няются различные меры для повышения стабильности корреляции и ве- сов, вычисленных на основе самооценок, а также для обеспечения надле- жащего учета критериев. С этой целью исследуются различные выборки испытуемых. Окончательная оценка корреляции между тестом и выпол- нением деятельности определяется на основе корреляции каждого эле- мента с конкретной деятельностью и весов тех же самых элементов в данном тестер Как выяснилось, J-коэффициент позволил повысить шансы приема на работу представителей различных меньшинств и лиц с низким образовательным цензом, поскольку он ориентирован на навы- ки, существенные для выполнения работы (E.S. Prirnoff, 1975). Иное использование синтетической валидности, особенно пригодное для небольших фирм, в которых тот или иной вид работы выполняется небольшим числом сотрудников, описано Р. М. Гюйоном (R. М. Guion, 1965). Исследование было проведено на предприятии со штатом из 48 со- трудников, каждый из которых выполнял обязанности, отличные от обя- занностей остальных. Детальный анализ этих обязанностей тем не менее выявил 7 элементов, общих для многих видов работ. Каждому сотрудни- ку давались оценки по всем элементам его деятельности, и эти оценки сопоставлялись с его результатами по каждому тесту батареи профес- сиональных качеств. На основе такого анализа для каждого вида работы удалось синтезировать свою батарею, состоящую из двух тестов, наилуч- ших с точки зрения их корреляции с элементами соответствующей дея- тельности. Когда составленные таким путем батареи были проверены при приеме 13 новых сотрудников, результаты оказались весьма обнаде- живающими. Ввиду малого количества изученных случаев данные этого исследования носят предварительный характер и лишь указывают на возможность применения синтетической валидности. Эти два примера синтетической валидности приведены единственно с целью проиллюстрировать область применения данного метода. Чтобы познакомиться с реальными процедурами, читателю следует обратиться к первоисточникам. Итак, понятие <синтетическая валид- ность> может быть использовано по-разному в зависимости от конкрет- ной ситуации. Из него вырастает довольно многообещающий подход к проблеме комплексного и непостоянного критерия; оно позволяет ком- пановать тестовые батареи сообразно специфике работы и определять валидность в условиях, когда адекватная валидность критерия практиче- ски неосуществима. ,
КОНСТРУКТНАЯ ВАЛИДНОСТЬ
Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического кон- структа или свойства. Примерами таких конструктов являются интел- лект, понимание пространственных отношений, плавность речи, скорость ходьбы, невротизм и тревожность. Будучи нацелена на широкие, устой-
" Сгатистическая обработка основана на применении уравнения множественной ре- грессии (см. гл. 7). Для каждого элемента деятельности его корреляция с деятельностью в целом умножается на его вес в тесте, и полученные произведения суммируются по всем элементам деятельности.
141 ВЛЛИДНОСП.. OlIIOUHl.lh ПОНЯТИЯ
чивые и более абстрактные описания типов поведения, чем ранее рассмо- тренные тины ва.лидностк, конструктная валидное ib предполагает посте- пенное накопление информации из разных источников. В дело идут любые данные, бросающие сеет на природу рассматриваемого свойства, на условия, от которых зависит его развитие и проявление. Ниже обсу- ждаются конкретные методы получения конструктной валидности. Возрастные изменения. Главным критерием, используемым при валидации ряда тестов интеллекта, является возрастная дифференциация. Тесты типа Станфорд-Вине и большинство тестов для дошкольников проверяются на фактический возраст с тем, чтобы выяснить, повышают- ся ли тестовые результаты детей от года к году. Поскольку для детского возраста характерно постоянное духовное и физическое развитие, резуль- таты валидного теста также должны соответственно повышаться. Само понятие возрастной шкалы интеллекта, по мысли А. Бине, исходит из то- го положения, что <интеллект> растет по крайней мере до наступления зрелости. Критерий возрастной дифференциации, разумеется, неприменим к таким функциям, которые не обнаруживают четких и постоянных воз- растных изменений. В области тестирования личности, например, этот критерий нашел ограниченное применение. Более тою, необходимо от- метить, что возрастная дифференциация, даже когда она применима, является необходимым, но не достаточным условием валидности. Иначе говоря, если тестовые результаты нс улучшаются с возрастом, то это, видимо, указывает на невалидность теста относительно умений, которые он должен измерять. Вместе с тем, доказывая, что тест измеряет некое свойство, совершенствующееся с возрастом, мы еще не очерчиваем до- статочно точно область, охватываемую тестом. Измерение роста и веса также с возрастом дает все более высокие результаты, однако оно никак не является тестом интеллекта. В заключение подчеркнем еще один момент, касающийся интерпре- тации возрастного критерия. Психологический тест, валидность которого установлена относительно такого критерия, измеряет поведенческие ха- рактеристики, растущие с возрастом в условиях той среды, в которой тест был стандартизован. Поскольку различные культуры могут стиму- лировать развитие различных поведенческих характеристик, критерий возрастной дифференциации нельзя считать универсальным. Как и все другие критерии, он действителен лишь для определенной культурной среды. Анализ возрастных изменений играет большую роль в конструктной валидации уже упоминавшихся в гл. 4 порядковых шкал Пиаже. Основ- ной предпосылкой таких шкал является последовательность ступеней развития, проявляющаяся н том, 410 развитие представлений, сложив- шихся на ранних ступенях, служи т предпосылкой к овладению последую- щими интеллектуальными операциями. Таким образом, содержанию этих шкал присуща имманентная иерархичность. Конструктная валид- ность порядковых шкал, следовательно, включасг эмпирические данные об инвариантах носле;1.ова1сл1>пых ступеней развития. Это означает про- верку выполнения теста детьми на разных уровнях развития данного представления, скажем, постоянства или сохранения объекта. Нужно ли убеждаться в том, что владение каким-то представлением на данном уровне означает владение им и на более низких уровнях? Поскольку кри-
142 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ствии с иерархичностью ступеней развития, их валидность также зависит от эмпирической подтверждаемости данной иерархии. Корреляция с другими тестами. Корреляция между новым и аналогичными ему существующими тестами рассматривается как при- знак того, что новый тест измеряет примерно ту же сферу поведения, что и другие одноименные тесты, такие, как тесты интеллекта или тесты тех- нических способностей и т.д. В отличие от валидности по критерию здесь корреляция должна быть, но не слишком высокой. Если новый тест слишком тесно коррелирует с уже существующим и не обладает преимуществами в смысле краткости или легкости применения, то это означает излишнее дублирование имеющегося теста. Корреляция с другими тестами применяется, помимо этого, в каче- стве меры независимости нового теста от влияния определенных посто- ронних факторов. Например, тест специальных способностей или лич- ностный тест должен обладать незначительной корреляцией с тестами общего интеллекта или способности к обучению. Соответственно пони- мание читаемого не должно заметно влиять на выполнение таких тестов. Это объясняет, почему корреляции с тестами общего интеллекта, чтения и понимания слов иногда приводятся как косвенное, или негативное, до- казательство валидности. В этих случаях высокая корреляция ставила бы под сомнение валидность теста. Однако низкая корреляция сама по себе еще не гарантирует достаточной валидности. Нужно иметь в виду, что этот способ использования корреляции с другими тестами аналогичен одному из рассмотренных выше вспомогательных приемов валидации по содержанию. Факторный анализ. Прямое отношение к конструктной валидно- сти имеет факторный анализ-статистический метод выделения психоло- гических свойств. В сущности факторный анализ представляет собой усо- вершенствованную технику анализа соотношений данных поведения. Например, если 300 испытуемых пройдут 20 тестов, то первый шаг со- стоит в вычислении попарных корреляций между всеми тестами. Провер- ка полученной таким путем таблицы из 190 коэффициентов корреляции уже может выявить коррелирующие между собой тесты, что означало бы выделение общих для них свойств. Если такие тесты, как словарный, синонимов, антонимов и завершения предложений, тесно коррелируют между собой и слабо-с другими тестами, то мы могли бы выделить на- личие общего им фактора-понимание слов. Поскольку такой проверочный анализ корреляционной таблищд и труден и ненадежен, то для выявления общих факторов, за счет ко- торых можно объяснить полученные корреляции, применяются более точные статистические методы. Эти методы будут еще рассмотрены в гл. 13, где речь пойдет о комплексных батареях способностей, разра- батываемых при помощи факторного анализа. В ходе факторного анализа равное количеству тестов число пере- менных или категорий, служащих для описания выполнения теста инди- видом, сокращается до нескольких факторов или общих свойств. В при- веденном выше примере для объяснения попарных корреляций между 20 тестами хватило бы 5-6 факторов. Иначе говоря, результаты каждого индивида по 20 тестам можно было бы заменить данными по 5 или 6 факторам. Главное назначение факторного анализа состоит в упроще- нии описания данных путем сокращения числа категорий до нескольких
143 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ
После идентификации факторов их можно использовать для описа- ния факторного состава теста. Каждый тест может быть охарактеризо- ван посредством основных факторов, определяющих его показатели, ве- сом, или нагрузкой, каждого фактора и корреляцией теста с каждым из них. Такая корреляция именуется факторной валидностью теста. Так, ес- ли в словарном тесте фактор понимания слов имеет вес 0,66, то фактор- ная валидность этого лексического теста как средства измерения пони- мания слов равна 0,66. Важно отметить, что факторная валидность представляет собой корреляцию теста с тем, что есть общего для группы тестов или других указателей поведения. Анализируемое множество переменных может, конечно, включать в себя как тестовые, так и внете- стовые данные, в том числе субъективные оценки и другие крите- риальные меры. Все они наряду с другими тестами могут быть исполь- зованы для исследования факторной валидности конкретного теста и для определения измеряемых им свойств. Внутренняя согласованность. В описаниях ряда тестов, особен- но тех, которые применяются для исследования личности, говорится, что валидность теста была установлена методом внутренней согласованно- сти. Существенной чертой этого метода является использование в каче- стве критерия суммарного показателя данного теста. Иногда при этом применяется метод сравнения контрастных групп, которые формируются из испытуемых, показавших самые высокие и самые низкие суммарные результаты. Выполнение каждого теста группой с высокими результата- ми сравнивается с выполнением группой с низкими результатами, и те задания, с которыми первая группа не справляется значительно лучше, чем вторая, признаются невалидными и либо отбрасываются, либо пере- сматриваются. Можно также воспользоваться бисериальной корреляцией между исходами (<справился-не справился>) каждого задания и сум- марным результатом теста, и тогда сохраняются только те задания, для которых отмечена значимая корреляция с тестом в целом. Если тест со- стоит из заданий, прошедших такого рода отбор, то говорят, что тест Категория: Библиотека » Психодиагностика Другие новости по теме: --- Код для вставки на сайт или в блог: Код для вставки в форум (BBCode): Прямая ссылка на эту публикацию:
|
|