Методы предсказания критерия
Текущая и прогнозирующая валидизация. Методы установления валидности через предсказание критерия показывают эффективность теста в том, что касается прогнозирования выполнения индивидуумом точно определенной деятельности. Измерение критерия, относительно которого устанавливается валидность тестовых показателей, может производиться почти одновременно с ними или же через установленный промежуток времени. В зависимости от временных отношений между критерием и тестом Стандарты тестирования (1985) различают текущую и прогностическую валидности. Термин «прогнозирование» может использоваться как в широком смысле, означая предсказание по данному тесту в отношении любой критериальной ситуации, так и в более узком смысле предсказания в пределах некоторого временного интервала. В последнем смысле он и используется в выражении «прогностическая валидность». Информация, получаемая при прогнозирующей валидизации, особенно важна для тестов, используемых при отборе и распределении персонала. Прием на работу, отбор учащихся в колледжи или профессиональные училища, направление военнослужащих на курсы специальной подготовки — вот примеры ситуаций, требующих для принятия решений сведений о прогностической валидности используемых тестов. Сюда же можно отнести применение тестов в профотборе для отсеивания лиц, склонных в стрессовых ситуациях к эмоциональным расстройствам, и в психиатрической клинике — для назначения курса лечения, наиболее подходящего тем или иным пациентам.
В ряде случаев текущая валидность используется просто как заместитель прогностической валидности. На практике, для проведения прогнозирующей валидизации часто не хватает времени или не удается сформировать предварительную выборку, соответствующую целям тестирования. Поэтому в качестве компромиссного решения тесты проводятся на группе, для которой уже имеются данные по критерию. Например, тестовые показатели студентов колледжа могут сравниваться с их средней успеваемостью за период до момента тестирования, а тестовые показатели служащих — с их текущими производственными успехами.
140
Часть 2. Технические и методологические принципы
Вместе с тем в определенных областях применения психологических тестов текущая валидность в наибольшей степени отвечает существу решаемых задач. Логическое различие между текущей и прогнозирующей валидизацией основано не на времени, а на целях тестирования. Текущая валидизация в полной мере применима к тестам, используемым для диагноза существующего положения дел, а не для предсказания будущих результатов. Это различие можно проиллюстрировать, задав два вопроса: «Является ли Смит достаточно квалифицированным летчиком?» и «Есть ли у Смита предпосылки к тому, чтобы стать квалифицированным летчиком?» Первый вопрос требует текущей валидизации соответствующего теста, второй — прогнозирующей валидизации.
Поскольку критерий для текущей валидизации всегда доступен во время тестирования, позволительно спросить, какую функцию в подобных ситуациях выполняет сам тест? В основном, такие тесты являются более простым, быстрым и дешевым заменителем критериальных данных. Например, если сбор данных о критерии требует постоянного наблюдения больного в стационаре в течение двух недель, то тест, позволяющий отделить норму от патологии и сомнительных случаев, мог бы заметно сократить число людей, занятых диагностическим наблюдением.
Ухудшение критерия. При определении валидности теста необходимо соблюдать меры предосторожности, с тем чтобы результаты теста не сказывались на положении тестируемого относительно выбранного критерия. Например, если преподавателю колледжа или мастеру на заводе станет известно, что данный студент или рабочий плохо справился с соответствующим тестом способностей, то это может плохо сказаться на оценке их деятельности. И наоборот, слишком высокие результаты по тесту могли бы подтолкнуть преподавателя или начальника к искусственному завышению академических оценок студентов или разряда рабочих соответственно. Такие влияния, очевидно, повышают корреляцию между показателями теста и критерием, которая, увы, не отражает действительного положения вещей.
Этот возможный источник ошибки при валидизации теста называют ухудшением или порчей критерия, поскольку оценки критерия «портятся» осведомленностью оценщика о тестовых показателях. Чтобы предотвратить действие такой ошибки, совершенно необходимо, чтобы лицам, производящим оценку критерия, ничего не было известно о тестовых результатах испытуемого. По этой причине тестовые показатели, используемые при «тестировании теста», должны держаться в строгом секрете. Порой трудно убедить преподавателей, работодателей, военное начальство и других официальных лиц в необходимости такой меры предосторожности. Стремясь использовать всю доступную информацию для принятия практических решений, эти люди могут не понимать того, что показателями теста нельзя пользоваться до тех пор, пока не будут получены критериальные данные и не будет проверена его валидность.
Меры критерия валидизации. Множество критериев, относительно которых может проводиться валидизация теста, соответствует множеству конкретных целей и областей его применения. Любой метод оценки поведения в любой ситуации мог бы дать критериальную меру для какой-то определенной цели тестирования. Однако критерии, относительно которых определяется приводимая в руководствах валидность тестов, можно разбить на несколько общих категорий. Для валидизации тестов интеллекта чаще всего используются тот или иной показатель учебных достижений
Глава 5. Валидность: основные понятия
141
( academic achievement ). Вот почему такие тесты иногда более точно характеризовали как средства измерения способности к обучению. В качестве конкретных показателей, используемых в роли меры критерия, выступают школьные оценки, показатели тестов достижений, сведения о переводе в следующий класс и об окончании школы, особые отличия и поощрения, а также интеллектуальные рейтинги учащихся, составляемые педагогами. Поскольку на эти рейтинги в значительной степени влияет результативность учебной деятельности каждого учащегося, постольку их, вероятно, можно отнести к категории мер критерия учебных достижений.
Различные показатели академических успехов использовались в, качестве критериальных данных на всех уровнях обучения — от младших классов школы до колледжа и аспирантуры. Хотя их использовали главным образом для валидизации тестов общего интеллекта, они также служили критериями для некоторых тестов личности и комплексных батарей способностей. Например, при валидизации разнообразных тестов, предназначенных для отбора абитуриентов, общим критерием являлся средневзвешенный балл первокурсника. Эта мера представляет собой среднее из оценок по всем курсам первого года обучения, каждая из которых получает весовой коэффициент, соответствующий числу экзаменационных вопросов по курсу, за который она была получена.
Часто используемой разновидностью критерия академических достижений для неучащихся взрослых является объем полученного ими образования. Предполагается, что, в общем, люди с более высоким интеллектом продолжают свое образование, а менее интеллектуальные прекращают его раньше. Соображение, положенное в основу этого критерия, заключается в том, что образовательная лестница служит инструментом отбора с прогрессивно повышающимися требованиями, отсеивая на каждой ступени неспособных продолжать обучение. Хотя не подлежит сомнению, что, скажем выпускники колледжа составляют группу, отобранную в соответствии с более высо кими образовательными требованиями, чем окончившие начальную школу, связ] между объемом образования и способностью к обучению весьма далека от полной Экономические, социальные, мотивационные и другие неинтеллектуальные факторь могут влиять на продолжение человеком своего образования, особенно высшего. Кро ме того, при такой текущей валидизации трудно решить, что является причиной, а чт< следствием. В какой степени полученные различия в показателях теста интеллект есть просто результат разницы в образовании? И насколько точно тест мог бы предска зать индивидуальные различия в успехах при дальнейшем обучении? На эти вопрос! можно ответить только в том случае, когда тест проводится до получения критериалг ных данных, как при прогнозирующей валидизации.
При разработке тестов специальных способностей в основу критерия валидизаци часто кладут эффективность специальной подготовки (performance in specialized tra ning). Например, валидность тестов механических способностей может устанавл* ваться относительно конечных результатов производственного обучения. Различнь: курсы бизнес-школ (машинописи, бухгалтерского учета и т. д.) обеспечивают крит( рии для тестов способностей в этих областях деятельности. Аналогично этому, р1 зультаты обучения в музыкальных или художественных училищах всегда использ! вались при валидизации тестов музыкальных и изобразительных способностей. Д.г ряда тестов профессиональных способностей валидизация проводилась относителы успешности обучения на юридическом, терапевтическом, стоматологическом и друп факультетах университета. В случае изготавливаемых по особому заказу тестов, пре,
142
Часть 2. Технические и методологические принципы
назначенных для использования в узкоспециальной программе тестирования, личные дела слушателей и курсантов часто служат источником критериальных данных. Яркий пример — валидизация тестов для отбора курсантов военных летных училищ относительно результатов начальной летной подготовки. Успешность выполнения программы специального обучения обычно используется и при валидизации других тестов, предназначенных для отбора военных и промышленных специалистов.
Среди показателей выполнения программы обучения, используемых в качестве критерия, можно упомянуть показатели тестов достижений, проводимых по завершении курсов, официально присваиваемые разряды и звания, оценки инструкторов и успешное окончание курсов в противоположность отчислению с них. Валидность комплексных батарей способностей часто устанавливалась относительно оценок по специальным предметам, проходимым в школе или в колледже. Например, показатели по тесту вербального понимания могут сравниваться с оценками по курсам родного языка, показатели по тесту пространственных представлений — с оценками по геометрии, и т. д.
В связи с использованием данных профессионального обучения в качестве мер критерия, полезно различать промежуточные и конечные критерии. При разработке теста для отбора курсантов военных летных училищ или теста медицинских способностей, например, конечными критериями были бы выполнение боевых заданий летчиком и достижение положительных результатов практикующим врачом соответственно. Очевидно, для получения таких критериальных данных потребовалось бы много времени. Сомнительно к тому же, что в реальной деятельности вообще можно получить действительно конечный критерий. Даже если бы такой конечный критерий в итоге оказался в нашем распоряжении, он, вероятно, подвергался действию множества неконтролируемых факторов, что сделало бы его относительно бесполезным. Например, было бы трудно оценить относительную степень успеха врачей различных специальностей, имеющих практику в разных частях страны. По этим причинам в качестве критериальных мер часто используются такие промежуточные критерии, как данные о результативности обучения на той или иной стадии.
Наилучшие во многих отношениях меры критерия валидизации основаны на последующем выполнении реальной деятельности ( job performance ). В какой-то мере этот критерий использовался при валидизации тестов общего интеллекта и личности, но в значительно большей степени — при валидизации тестов специальных способностей. Кроме того, он обычно применяется для валидизации изготавливаемых по особому заказу тестов, касающихся отбора кадров для профессий, входящих в специальный перечень (авиадиспетчеры, операторы АЭС, инкассаторы и т. д.). Большинство мер выполнения профессиональной деятельности, не являясь, вероятно, конечными критериями, обеспечивают по крайней мере надежные промежуточные критерии для многих целей тестирования. В этом отношении они предпочтительнее данных о прохождении специального обучения. Вместе с тем при измерении выполнения той или иной работы не удается в такой степени стандартизовать условия, как в случае профессионального обучения. Более того, поскольку в этом случае требуется более длительный контроль за работающими, использование критерия выполнения реальной деятельности, вероятно, влечет за собой сокращение выборки валидизации. Ввиду того, что работники, занимающие номинально одинаковые должности, в разных организациях выполняют фактически неодинаковые функции, в руководстве к тесту вместе с данными о валидности относительно критерия реальной деятельности следует указать не
Глава 5. Валидность: основные понятия
14.J
только использованные при валидизации конкретные меры этого критерия, но и дать краткую характеристику обязанностей, выполнявшихся этими работниками.
Валидизация методом контрастных групп (contrastedgroups) обычно требует композиционного критерия, который отражает накапливающиеся и неконтролируемые селективные влияния повседневной жизни. Этот критерий, в конечном счете, основан на сохранении принадлежности индивидуума к конкретной группе в противоположность выбыванию из нее. Например, валидность теста музыкальных или механических способностей может проверяться сравнением показателей учащихся, зачисленных соответственно в музыкальную школу или на инженерно-механический факультет университета, с показателями тех, кто не выдержал требований этих учебных заведений. Разумеется, контрастные группы могут комплектоваться по любому критерию, такому как школьные оценки, рейтинги или выполнение нормы выработки, путем простого выбора крайних участков распределения соответствующих критериальных мер. Однако включаемые в данную категорию контрастные группы — это особые группы, которые становятся различными постепенно, под действием многочисленных требований повседневной жизни. В этом случае критерий оказывается более комплексным и менее поддающимся определению, чем ранее рассмотренные.
Метод контрастных групп довольно часто применяется при валидизации тестов личности. Так, при установлении валидности теста социальных качеств, можно было бы сравнить результаты тестирования торговых и административных работников, с одной стороны, с результатами тестирования конторских служащих и инженеров — с другой. Такое сравнение основывается на предположении; что те, кто выбрал профессии в сфере торговли или управления и продолжает там работать, отличаются как группа по своим социальным качествам от тех, кто предпочитает конторскую работу или инженерное дело. Аналогично, можно было бы сравнить тех студентов колледжа, кто принимал активное участие во внепрограммных мероприятиях, с теми, кто в течение сопоставимого периода пребывания в колледже ни разу в них не участвовал. Группы представителей различных профессий часто использовались при разработке и валидизации тестов интересов, таких как Бланк профессиональных интересов Стронга (SVIB), а также при подготовке шкал аттитюдов. Для определения валидности шкал аттитюдов иногда использовались группы, сформированные по политическому, религиозному, географическому и иным признакам, в отношении которых твердо известно, что они отражают противоположные точки зрения по определенным вопросам.
При эмпирической валидизации предметно-ориентированных тестов, в добавление к обычным методам валидизации по содержанию использовалось несколько адаптации метода контрастных групп (Hambleton, 1984b). С этой целью группы, различающиеся по объему соответствующего обучения, сравнивались по результатам выполнения теста. При дихотомической оценке владения предметом проводился анализ четырех-клеточных таблиц, в котором доля «зачетных» (pass) и «незачетных» (fail) показателей в необученной группе сравнивается с долей таких показателей в обученной группе (Ра-nell, & Laabs, 1979). Аналогичные сравнения могут делаться и в тех случаях, когда тест предъявляется школьникам классом младше и классом старше того класса, в котором проходят конкретное понятие или формируется конкретное умение, оцениваемое Данным тестом. Если доступны показатели за несколько разных периодов обучения, можно вычислить корреляцию между фактическим выполнением и объемом обучения.
144
Часть 2. Технические и методологические принципы
При разработке некоторых тестов личности психиатрический диагноз (psychiatric diagnosis) используется и в качестве основания отбора заданий, и в качестве доказательства валидности теста. Такой диагноз может служить удовлетворительным критерием при условии, что он основан на длительном наблюдении и полной истории болезни, а не на беглом собеседовании или осмотре. В последнем случае на психиатрический диагноз можно положиться не больше чем на результат самого теста, и такой диагноз следует рассматривать не как критериальную меру, а как показатель или предсказатель, валидность которого еще должна быть установлена.
В связи с другими категориями критерия уже упоминались рейтинги, или субъективные оценки ( ratings ), даваемые школьными учителями, инструкторами специализированных курсов, мастерами на производстве. К ним можно добавить отзывы офицеров о действии подчиненных в штатных ситуациях, оценки учеников со стороны школьной администрации, оценки товарищей по работе, по классу, по клубу и т. д. Обсуждавшиеся до сих пор субъективные оценки представлялись лишь как вспомогательное средство получения информации о таких критериях, как академические достижения, эффективность специальной подготовки или успехи в работе. Теперь мы обращаемся к использованию субъективных оценок в качестве ядра критериальной меры. При таких условиях именно они задают значение критерия. Более того, такие оценки не ограничиваются описанием конкретных достижений, но включают личное суждение наблюдателя в отношении любого из множества свойств, на измерение которых ориентирован тест. Так, участников выборки валидизации наблюдатели могут ранжировать по таким признакам, как доминантность, искусность, оригинальность, лидерство или честность.
Подобные оценки использовались при валидизации почти всех типов тестов. Они особенно полезны в плане обеспечения критериев для тестов личности, поскольку установление объективных критериев в этой области связано с огромными трудностями. Это справедливо в отношении социальных качеств, так как их оценка основывается на личных контактах и потому может служить наиболее логически обоснованным критерием. Хотя эти оценки не свободны от ошибок, свойственных всем субъективным суждениям, они представляют собой ценный источник критериальных данных при условии их получения в тщательно контролируемых условиях. Способы повышения точности субъективных оценок и сокращения общих типов ошибок будут рассмотрены в главе 16.
Наконец, корреляции между новым тестом и ранее доступными тестами ( previously available tests ) часто приводятся в качестве доказательства валидности. Если новый тест представляет собой сокращенный или упрощенный вариант уже существующего теста, то последний можно с полным основанием считать критериальной мерой. Так, валидизация бланкового теста (типа «бумага—карандаш») может быть осуществлена относительно более сложно организованного и отнимающего много времени теста действия, валидность которого уже установлена. Или, скажем, валидность группового теста может устанавливаться относительно индивидуального теста. Тесты Стэн-форд—Бине, например, не раз служили критерием при валидизации групповых тестов. В таких ситуациях новый тест можно считать в лучшем случае грубой аппроксимацией ранее существующего. Следует отметить, что если новый тест не является более простым или более коротким заменителем ранее доступного теста, то использование последнего в качестве критерия недопустимо.
Глава 5. Валидность: основные понятия
145
Существенное совершенствование конструирования тестов в 1980-е и 1990-е гг. привлекло внимание к анализу критерия (criterion analysis). Это именно тот аспект работы по созданию теста, которым обычно пренебрегали в традиционных исследованиях тестов. На протяжении многих лет раздавались отдельные голоса, убеждавшие в необходимости систематических исследований критериев валидизации, однако практическое воплощение этих призывов было весьма скудным (L. R.James, 1973; Tenopyr, 1986). Даже в хорошо спланированных проектах, предполагавших тщательный анализ конкретного вида трудовой деятельности с целью получения ориентиров для разработки теста, результаты этого анализа практически не оказывали влияния на выбор меры критерия, используемого при последующей валидизации созданных вариантов теста. Обычно в качестве критерия принималось «то, что есть», и потому он часто был представлен одним общим показателем эффективности работы участников выборки валидизации, основанном на субъективных оценках начальства или на документах учета выработки.
В настоящее время широко признается, что валидность теста может быть наиболее эффективно исследована путем идентификации основных конструктов в выполнении определенной работы и последующего подбора или разработки тестов, показатели которых оценивают эти необходимые конструкты (J. P. Campbell, 1990 a; J. P. Campbell, McHenry, & Wise, 1990; L. V.Jones, & Applebaum, 1989; Messick, 1995). Замечательный пример применения всестороннего исследования критерия в качестве первого этапа разработки тестовой батареи дает Проект отбора и распределения специалистов сухопутных войск США ( U. S. Аппу 's Selection and Classification Project), больше известный под названием «Проект Л» (J. P. Campbell, 1990b). Вследствие его общей значимости для применения тестов в сфере производства и управления этот крупномасштабный, семилетний проект более подробно рассматривается в главе 17.
Обобщение валидности. Прогностическая критериальная валидность (criterion-prediction validity) часто используется в локальных исследованиях валидизации, целью которых является оценка эффективности теста для какой-то конкретной программы. Этого подхода придерживаются в тех случаях, когда, например, некая компания хочет оценить тест для отбора кандидатов на одно из своих рабочих мест или когда некий колледж хочет выяснить, насколько хорошо тест академических способностей может предсказывать освоение определенного учебного курса его студентами. Прогностическую критериальную валидность можно лучше всего охарактеризовать как практическую валидность теста для строго определенной цели.
Когда в исследованиях валидизации на выборках работников промышленности показатели стандартизованных тестов способностей впервые попытались скоррели-ровать с результатами выполнения предположительно родственных видов работы, была обнаружена значительная вариация коэффициентов валидности (Ghiselli, 1959, 1966). Аналогичная вариабельность коэффициентов валидности наблюдалась и тогда, когда критериями служили оценки по различным учебным предметам (G. К. Bennett, Seashore, & Wesman, 1984). Такие результаты привели к общему пессимизму в отношении обобщимости валидности теста на различные ситуации. До середины 1970-х гг. «ситуационная специфичность» психологических требований обычно считалась серьезным ограничением применимости стандартизованных тестов в профотборе. Однако Шмидт, Хантер и их коллеги с помощью тонкого статистического анализа этой проблемы показали, что большая часть дисперсии полученных коэффициентов
146
Часть 2. Технические и методологические принципы
валидности может быть просто статистическим артефактом, возникающим вследствие малого объема выборки, ненадежности критерия и ограничения диапазона изменчивости в выборках работников.1
Выборки работников предприятий, доступные исследователям при валидизации тестов, обычно слишком малы, чтобы дать устойчивую оценку корреляции между прогнозирующим показателем и критерием. По той же причине получаемые коэффициенты могут оказаться слишком низкими, чтобы достичь статистической значимости в используемой для валидизации выборке, и потому не пригодными в качестве доказательства валидности теста. По имеющимся оценкам примерно половина выборок работников промышленных предприятий, используемых в исследованиях валидности, включает не более 40-50 человек (Schmidt, Hunter, & Urry, 1976). При таких малых выборках валидизации через предсказание критерия технически не осуществима.
Применяя свои недавно разработанные методы анализа к данным многих выборок, извлеченных из большой совокупности работников промышленности, Шмидт, Хан-тер и их сотрудники сумели показать, что валидность тестов вербальных, числовых и логических способностей можно распространить на значительно более широкий круг профессий, чем считалось ранее. Было доказано, что дисперсия коэффициентов валидности, обычно обнаруживавшаяся в более ранних исследованиях валидизации на выборках работников промышленности, не превышала величины случайной изменчивости. Этот вывод остается справедливым, даже когда специфические функции работников, казалось бы, существенно различаются в зависимости от места и характера работы. В конечном счете, успешное выполнение самых разных профессиональных задач во многом зависит от общего ядра когнитивных умений. Включенные в эти исследования тесты охватывали, главным образом, содержание и умения того типа, которые выборочно проверяются традиционными тестами интеллекта и академических способностей. Может показаться, что этот кластер когнитивных умений и знаний должен обладать значительной прогнозирующей силой в отношении выполнения разнообразной учебной и профессиональной деятельности, спрос на которую существует в обществах с передовой технологией. Однако более точных решений при отборе персонала обычно удается достичь при рассмотрении показателей по двум-трем широким когнитивным кластерам, предпочтительно дополненных замерами трудовых навыков предназначенных для выполнения конкретных профессиональных задач (Hartigan, & Wigdor, 1989; L. L. Wise, McHenry, & Campbell, 1990; Zeidner, & Johnson, 1991).
Метаанализ. Статистические методы, используемые при изучении пределов обоб-щимости валидности, по существу дают нам способ объединения данных из различных исследований. С их помощью можно объединять данные прошлых и настоящих исследований, проведенных в одном или в разных местах, а также привлекать информацию из доступных публикаций. Хотя эта группа методов была внедрена в психологические исследования и впервые названа метаанализом (meta-analysis) в 1970-х гг.
1 Эта работа была частью длительной программы исследований, результаты которых отражены во многих статьях и монографиях. К числу наиболее важных с точки зрения обсуждаемого здесь вопроса относятся следующие публикации: Pearlman, Schmidt, & Hunter (1980), Schmidt, Gast-Rosenberg, & Hunter (1980), Schmidt & Hunter (1977), Schmidt, Hunter, & Pearlman (1981), Schmidt, Hunter, Pearl-man, & Shane (1979).
г лава 5. Валидность: основные понятия 147
(Glass, 1976; Schmidt, & Hunter, 1977), лежащие в их основе вычислительные процедуры использовались уже в течение нескольких десятилетий, особенно в других науках (Hartigan, & Wigdor, 1989, chap. 6). Метаанализ получил растущее признание в психологии как возможная замена традиционных литературных обзоров (Lipsey, & Wilson, 1993; Schmidt, 1992). Такие обзоры, как правило, содержали информацию о тех исследованиях, в которых получены статистически значимые результаты, касающиеся, например, различий между средними контрольных и экспериментальных групп или корреляций между тестовыми показателями и другими переменными. При таком подходе многообещающие позитивные результаты часто терялись в силу того, что используемые в отдельных исследованиях выборки были слишком малы, чтобы обеспечить получение значимых различий.
Благодаря объединению опубликованных данных нескольких исследований и приписыванию им весов (насколько это возможно) на основе релевантных методологических и вещественных признаков каждого исследования, метаанализ может выявить важные позитивные результаты. Дополнительное преимущество метаанализа состоит в том, что он допускает вычисление величины эффектов (effect sizes). И по теоретическим, и по практическим соображениям оценка величины различия или корреляции гораздо полезнее простой демонстрации их статистически значимого отличия от нуля.
Два последних десятилетия XX в. свидетельствовали о быстром росте числа мета-аналитических исследований почти во всех областях психологии. Приложения метаанализа в исследованиях проблем профотбора и распределения персонала, вероятно, привлекли самое широкое внимание (см. главу 17). Интерес к метаанализу неуклонно растет и, соответственно, постоянно совершенствуются его процедуры. Хотя некоторые приемы метаанализа считаются спорными, основные результаты, получаемые с помощью разных его процедур, практически не различаются.1
Методы идентификации конструкта
Термин «конструктная валидность» ( construct validity ) был официально введен в лексикон психометристов в 1954 г., ознаменованном выходом в свет Технических рекомендаций для психологических тестов и диагностических методик ( Technical Recommendations for Psychological Tests and Diagnostic Techniques , — первого издания современных Стандартов тестирования. Первое подробное описание конструктной ва-лидности появилось в следующем году в статье Кронбаха и Мила (Cronbach, & Meehl, 1955). Дискуссии вокруг понятия конструктной валидности, развернувшиеся сразу После этой публикации и ведущиеся с неослабной энергией до сих пор, способствовали прояснению исходных предпосылок, лежащих в основе методов установления этого типа валидности, и обеспечению систематического обоснования их использования.
Современные приложения, подробное объяснение способов и критические оценки метаанализа можно найти в следующих работах: Hartigan & Wigdor (1989), Hedges (1988), Hunter & Schmidt (!990), L. R. James, Demaree, Mulaik, & Ladd (1992), L. V. Jones & Applebaum (1989), R. Rosenthal (!99l), Schmidt (1992), Schmidt et al. (1993), Schmidt, Ones, & Hunter (1992). Что касается простого ВВеДения в статистические процедуры метаанализа, см. F. M. Wolf (1986). Более широкая перспекти-J1 использования метаанализа в поведенческих науках представлена в Cook et al. (1992), Cooper & Hedges (1994), Hasselblad & Hedges (1995), Wachter & Straf (1990).
148
Часть 2. Технические и методологические принципы
Валидизация конструкта привлекла внимание к роли психологической теории в конструировании тестов и к необходимости формулировать гипотезы, которые можно было бы подтвердить или опровергнуть в процессе валидизации теста. Понятие конст-руктной валидности к тому же стимулировало поиск новых способов сбора данных о валидности. Хотя некоторые из этих способов были уже давно известны, их область применения была существенно расширена, чтобы иметь возможность включить большее число конкретных процедур.
Конструктная валидность теста показывает, насколько его результаты могут рассматриваться в качестве меры некоего теоретического конструкта или свойства. Примерами таких конструктов являются академические способности, понимание механических закономерностей, беглость речи, скорость ходьбы, нейротизм и тревожность. Каждый конструкт разрабатывается в целях объяснения и организации наблюдаемых последовательностей реакций. Он выводится из установленных взаимосвязей между поведенческими характеристиками. Валидизация конструкта требует постепенного накопления информации из разных источников. В дело идут любые данные, проливающие свет на природу рассматриваемого свойства и на условия, от которых зависит его развитие и проявление. Примеры конкретных методов, способствующих идентификации конструктов, рассматриваются ниже.
Возрастные изменения. Главным критерием, используемым при валидизации ряда традиционных тестов интеллекта, является возрастная дифференциация (age differentiation). Такие тесты, как шкала Стэнфорд—Бине и большинство тестов для дошкольников, проверяются на соответствие хронологическому возрасту, с тем чтобы выяснить, повышаются ли тестовые показатели детей от года к году. Поскольку ожидается, что способности и умения детей возрастают с каждым годом, предполагается, что и показатели теста должны соответственно повышаться, если этот тест является валидным. Само понятие возрастной шкалы интеллекта, введенное А. Бине, основано на допущении, что «интеллект» увеличивается с возрастом, по крайней мере до наступления зрелости.
Критерий возрастной дифференциации, разумеется, неприменим к таким функциям, которые не обнаруживают четких и последовательных возрастных изменений. В области измерения личности, например, этот критерий нашел ограниченное применение. Кроме того, следует отметить, что возрастная дифференциация, даже когда она применима, является необходимым, но не достаточным условием валидности. Так, если тестовые показатели не улучшаются с возрастом, такой результат, вероятно, указывает на то, что данный тест не является валидной мерой способностей, которые он должен выборочно проверять. С другой стороны, доказательство того, что тест измеряет нечто, увеличивающееся с возрастом, еще не дает достаточно точного определения области, охватываемой этим тестом. Замеры роста или веса будут также обнаруживать регулярные прибавки с возрастом, хотя и производятся отнюдь не тестом интеллекта.
В заключение подчеркнем еще один момент, касающийся интерпретации возрастного критерия. Психологический тест, валидность которого установлена относительно такого критерия, измеряет характерные черты поведения, усиливающиеся с возрастом в условиях той среды, в которой тест был стандартизован. Поскольку различные культуры могут стимулировать и поощрять развитие непохожих черт поведения, критерий возрастной дифференциации нельзя считать универсальным. Как и все другие критерии, он действителен лишь для определенной культурной среды.
Глава 5. Валидность: основные понятия
149
Анализ возрастных изменений является также основным методом конструктной валидизации порядковых шкал Пиаже, обсуждаемых в главах 3 и 9. В основу таких шкал положено допущение о последовательном структурировании (sequentialpatterning) развития, согласно которому достижение более ранних стадий в развитии понятий служит необходимой предпосылкой к приобретению более поздних когнитивных умений. Таким образом, содержанию этих шкал присуща имманентная иерархичность. Конструктная валидизация порядковых шкал, следовательно, включает эмпирические данные о неизменности последовательных ступеней развития. Это предполагает проверку выполнения теста детьми на разных уровнях развития любого исследуемого понятия, например сохранения или постоянства объекта. Иначе говоря, необходимо установить, действительно ли дети, владеющие определенным понятием на данном уровне, владеют им и на более низких уровнях.
Корреляции с другими тестами. Корреляции между новым и аналогичными ему существующими тестами иногда рассматриваются как доказательство того, что новый тест измеряет примерно ту же сферу поведения, что и другие одноименные тесты, такие как тесты интеллекта или тесты механических способностей и т. д. В отличие от корреляций, получаемых при установлении прогностической критериальной валид-ности, эти корреляции должны быть умеренно высокими. Если новый тест слишком тесно коррелирует с уже существующим и не обладает такими дополнительными преимуществами, как краткость или легкость проведения, то это означает излишнее дублирование имеющегося теста.
Корреляции с другими тестами используются, помимо этого, в качестве меры относительной свободы нового теста от влияния определенных посторонних факторов. Например, тесты специальных способностей или личности не должны иметь высоких корреляций с тестами общего интеллекта или академических способностей. Точно так же понимание читаемого не должно заметно влиять на выполнение таких тестов. Это объясняет, почему корреляции с тестами общего интеллекта, чтения и вербального понимания иногда приводят в качестве косвенного, или негативного, доказательства валидности. В этих случаях высокие корреляции ставили бы под сомнение валидность теста. Однако низкая корреляция сама по себе еще не гарантирует достаточной валидности. Нужно иметь в виду, что это использование корреляций с другими тестами аналогично одному из рассмотренных выше вспомогательных приемов валидизации через описание содержания.
Факторный анализ. Разработанный как средство идентификации психологических черт, факторный анализ имеет самое прямое отношение к методам валидизации конструкта. В сущности, факторный анализ представляет собой тонкий статистический инструмент анализа взаимосвязей данных о поведении. Например, если 300 человек прошли 20 тестов, то первый шаг состоит в вычислении попарных корреляций между всеми тестами. Простой просмотр итоговой матрицы из 190 коэффициентов корреляции уже мог бы выявить некоторые группы (кластеры) коррелирующих между собой тестов, что означало бы обнаружение общих черт. Так, если такие тесты, как словарный, аналогий, антонимов и завершения предложений, тесно коррелируют между собой и слабо — со всеми другими тестами, то мы могли бы, в предварительном порядке, вывести наличие фактора вербального понимания. Поскольку анализ корреляционной матрицы визуальным путем и труден и ненадежен, то для обнаружения
150
Часть 2. Технические и методологические принципы
общих факторов, необходимых для объяснения полученных корреляций, были разработаны более точные статистические методы. Эти методы факторного анализа будут еще рассмотрены в главах 11, в связи с их использованием в исследованиях природы интеллекта, где они и зародились.
В ходе факторного анализа равное количеству тестов число переменных или категорий, с помощью которых описываются результаты каждого тестируемого, сокращается до нескольких факторов или общих черт. В приведенном выше примере для объяснения попарных корреляций между 20 тестами могло бы хватить 5 или 6 факторов. Иначе говоря, описание каждого человека с помощью показателей по 20 тестам можно было бы заменить характеристикой на основе оценок по 5 или 6 факторам. Главное назначение факторного анализа состоит в упрощении описания поведения путем сокращения большого числа разнообразных категорий (соответствующих тестируемым переменным) до нескольких общих факторов, или черт.
После идентификации факторов их можно использовать для описания факторной структуры теста. Каждый тест можно, таким образом, охарактеризовать исходя из главных факторов, определяющих его показатели, с учетом веса или нагрузки каждого фактора и корреляции теста с каждым из них. Такую корреляцию иногда приводят как факторную валидностъ (factorial validity) теста. Так, если фактор вербального понимания имеет корреляцию 0,66 со словарным тестом, то факторная валидность этого теста как средства измерения вербального понимания равна 0,66. Следует отметить, что факторная валидность по существу представляет собой корреляцию теста со всем тем, что есть общего у группы тестов или других индексов поведения. Анализируемое множество переменных может, разумеется, включать в себя как данные тестов, так и данные иного рода. Субъективные оценки (ratings) и другие меры критерия, наряду с другими тестами, могут быть использованы для исследования факторной структуры конкретного теста и для определения измеряемых им общих черт.
Внутренняя согласованность. В публикуемой информации о некоторых тестах, особенно применяемых для исследования личности, можно встретить утверждение, что валидность теста была установлена методом внутренней согласованности. Существенной особенностью этого метода является использование в качестве критерия валидизации суммарного показателя самого теста. Иногда для оценки внутренней согласованности теста приспосабливается метод контрастных групп, которые в этом случае формируются из испытуемых с самыми высокими и с самыми низкими суммарными показателями по данному тесту. Результаты выполнения каждого задания теста группой с верхним значением критерия сравнивается затем с соответствующими результатами группы с нижним значением критерия. Задания, по которым не удалось обнаружить существенно большей доли «правильных» (совпадающих с ключом) ответов в группе с верхним значением критерия по сравнению с группой с низким значением критерия, признаются невалидными и либо отбрасываются, либо перерабатываются. Можно также воспользоваться корреляционными методами, например вычислить бисериальные коэффициенты корреляции между исходами («справился — не справился») каждого задания и суммарным показателем теста. В этом случае сохраняются только те задания, для которых отмечена значимая корреляция с тестом в целом. Если тест состоит из заданий, прошедших такого рода отбор, то можно говорить о его внутренней согласованности, поскольку каждое его задание дифференцирует респонденов в том же направлении, что и тест в целом.
Глава 5. Валидность: основные понятия
151
Еще одно применение критерия внутренней согласованности связано с корреляцией между показателями субтестов и суммарным показателем теста. Многие тесты интеллекта, например, состоят из раздельно проводимых субтестов (таких, как словарный, арифметический, недостающие детали и т. д.), показатели которых складываются при нахождении суммарного тестового показателя. При конструировании этих тестов показатели по каждому субтесту часто коррелируются с суммарным показателем, и субтесты, имеющие низкую корреляцию с тестом в целом, исключаются. Коэффициенты корреляции оставшихся субтестов с суммарным показателем теста приводятся затем как свидетельство внутренней согласованности всего этого измерительного инструмента.
Очевидно, что корреляции, отражающие внутреннюю согласованность теста, являются по существу мерой его однородности. Поскольку это свойство помогает охарактеризовать область поведения или отдельную черту, выборочно проверяемые тестом, то степень однородности теста имеет отношение к его конструктной валидности. Тем не менее вклад данных о внутренней согласованности теста в его валидизацию носит ограниченный характер. При отсутствии внешних по отношению к тесту данных мало что можно узнать о том, что он в действительности измеряет.
Конвергентная и дискриминантная валидизация. В своем глубоком анализе методов валидизации конструкта Д. Т. Кэмпбелл (D. Т. Campbell, 1960) обратил внимание на следующее: для доказательства конструктной валидности мы должны показать, что тест не только имеет высокие корреляции с другими переменными, с которыми он должен коррелировать исходя из теоретических предположений, но и не имеет значимых корреляций с переменными, от которых он должен отличаться. В своей более ранней статье Кэмпбелл и Фиске (D. Т. Campbell, & Fiske, 1959) охарактеризовали первый и второй аспект анализа конструктной валидности как конвергентную и дис-криминантную валидизацию соответственно. Корреляция показателей теста количественных рассуждений с последующими оценками по курсу математики могла бы служить примером конвергентной валидизации. Для того же самого теста одним из доказательств его дискриминантной валидности могло бы быть получение низкой и статистически незначимой корреляции с тестом понимания текста, поскольку умение читать не является релевантной переменной для теста, предназначенного измерять количественные рассуждения.
Напомним, что требование низкой корреляции с нерелевантными тесту переменными рассматривалось выше в связи с дополнительными и превентивными мерами, рекомендуемыми при установления содержательной валидности. Кроме того, дискриминантная валидизация особенно важна при установлении валидности тестов личности, в которых нерелевантные переменные могут влиять на результаты самым непредсказуемым образом.
В упомянутой выше статье (D. Т. Campbell, & Fiske, 1959) предложен систематизированный экспериментальный план для одновременного проведения конвергентной и Дискриминантной валидизации тестов, названный авторами матрицей «свойства х Методы» (multitrait-multimethod matrix). По существу дела, этот план предполагает °Ценку двух или более свойств двумя или более методами. Гипотетический пример, Взятый из этой статьи, поможет прояснить предлагаемый подход. В табл. 5-1 показаны все возможные корреляции между показателями, полученными при измерении каждого из трех свойств тремя методами. Эти свойства Л, В и Смогли бы быть, ска-
152
Часть 2. Технические и методологические принципы
жем, тремя такими свойствами личности, как Л) доминантность, В) общительность и С) мотивация достижения. В качестве методов могли бы использоваться: 1) опросник, заполняемый респондентом, 2) проективная методика и 3) оценки сверстников. При этих условиях A t служит обозначением показателей доминантности, полученных с помощью опросника, А2 представляет показатели доминантности по проективному тесту, а С3 — оценки мотивации достижения, даваемые сверстниками.
Гипотетические коэффициенты корреляции, приведенные в табл. 5-1, включают в себя коэффициенты надежности (они стоят в скобках вдоль главной диагонали) и коэффициенты валидности (напечатаны полужирным шрифтом вдоль трех более коротких диагоналей). Как показывают коэффициенты валидности, результаты измерения каждого свойства различными методами коррелируют между собой. Таким образом каждая мера проверяется на соответствие другим, независимым мерам того же свойства, как и в знакомой нам процедуре валидизации. Таблица также содержит коэффициенты корреляции между разными свойствами, измеренными одним (сплош-
Таблица 5-1 Гипотетическая матрица «свойства х методы»
Примечание. Буквами А, В и С обозначены свойства, а нижними индексами — методы. Коэффициенты валидности (корреляции между показателями одного свойства, измеренного разными методами) представлены тремя диагонально расположенными наборами чисел, напечатанных полужирным шрифтом. Коэффициенты надежности (корреляции между показателями одного свойства при его повторном измерении тем же методом) представлены числами в скобках вдоль главной диагонали. В треугольниках из сплошных линий заключены корреляции между разными свойствами, измеренными одним методом; в пунктирных треугольниках — корреляции между разными свойствами, измеренными разными методами.
( Из Campbell & Fiske, 1959, p. 82. Copyright 1959 by the American Psychological Association. Воспроизведено с разрешения)
Глава 5. Валидность: основные понятия
153
ные треугольники) методом, и разными свойствами, измеренными разными (пунктирные треугольники) методами. Конструктная валидность может считаться удовлетворительной, если коэффициенты валидности явно выше коэффициентов корреляции между разными свойствами, измеренными разными методами; они также должны быть выше коэффициентов корреляции между разными свойствами, измеренными одним методом. Например, корреляция между показателями доминантности по опроснику и по проективной методике должна быть выше корреляции между показателями доминантности и общительности по опроснику, заполняемому самим испытуемым. Если бы последняя корреляция, отражающая дисперсию общего метода, оказалась высокой, это могло бы означать, например, что на показатели респондента по этому опроснику чрезмерно влияет какой-то нерелевантный общий фактор, такой как способность понимать вопросы или желание представить себя в выгодном свете по всем свойствам.
Экспериментальные вмешательства. Еще один источник данных для валидиза-ции конструкта обеспечивают эксперименты, в которых исследуется влияние выбранных переменных на показатели теста. При проверке валидности теста, предназначенного, например, для использования в программе индивидуализированного обучения, есть только один путь — сравнить показатели тестирования до и после экспериментального обучения. Логическое обоснование такого теста требует низких показателей при первом тестировании, проводимом до соответствующего обучения, и высоких показателей при втором тестировании, после обучения. То же соотношение может проверяться и для отдельных заданий теста. В идеале с каждым заданием до обучения должно справиться минимальное, а после обучения — максимальное число учеников. Задания, с которыми мало кто справляется в обоих случаях, слишком трудны, а те, с которыми справляются почти все и до и после обучения, слишком доступны с точки зрения целей, преследуемых тестом. Если же многие в первый раз справляются, а во второй раз не справляются с заданием, то что-то неладно или с этим заданием, или с обучением, или с тем и другим.
Тест, предназначенный для измерения склонности к тревоге ( anxiety - proneness ), можно проверить, давая его испытуемым до и после того, как они были помещены в обстановку, провоцирующую состояние тревоги (примером может служить проверка знаний в напряженных или мешающих выполнению задания условиях). Исходные тестовые показатели тревожности можно затем соотнести с физиологическими и иными показателями выражения тревоги во время и после экспериментального воздействия. Другую (дифференциальную) гипотезу в отношении теста тревожности можно оценить, проводя тест до и после вызывающего тревогу события и наблюдая за тем, происходит ли существенное увеличение тестовых показателей при втором тестировании. Положительные результаты такого эксперимента будет свидетельствовать о том, что тестовые показатели отражают текущий уровень тревожности. Аналогичным образом можно планировать эксперименты для проверки гипотез относительно любой конкретной черты, измеряемой данным тестом.
Моделирование структурными уравнениями. В добавление к идентификации конструктов и в тестовых показателях, и в критериальной деятельности, важным протяжением вперед в области валидизации тестов стало рассмотрение отношений ежду конструктами и того пути, по которому осуществляется влияние конструкта на
154
Часть 2. Технические и методологические принципы
выбранную в качестве критерия деятельность (J. P. Campbell, 1990a; Messick, 1989; Schmidt, Hunter, & Outerbridge, 1986). Например, интерес человека к конкретной области может влиять на эффективность его работы через повышение усвоения релевантных фактуальных знаний, через приобретение требуемых процедурных навыков или через развитие мотивации, необходимой для того, чтобы проявлять максимум усилий и выдерживать напряжение при выполнении производственных заданий в установленные сроки. Выяснение того, каким образом идентифицированный конструкт или индивидуальная особенность приводит к хорошим или плохим результатам, вносит существенный вклад в понимание того, почему тест имеет высокую или низкую валидность в данной ситуации Такой анализ значительно облегчается при использовании статистического метода, называемого моделированием структурными уравнениями. Применение этого метода резко возросло в 1980-х и 1990-х гг., о чем свидетельствует, например, создание специального журнала — Structural Equation Modeling (1994). Данный метод тесно связан с различными версиями путевого анализа, а оба этих подхода часто называют (нестрого) «причинным моделированием».1
Каких конкретных результатов позволяет достичь моделирование структурными уравнениями и как оно возникло? При изучении элементарной статистики студенты быстро узнают, что корреляция не показывает причинной связи. Знакомый всем пример — фиктивная корреляция возраста. В смешанной выборке школьников в возрасте от 6 до 14 лет корреляция между ростом и умением производить арифметические вычисления скорее всего будет высокой, но мы вряд ли сделаем из этого вывод, что какая-то из этих переменных влияет на другую. Эта корреляция появляется, в основном, за счет изменения возраста, который, в свою очередь, связан с объемом полученного образования. Пытаясь разобраться в причинных связях, исследователи начали в 1960-х — 1970-х гг. использовать перекрестные с лагом планы эксперимента ( cross - lagged experimental design ) (D. T. Campbell, & Stanley, 1966; Cook, & Campbell, 1976, p. 284-293). Например, чтобы проанализировать причинные взаимосвязи между отношением ученика к математике и его показателями в этой области знаний, замеры отношения и достижений можно было бы произвести в два разных момента времени. Затем можно было бы вычислить перекрестную корреляцию между отношением к математике в моменту и достижениями в математике в момент t2 и между достижениями в математике в момент;, и отношением к математике в момент t2 . Величина этих двух коэффициентов корреляции, вероятно, должна показывать относительную силу влияния в обоих направлениях. В течение ряда лет этот план казался многообещающим способом оценки воздействия двух переменных друг на друга.
Вскоре, однако, в ходе логического и статистического анализов были обнаружены серьезные недостатки метода перекрестных с лагом корреляций. Хотя сама по себе схема перекрестных сравнений через заданный интервал времени, положенная в основу экспериментального плана, не может вызвать никаких упреков, использование простейших корреляций нулевого порядка, вероятно, искажает результаты эксперимента и ведет к некорректным выводам о причинных связях (Rogosa, 1980). Источники ошибок в этой процедуре связаны с неспособностью учесть, во-первых, корреляции
1 Чтобы избежать философских выводов и допущений о первопричине или полной причинной не1111 любого события, психологи предпочли более нейтральные выражения, наподобие того, что А опреДе' ляет, влияет или воздействует на В. Тем не менее термин «причинный» иногда употребляют ДлЯ ссылки на все эти связи и отношения, предполагая понимание его ограничений читателями (<*••■ например, L. R.James, Mulaik, & Brett, 1982, chap. 1; P. A. White, 1990).
Глава 5. Валидность: основные понятия
155
между начальными и конечными значениями переменных; во-вторых, надежность самих переменных и их временную устойчивость; и, в-третьих, возможное влияние не-измеряемых переменных, таких как возраст и объем полученного образования в упоминавшемся выше классическом примере. Моделирование структурными уравнениями свободно от подобных упреков. По существу, это достигается благодаря применению уравнений регрессии для предсказания значений зависимых переменных по независимым переменным в различных моделях причинного анализа, включая перекрестные измерения с лагом. В этом методе для нахождения коэффициентов регрессии используются частные (парциальные) корреляции, в результате чего в уравнение вводятся все связи между переменными; учитываются как ошибки измерения, так и ошибки выборки; наконец, принимаются некоторые меры предосторожности, с тем чтобы по крайней мере признать возможность влияния дополнительных, неизмеряемых причинных переменных (Bentler, 1988; L. R.James et al., 1982; Loehlin, 1992; Rogosa, 1979).
Первый этап моделирования структурными уравнениями — построение модели гипотетических причинных отношений, которую предстоит проверить. Важно, чтобы эта модель основывалась на доскональном знании существующей информации о переменных и изучаемой ситуации. Включаемые в модель гипотетические отношения должны иметь прочное теоретическое обоснование. Проверка модели осуществляется путем решения системы совместных линейных уравнений регрессии.1 В причинном моделировании число уравнений обычно больше числа неизвестных, что позволяет получить решения для нескольких альтернативных моделей. Каждая модель сравнивается с исходной, эмпирической корреляционной матрицей для определения степени согласия. При этом, однако, несколько причинных моделей могут обнаружить примерно одинаковую степень согласия с эмпирическими данными (MacCallum, Wegener, Uchino, & Fabrigar, 1993). Такие статистически эквивалентные модели могут представлять различные причинные пути и, следовательно, давать альтернативные объяснения наблюдаемых эффектов. Опираясь на свое знание изучаемой ситуации, исследователь должен оценить эти альтернативные модели с точки зрения их правдоподобия и физического смысла.
Другая особенность моделирования структурными уравнениями состоит в том, что здесь оцениваются, как правило, причинные отношения между конструктами, а не между отдельными измеряемыми переменными. Например, для определения отношения учащегося к математике можно было бы использовать ряд показателей, таких как меры интереса, целеустремленности, представления о собственных математических способностях и других релевантных аффективных переменных. Тогда общая изменчивость этих показателей определяла бы конструкт отношения учащегося к математике, который можно связать с его последующими математическими достижениями. Использование конструктов обеспечивает более устойчивые и надежные оценки, в которых ошибка и специфические дисперсии отдельных показателей сводятся на нет.
Для ознакомления с деталями этого метода см. Bollen (1989) и Loehlin (1992). Что касается реальных вычислений, то можно воспользоваться любой из имеющихся в наличии компьютерных программ, например LISREL (Hayduk, 1988; Joreskog & Sorbom, 1986, 1989) и EQS (Bentler, 1985). [На РУС- яз. см. соответственно: Хейс Д. Причинный анализ в статистических исследованиях: Пер. с англ. — М-: Финансы и статистика, 1981; Боровиков В. П., Боровиков И. П. STATISTICA® - Статистический анализ и обработка данных в среде Windows®. - М.: Филин, 1997. - С. 528-565. - Примеч. науч.
156
Часть 2. Технические и методологические принципы
В настоящее время существует несколько методологических подходов к моделированию структурными уравнениями, так же как и целый ряд модификаций и процедурных усовершенствований этого метода (см., например, Anderson, & Gerbing, 1988; Bentler, 1990; Bollen, & Long, 1993; Breckler, 1990; Cole, Maxwell, Arvey, & Salas, 1993; James, 1980; Mulaik et al., 1989). И хотя моделирование структурными уравнениями все еще находится в стадии развития, этот метод является многообещающим в плане объединения теоретического, экспериментального и статистического подходов. Он уже нашел широкое применение для решения проблем психологии личности, возрастной, социальной, промышленной и педагогической психологии (например, Graves, & Powell, 1988; L. A.James, & L. R.James, 1989; MacCallum, & Browne, 1993; McCardle, 1989; Parkerson, Lomax, Schiller, & Walberg, 1984; Shavelson, & Bolus, 1982). Предпринимаются и попытки унифицировать и упростить процедуру моделирования структурными уравнениями (например, Joreskog, & Sorbom, 1993).
Вклад когнитивной психологии. Семидесятые годы свидетельствовали о сближении между экспериментальной психологией и психометрией, которое начинает приносить плоды, крайне важные для понимания конструктов, оцениваемых с помощью тестов интеллекта и других широко определяемых способностей (Ronning, Glover, Conoley, & Witt, 1987; R. E. Snow, & Lohman, 1989). Еще в 1950-е гг. когнитивные психологи стали применять понятия теории информации при изучения процессов решения задач человеком ( human problem - solving ). Некоторые исследователи создавали компьютерные программы, которые осуществляли эти процессы и, таким образом, моделировали мышление человека. Можно написать программы, моделирующие деятельность людей на разных уровнях умения, и, располагая такими программами, предсказывать число и виды допускаемых ошибок, а также время, необходимое для различных реакций. При разработке программы исследователь обычно начинает с анализа задачи, в котором может использовать данные, полученные с помощью методик самонаблюдения, «размышления вслух» или каких-то более тонких методов..Срав-нивая действия компьютера с действиями детей и взрослых (или с действиями экспертов и неопытных специалистов) при решении одной и той же задачи, исследователи получают возможность проверить свои гипотезы относительно того, что действительно люди делают при выполнении определенных заданий. Примеры задач, исследовавшихся этими методами, включают обычные головоломки, логические, шахматные, алгебраические (доказательство тождеств) и физические задачи, а также задачи медицинской диагностики (Chi, Glaser, & Farr, 1988; J. H. Larkin, McDermott, Simon, & Simon, 1980a, 1980 b; Newell, & Simon, 1972; Simon, 1976).
Выявленные в этих исследованиях переменные включают процессы (процедурные умения и навыки) и декларативные знания (факты и сведения). Когнитивные модели точно определяют интеллектуальные процессы, используемые при выполнении задания, способ организации этих процессов, запас релевантных знаний и то, как эти знания представлены в памяти и как они извлекаются из нее при необходимости. Все большее внимание уделяется и тому, что получило название исполнительного процесса или метапознания, относящегося к осуществляемому индивидуумом контролю за собственным выбором процессов, репрезентаций и стратегий для выполнения определенного задания. В 1970-х гг. некоторые когнитивные психологи начали применять эти методы анализа задач и компьютерного моделирования в поисковых исследованиях того, что же все-таки измеряют тесты интеллекта. Разные исследователи пыта-
Глава 5. Валидность: основные понятия
157
лись подступиться к этой проблеме с разных сторон (см. Resnick, 1976; Sternberg, 1981,1984,1985b). Сумма полученных в таких исследованиях результатов постепенно переходит в важные достижения в области конструирования и применения тестов.
Следствия исследований в когнитивной психологии для валидизации конструктов особенно ясно показаны в работах Эмбретсона (Embretson, 1983, 1986, 1995а). Отмечая ограниченность традиционного подхода к валидизации конструктов, Эмб-ретсон предложил учитывать два принципиальных аспекта установления валидности теста: 1) репрезентацию конструкта и 2) номотетический диапазон. Традиционный подход к установлению конструктной валидности сосредоточивался полностью на втором аспекте, т. е. на определении номотетического диапазона теста. В этом случае рассматриваются связи результатов теста внутри «номотетической сети» других переменных. Такие связи обычно изучают путем вычисления корреляций тестовых показателей с другими мерами, включая результаты критериальной деятельности и иные жизненные показатели.
С другой стороны, цель репрезентации конструкта состоит в том, чтобы установить специфические компоненты процесса обработки информации и запасы знаний, которые нужны для выполнения задач, поставленных перед испытуемыми в заданиях теста. При проведении такого анализа можно применять метод декомпозиции задачи (task decomposition)} Примеры возможных приемов включают манипулирование сложностью задачи, предъявление неполных задач или снабжение подсказками, изменяющими требования задачи. Для оценки вклада различных компонентов ответной реакции тестируемых в выполнение задания были разработаны специальные математические модели. Другим широко используемым методом для когнитивного анализа задачи является анализ протоколов (protocolanalysis) (Ericsson, 1987; Ericsson, & Simon, 1993; van Someren, Barnard, & Sandberg, 1994). Этот метод предполагает инструкцию «думать вслух» при выполнении задания или во время решения задачи. Круг используемых заданий и задач довольно широк: от умножения в уме двух заданных чисел, припоминания деталей прошлого события или обнаружения причины неисправности оборудования до ответов на последовательность заданий теста способностей. Побочным продуктом этого метода является возможное обнаружение того, что одно и то же задание теста может вызывать совершенно разные когнитивные процессы у респондентов, различающихся по биографическим данным.
Какой вывод можно сделать на сегодняшний день в отношении вклада когнитивной психологии в развитие методов валидизации конструктов? Несмотря на то что сам информационный подход находится в стадии становления, он дал ряд эвристических концепций и руководящих принципов для организации дальнейших исследований в области валидизации тестов. Один из важнейших вкладов этого подхода — привлечение внимания к процессуальной стороне ответов на задания тестов ( response processes ), в противоположность сосредоточению на конечных продуктах мышления в традиционных психометрических исследованиях. Анализ выполнения теста с точки зрения специфических когнитивных процессов определенно должен улучшить и расширить наше понимания того, что в действительности измеряют тесты. Кроме Того, компонентный анализ индивидуального выполнения заданий теста на уровне элементарных процессов должен, в конечном счете, сделать возможным выявление
Подробнее об этом см. Butterfield, Nielsen, Tangen, & Richardson (1985), Embretson (1985b) и Stern-'er8 (1977, 1980).
158
Часть 2. Технические и методологические принципы
слабых и сильных сторон каждого тестируемого и тем самым повысить значимость и привлекательность диагностического использования тестов (Embretson, 1987,1994; Estes, 1974; Pellegrino, & Glaser, 1979; Sternberg, & Weil, 1980). А это, в свою очередь, должно облегчить приспособление программ обучения к потребностям каждого конкретного человека. Подводя итог, отношения между психометрическим и когнитивным подходами можно охарактеризовать, во-первых, с точки зрения прикладных исследований и практики, как комплементарные. В данном случае каждый подход специфичен в том, что касается целей, задач и методов исследования. Во-вторых, с точки зрения фундаментальных исследований и теории, их отношения можно охарактеризовать как реципрокные. Каждый подход способствует прояснению и обогащению другого, а вместе они улучшают наше понимание интеллектуального поведения.
Общий обзор и интеграция понятий
Сравнение методов валидизации. Мы рассмотрели несколько способов постановки вопроса «Насколько валиден данный тест?» Чтобы четче выделить отличительные признаки разных методов установления валидности, применим каждый из них по очереди к тесту, состоящему из 50 систематизированных арифметических задач. В табл. 5-2 представлены 4 возможных способа использования этого теста и соответствующие им методы валидизации. Из таблицы видно, что выбор метода валидизации зависит от последующего использования тестовых показателей. Валидность одного и того же теста в зависимости от цели его применения должна устанавливаться разными способами. Если тест достижений используется для предсказания дальнейших успехов на более высоком уровне обучения, как в случае отбора старшеклассников при их приеме в колледж, то валидность этого теста нужно оценивать относитель-
Таблица 5-2 Валидизации одного арифметического теста для разных целей
Цель тестирования | Иллюстративный вопрос | Доказательство валидности |
Использование в качестве | Чему Дик научился на | Описание содержания |
теста достижений по | сегодняшний день? | |
арифметике в начальной | ||
школе | ||
Использование в качестве | Как хорошо будет учиться | Предсказание критерия |
теста способностей для | Джейн в дальнейшем? | (временное) |
предсказания успеваемости | ||
по математике в средней школе | ||
Использование в качестве | Указывает ли выполнение | Предсказание критерия |
способа диагностики труд- | теста Биллом на какие-то | (текущее) |
ностей в обучении | специфические трудности в обучении? | |
Использование в качестве | Как показатель Элен связан | Идентификация конструкта |
средства измерения коли- | с другими показателями ее | |
чественных рассуждений | способности к логическим рассуждениям? |
Глава 5. Валидность: основные понятия
159
но такого критерия, как успешность обучения в колледже, а не относительно содержания данного школьного курса.
Инклюзивность валидизации конструктов. Примеры в табл. 5-2 подчеркивают различия между разными типами методов валидизации. Дальнейшее изучение этих методов, однако, показывает, что устанавливаемые с их помощью содержательная, прогностическая и конструктная валидности не соответствуют строго разграниченным или логически скоординированными категориям. Напротив, конструктная валидность — это широкое понятие, включающее другие типы валидности. Все обсуждавшиеся выше конкретные способы анализа содержания и оценки связей показателей теста с критерием можно было бы, кроме того, отнести и к категории способов идентификации конструкта. Например, корреляции теста механических способностей с успешностью обучения на специализированных курсах и с выполнением различного рода работ позволяет нам лучше понять конструкт, измеряемый данным тестом. Идентификацию этого конструкта можно дополнительно подкрепить сравнением показателей контрастных групп успешно и неуспешно работающих.
Валидность относительно разнообразных практических критериев обычно приводится в руководствах к тесту с тем, чтобы будущему пользователю легче было понять, что измеряет тест. Даже не будучи заинтересован в предсказании какого-либо из использованных конкретных критериев, он по их списку сможет составить себе представление об области поведения, выборочно проверяемой данным тестом. Если мы разовьем эту мысль немного дальше, то увидим, что всякое использование теста и любое истолкование тестовых показателей предполагает наличие конструктной валидности, — факт, который получает все большее признание (J. P. Campbell, 1990a; Guion, 1991; Messick, 1980b, 1988,1989; Tenopyr, 1986). Поскольку тесты редко, если вообще когда-либо, используют в условиях, идентичных тем, в которых собирались данные для их валидизации, это неизбежно предполагает некоторую степень обобщаемое™ результатов. Смысл, вкладываемый в тестовые показатели при их интерпретации, всегда опирается на конструкты, которые могут сильно различаться по ширине обобщения на области поведения, популяции и условия.
Мессик (Messick, 1980b, 1989) приводит убедительные аргументы в пользу того, чтобы сохранить термин «валидность» {validity), коль скоро им обозначается обоснованность смысловой интерпретации теста, только за конструктной валидностью. Другим методам обоснования теста, с которыми традиционно связывался этот термин, считает Мессик, следует подобрать более точно описывающие их сущность названия. И тогда содержательную валидность можно было бы заменить на «содержательную релевантность» {content relevance) и «содержательное покрытие» {content coverage) — Для спецификации и репрезентативности содержания теста относительно проверяемой предметной (или поведенческой) области соответственно. А критериальную валидность — заменить на «прогностическую полезность» {predictive utility) и «диагностическую полезность», чтобы эти термины соответствовали прогностической и текущей валидизации. Эти более точные, в плане описания, обозначения несомненно способствуют лучшему пониманию того, что в действительности достигается различными Мегодами валидизации. Тем не менее выделение различных типов валидизации полезно в качестве дополнительных опознавательных признаков тестов различного назначения. Поэтому об использованных типах валидизации следует сообщать в руко-°Дствах к тестам в легкоузнаваемой форме.
160
Часть 2. Технические и методологические принципы
С другой стороны, даже когда непосредственная прикладная задача направлена на описание содержания (как в образовательном тестировании) или на предсказание критерия (как в профотборе), использование конструктов подходящей широты эффективнее применения мер конкретного выполнения теста. Исследования используемых в тестировании критериев делают все более очевидным тот факт, что и меры критерия и показатели теста можно более эффективно выразить в виде пары согласованных конструктов. Более того, изучение причинных отношений между конструктами, как при моделировании структурными уравнениями, получает признание в качестве важного вклада в понимание того, как и почему работают тесты.1
Валидизация в процессе конструирования теста. Все шире признается, что разработка валидного теста требует применения многих методов, используемых последовательно, на разных этапах конструирования теста (Anastasi, 1986а; Guion, 1991; Jackson, 1970,1973; N. G. Peterson et al., 1990). Таким образом валидность теста создается постепенно, начиная с первого шага в его разработке, а вовсе не на последних этапах, как при традиционной валидизации относительно критерия. Процесс валидизации начинается с формулирования детальных определений черты, свойства или конструкта на основе психологической теории, предшествующих исследований или систематического наблюдения и анализа релевантной области поведения. Затем, в соответствии с определениями конструкта, готовят задания теста. За этим следует их эмпирический анализ, с отбором наиболее эффективных, или валидных, заданий из исходной совокупности. Далее могут проводиться различные виды внутреннего анализа, включая статистический анализ кластеров заданий или субтестов. Заключительный этап включает в себя валидизацию различных показателей и их интерпретируемых комбинаций посредством статистического анализа, но уже относительно внешних, реальных критериев.
Практически любые сведения, собранные в процессе разработки или использования теста, имеют отношение к его валидности и могут оказаться полезными. Данные о внутренней согласованности и ретестовой надежности, несомненно, помогают определить однородность конструкта и его временную устойчивость. Нормы могут способствовать дополнительной детализации описания конструкта, особенно если они включают нормативные данные для подгрупп, сформированных по возрасту, полу или другим демографическим переменным, влияющим на биографию конкретного человека и тем самым на результаты теста. Кроме того, после всех испытаний теста и получения разрешения на его практическое использование смысловая интерпретация его показателей может уточняться и обогащаться благодаря постепенному накоплению клинических наблюдений и выполнению специальных исследовательских проектов.2
Индивидуальные и социальные последствия тестирования. Некоторые психомет-ристы предлагали включить в понятие валидности теста дополнительный признак, а именно последствия (consequences) тестирования для конкретных людей и для общества в целом. Известным сторонником такого расширения понятия валидности является Мессик (Messick, 1980b, 1988, 1989, 1995). Особо выделяются непродуманные
1 Пример возможного применения этих более тонких методов валидизации тестов можно найти в L. A. King & D. W. King (1990).
2 Об удачном применении этой комплексной модели валидизации теста см. Elliott (1990b, chap. 9)-
Глава 5. Валидность: основные понятия
161
заранее последствия целевого применения тестов, которое может причинить вред отдельным лицам и членам определенных этнических или других групп с отличающийся от большинства историей жизни. Превосходный анализ проблем согласования различных целей и ценностей при оценивании претендентов на рабочие места иллюстрируется отчетом временно созванного Национальным научно-исследовательским советом (National Research Council) комитета экспертов, который с необычайной основательностью изучил эту ситуацию (Hartigan, & Wigdor, 1989 — см. особенно chaps. 13 и 14).
Этические и социальные последствия использования тестов бесспорно требуют самого широкого внимания. Некоторое ознакомление с этими проблемами дает глава 18. Их более специальные аспекты рассматриваются в главе 6, в связи с вопросом «необъективности тестов» ( test bias ). Однако, как отмечают другие психометристы (например, Cole, & Moss, 1989), включение этих вопросов в понятие валидности вряд ли будет самым эффективным способом их разрешения. На них невозможно ответить, опираясь только на эмпирические данные и статистический анализ. Да и вряд ли следует маскировать привлекательные для нас ценности статистическими манипуляциями. Эти вопросы нужно открыто формулировать и обсуждать как самостоятельную, объективную цель, рассматриваемую в дополнение к сугубо эмпирической и статистически доказанной валидности использования конкретного теста. Взвешенное решение, касающееся согласования конфликтующих целей, достигается методами, пригодными для преобразования систем ценностей (Mullen, & Roth, 1991; Zeichmeister, & Johnson, 1992).' Такие методы требуют специального разбирательства, систематических дискуссий, разрешения конфликтов и достижения компромиссов, причем должно быть обеспечено соразмерное представительство сторонников различных систем ценностей. Объединение эмпирических, статистически подкрепляемых процедур определения валидности с оцениванием социальных и этических последствий применения конкретного теста только затрудняет и затемняет решение.
Один вывод, который напрашивается при рассмотрении этой трудной и важной проблемы, — дополнительное подтверждение главной роли пользователя тестов, о чем уже говорилось в главе 1. Когда требуется переоценка ценностей, особенно в индивидуальных случаях, на пользователей тестов возлагается еще большая ответственность, ибо они могут контролировать последствия тестирования и при выборе подходящих тестов, и при интерпретации результатов. Толерантность к широкому спектру ценностей и социальная чувствительность пользователя могут в значительной мере способствовать правильному использованию тестов, причем не только с научной, но и с этической точки зрения.2
См. также Arkes (1993), где эта проблема освещается более широко.
Попутно можно отметить, что новый подход к психологии в целом предполагает построение «дискурсивной психологии», в которой проблемы изучаются как посредством их обсуждения между людьми в повседневной жизни, так и традиционными экспериментальными методами (см., например, Наггё & Stearns, 1995; J. Smith, Harre, & Van Langenhove, 1995).