Минимальные квалификационные требования и нритические показатели
Практические потребности и подводные камни. Понятие овладения ( mastery ) в предметно-ориентированном тестировании — это только один пример использования критических показателей в принятии решения. Повседневная жизнь обязывает точно формулировать и выполнять минимальные квалификационные требования к человеческой деятельности в самых различных областях. Во многих ситуациях соображения безопасности требуют установления критических, граничных точек в исполнении деятельности, как при выдаче водительских прав, отборе летчиков гражданской авиации или найме рабочих для обслуживания ядерных установок. В области образования прохождение университетского курса или окончание школы представляют собой другие ситуации, которые также требуют классификации людей по принципу «все или ничего» (Jaeger, 1989). В клинической и консультационной практике решения, касающиеся выбора лечения или линии поведения, могут требовать аналогичных, дихотомических, оценок.
Особо сильный довод в пользу применения граничных показателей связан с наличием критических переменных, необходимых для выполнения некоторых функций. Критическими называют такие переменные, недостаток в которых не может быть компенсирован выдающимися способностями или высочайшей квалификацией в областях, связанных с другими параметрами деятельности. В таких случаях высокий показатель по комплексной батарее профотбора мог бы маскировать недостаток критического умения. Однако при использовании граничных значений все те, кто не набрал требуемого минимума баллов по критическому умению, считаются не прошедшими
Глава 3. Нормы и смысловое значение тестовых показателей
99
отбор, независимо от их других способностей и умений. Например, гидроакустики должны обладать высокой слуховой различительной чувствительностью. Во время Второй мировой войны новобранцев ВМФ США первоначально отбирали для обучения специальности гидроакустика на основе их совокупных показателей по тестам слухового различения и понимания механических закономерностей. В результате, целый ряд мужчин, обучавшихся до войны в колледже и потому сведущих в механике, но, к сожалению, не обладавших требуемым уровнем развития слухового различения, был зачислен на курсы гидроакустиков, с последующим отсевом. В соответствии с заведенным в ВМФ порядком несправившихся с первым учебным заданием переводили на неквалифицированную работу — учениками матросов, теряя в связи с этим возможность использовать их в качестве специалистов. Дополнительный анализ сложившегося положения привел со временем к замене критерия отсева в процедуре отбора по этой военной специальности. Однако для большинства имеющих отношение к работе переменных их связь с эффективностью труда носит линейный характер, так что чем выше показатель по тесту, тем лучше, в общем, человек справляется с работой (Coward, & Sackett, 1990). В таких случаях, фактический показатель человека по соответствующему тесту является лучшим прогнозирующим параметром, чем его положение относительно граничной точки.
Коль скоро невозможно избежать использования критических показателей при принятии многих практических решений, важно сознавать подводные камни таких оценок и применять меры для сокращения ошибочных решений. Например, нужно стремиться смягчать ограничивающее действие единственного тестового показателя. Когда это возможно, следует предпочесть критический интервал или группу критических показателей одному-единственному показателю, полученному при однократном проведении конкретного теста. Кроме того, решения, принимаемые в отношении конкретных лиц, должны основываться на информации из разных источников, дополняющих тестовые показатели другими релевантными данными в отношении интересующей деятельности в прошлом и настоящем. Если граничные значения показателей по тестам устанавливаются группой экспертов, в ней должно быть обеспечено адекватное представительство специалистов как в области предполагаемой профессиональной деятельности, так и в области конструирования и применения тестов. Самое главное, при появлении возможности граничные значения показателей следует определять или верифицировать на основе эмпирических данных. В частности, это предполагает получение тестовых показателей на группах, которые явно различаются по критерию релевантного поведения, такому как фактическое выполнение данного вида работы. Разумеется, именно это выполнение и предназначен предсказывать конкретный тест, критический показатель по которому должен гарантировать безопасный, приемлемый или желаемый минимум. Ясной иллюстрацией эмпирического метода Установления критических показателей по тесту для отбора персонала служат таблицы ожидаемых результатов ( expectancy tables ), рассматриваемые в следующем разделе.
Таблицы ожидаемых результатов. Результаты теста можно также интерпретировать опираясь на критерий ожидаемого выполнения предстоящей программы обучения или работы. Такое употребление термина «критерий» соответствует сложившейся в психометрии традиции, как в тех случаях, когда говорят, что валидность теста Устанавливается относительно некоторого критерия (см. главу 1). Строго говоря, термин «критериально-ориентированное тестирование» следовало бы использовать при-
100
Часть 2. Технические и методологические принципы
менительно к этому типу интерпретации выполнения теста, тогда как другие подходы, обсуждавшиеся в предыдущем разделе, правильнее было бы характеризовать как содержательно- или предметно-ориентированные.
В таблице ожидаемых результатов приводятся вероятности различных критериальных исходов для лиц, получивших тот или иной тестовый балл. Например, если учащийся набрал 530 баллов по Тесту академической оценки ( SAT ) Совета колледжей, то каковы его шансы закончить первый курс определенного колледжа со средней оценкой А, В, С, D или F ? Информацию такого рода можно получить, изучая двумерное распределение, связывающее значения прогнозирующих показателей ( SAT ) с критерием статуса студента первого курса (средней оценкой успеваемости). Если число случаев в каждой ячейке такого двумерного распределения заменить на проценты, получится таблица ожидаемых результатов, такая как табл. 3-6. В ней представлены данные, полученные при обследовании 211 учащихся 7-х классов, записавшихся на курс математики. В качестве предиктора здесь использован тест числового рассуждения из Дифференциальных тестов способностей ( DAT ), проведенный в конце первого семестра, а в качестве критерия — итоговые оценки по курсу математики в конце второго семестра. Корреляция между тестовыми показателями и критерием составила 0,60.
Таблица 3-6 Таблица ожидаемых результатов, демонстрирующая связь между показателями теста числового рассуждения (из DAT ) и итоговыми оценками по курсу математики
211 учащихся 7-х классов
Тестовый показатель | Число случаев | Процент | получивших каждую оценку | ||
D и ниже | С | В А | |||
30 и выше | 22 | 5 | 0 | 36 59 | |
20-29 | 104 | 9 | 21 | 43 27 | |
10-19 | 71 | 36 | 37 | 24 3 | |
Ниже 10 | 14 | 43 | 36 | 14 7 |
( С упрощениями из Technical Manual for Differential Aptitude Tests, 5th ed., p. 152. Воспроизведено с разрешения Психологической корпорации. Copyright © 1992 by The Psychological Corporation )
В первой колонке табл. 3-6 приведены тестовые показатели, сгруппированные в четыре интервала, во второй — число учащихся, тестовые показатели которых попали в соответствующий интервал. Остальные цифры таблицы (по строкам) показывают процент учащихся внутри каждого интервала группирования показателей теста, получивших оценку А, В, С или D (и ниже) по окончании курса. Так, из 22 учеников, набравших в тесте числового рассуждения 30 и более баллов, 5 % получили оценку D (или ниже), никто не получил оценку С, 36 % получили оценку В и 59 % — оценку А. На другом краю распределения, из 14 учеников с тестовым показателем ниже 10 баллов получили оценку D (или ниже) 43 %, С — 36 % и В — 14 %. Аномальные 7 % учеников, получивших оценку А, представляют собой лишь один случай и потому не несут практически полезной информации для обобщения, так же как и 5 % учеников с тестовым показателем 30 (и более) баллов, получивших оценку D (или ниже), опять-таки представленных одним случаем. Тем не менее с учетом ограничений имеющихся данных, проценты в табл. 3-6 дают оценки вероятности получения индивидуумом
Глава 3. Нормы и смысловое значение тестовых показателей
101
Рис. 3—7. Диаграмма ожидаемого отсева, показывающая связь между выполнением заданий батареи отбора летчиков и отчислением с начального курса летной подготовки
( Из J. С . Flanagan, 1947, р . 58)
того или иного критериального балла. Например, если новый ученик наберет 24 балла по тесту числового рассуждения DAT (т. е. попадет в интервал группирования 20-29), его шансы получить А по курсу математики можно оценить как 27 из 100, а шансы получить В — как 43 из 100, и т. д.
Во многих практических ситуациях может отдаваться предпочтение дихотомическим критериям в виде «успеха» или «неудачи» в работе, в прохождении учебного курса и т. д. В этих условиях можно построить диаграмму ожидаемого отсева, показывающую вероятность успеха или неудачи для каждого интервала группирования тестовых показателей. Рис. 3-7 дает пример такой диаграммы. Базирующаяся на батарее отбора летчиков, разработанной ВВС США, эта диаграмма ожидаемого отсева показывает для каждого станаина шкалы процент курсантов, не справившихся с начальным курсом летной подготовки. Можно увидеть, что в процессе подготовки отсеялись 77 % курсантов, получивших тестовый показатель, равный 1 станаину, и только 4 % курсантов, получивших показатель, равный 9 станайнам. Между этими крайними значениями процент неудач неуклонно снижается с прибавлением каждого станаина. На основе этой диаграммы ожидаемого отсева можно было бы предсказать, например, что приблизительно 40 % курсантов с тестовым показателем, равным 4 станайнам, потерпят неудачу и приблизительно 60 % из них удовлетворительно завершат начальный курс летной подготовки. Аналогичные прогнозы по каждому станаину можно строить и относительно вероятности успеха или неудачи отдельных курсантов. Так, получив тестовый показатель, равный 4 станайнам, курсант имеет 60 шансов против 40, т. е. 3 Шанса против 2, успешно закончить начальный курс летной подготовки. Нетрудно видеть, что помимо обеспечения критериально-ориентированной интерпретации тес-
102
Часть 2. Технические и методологические принципы
товых показателей таблицы ожидаемых результатов и диаграммы ожидаемого отсева дают общее представление о валидности теста в предсказании по данному критерию. По этой причине эмпирические процедуры установления критических значений тестового показателя более подробно обсуждаются в конце главе 6, в разделе о моделях принятия решений в честном использовании тестов. В этом разделе также упоминаются математические методы для установления оптимальных критических значений тестового показателя при различных условиях. Кроме того, с конкретными приложениями критических показателей в основных областях психологической практики можно ознакомиться в главе 17.
4 НАДЕЖНОСТЬ
Под надежностью понимается устойчивость, или согласованность ( consistency ) результатов теста, получаемых при повторном его применении к тем же испытуемым в различные моменты времени, при использовании разных наборов эквивалентных заданий или же при изменении других условий обследования. Такое понимание надежности лежит в основе вычисления ошибки измерения отдельного показателя, благодаря чему мы можем предсказывать диапазон случайных колебаний тестового балла у конкретного человека, возникающих, вероятно, под действием посторонних или неизвестных факторов.
Понятие надежности обычно охватывает несколько аспектов устойчивости тестовых показателей. В самом широком смысле надежность теста показывает, в какой степени индивидуальные различия в тестовых показателях могут быть отнесены на счет «истинных» различий в изучаемых свойствах, а в какой могут быть приписаны случайным ошибкам. Говоря более специальным языком, меры надежности теста позволяют оценить, какую долю общей дисперсии (общей изменчивости) тестовых показателей составляет дисперсия ошибок. Это не «ошибки» в обычном смысле слова, предполагающем, что их можно было бы избежать или скорректировать путем усовершенствования методологии измерений. Данное терминологическое значение слова «ошибка» унаследовано из более ранней эпохи в развитии психологии, когда интерес ученых сосредоточивался на выявлении общих законов поведения и оценивании испытуемых по таким свойствам, которые считались неизменными базовыми чертами. В наше время психологи признают изменчивость существенным свойством всякого поведения и потому занимаются выявлением и классификацией многочисленных источников такой изменчивости.
Что касается надежности показателя, суть дела заключается в определении дисперсии ошибок. Факторы, которые применительно к одним задачам можно было бы счесть источниками случайной вариации показателя (т. е. дисперсии ошибок), при Решении других задач могут быть отнесены, и не без основания, к причинам его истинной дисперсии. Например, если бы нас интересовало измерение колебаний настроения, то происходящие день ото дня изменения в показателях шкалы «радость — уныние» были бы релевантны цели данного теста и, следовательно, составляли бы часть
104
Часть 2. Технические и методологические принципы
истинной дисперсии показателей. С другой стороны, если бы тест предназначался для измерения более устойчивых характеристик личности, те же ежедневные колебания попали бы уже в разряд дисперсии ошибок.
В сущности, любое условие тестирования, которое не имеет отношения к цели теста, представляет собой источник дисперсии ошибок. Поэтому, стремясь к поддержанию единых условий тестирования (контролируя общую обстановку, временные ограничения, инструкции испытуемым, раппорт и другие аналогичные факторы), пользователи тестов способствуют уменьшению дисперсии ошибок и повышению надежности тестовых показателей. Но и при оптимальных условиях тестирования ни один тест не является абсолютно надежным инструментом. Поэтому каждый тест следует сопровождать сведениями о его надежности. Сообщаемая мера надежности характеризует тест только в случае его проведения в стандартных условиях и с людьми, имеющими сходство с теми, кто входил в состав нормативной выборки. Следовательно, при описании теста нужно точно указывать и характеристики этой выборки, вместе с типом измеренной на ней надежности.
Теоретически, разновидностей тестовой надежности может быть очень много — столько же, сколько и условий, влияющих на показатели теста, так как любое из этих условий может оказаться нерелевантным конкретной цели тестирования и потому отнесенным к источникам дисперсии ошибок. Однако практическое применение находит лишь несколько типов надежности. В этой главе мы обсудим основные способы измерения надежности тестовых показателей, вместе с источниками дисперсии ошибок, идентифицируемыми каждым из этих способов.1
Поскольку все типы надежности касаются степени согласованности или соответствия между двумя независимо полученными множествами показателей, их все можно выразить в виде коэффициента корреляции. Соответственно, с целью разъяснить использование и интерпретацию коэффициентов корреляции, в следующем разделе рассматриваются их основные характеристики. Более специальное обсуждение корреляции, с подробным описанием вычислительных процедур, можно найти в любом элементарном учебнике по статистике для педагогов и психологов (см, например, Ru-nyon, & Haber, 1991; D. С. Howell, 1997).