Теория «задание — ответ»
Регрессия «задание — тест». Трудность и различительную способность задания можно одновременно отобразить в виде линии регрессии «задание — тест». В целях Иллюстрации рассмотрим гипотетический тест из 12 заданий, требующих коротких ответов в свободной форме, наподобие словарных тестов в проводимых индивидуально шкалах интеллекта. В табл. 7-5 приведены доли лиц с разным суммарным бал-Лом по этому тесту, ответивших правильно на каждое из двух заданий. Эти же данные Представлены в виде графиков на рис. 7-5.
212
Часть 2. Технические и методологические принципы
Уровень трудности каждого задания можно определить как его 50 %-ный порог, так же как это обычно делается при установлении сенсорных порогов в психофизике. Это сделано на рис. 7-5 с помощью простейших геометрических построений: из точек пересечения кривых двух заданий с горизонтальной линией, соответствующей 50 % правильных ответов, опускают два перпендикуляра на ось абсцисс, по которой отложены суммарные тестовые показатели (баллы). Из этих построений хорошо видно, что у тех, кто набрал по этому тесту в сумме примерно 8 баллов, шансы справиться с заданием 7 равны 50:50, а у набравших примерно 10 баллов такие же шансы справиться с заданием 11. На различительную силу каждого задания указывает крутизна соответствующей кривой: чем круче кривая, тем выше корреляция выполнения задания с суммарным показателем по тесту и больше величина индекса различительной способности задания. Судя по внешнему виду кривых, различительная способность заданий 7 и 11 примерно одинакова.
Изучение регрессий «задание—тест», подобных изображенным на рис. 7-5, дает возможность наглядно представить, насколько эффективно работает то или иное задание теста. Такие графики не только объединяют информацию о трудности и различительной способности задания, но также дают полную картину отношений между выполнением каждого задания и суммарным тестовым показателем. Например, задание 7 обнаруживает инверсию, поскольку те, кто набрал в сумме 10 баллов, справляются с этим заданием лучше тех, кто набрал 11 баллов по данному тесту. Когда подобные результаты получены на малой выборке, этой инверсией можно было бы пренебречь; однако она иллюстрирует вид информации, которую могут выявить данные такого анализа заданий.
Несмотря на очевидные достоинства, такие графики являются довольно грубыми и мало пригодны для математической обработки, точной оценки и строгого отбора заданий. Этот подход послужил отправной точкой для разработки весьма тонких и сложных типов анализа заданий, которые начали завоевывать внимание в 1970-х и начале 1980-х гг. Причину их растущей популярности, безусловно, следует искать в
Таблица 7-5 Гипотетические данные для построения регрессии «задание—тест»
Суммарный показатель (балл) | Доля правильных | ответов |
Задание 7 | Задание 11 | |
12 | 1,00 | 0,95 |
11 | 0,82 | 0,62 |
10 | 0,87 | 0,53 |
9 | 0,70 | 0,16 |
8 | 0,49 | 0,05 |
7 | 0,23 | 0,00 |
6 | 0,10 | 0,00 |
5 | 0,06 | 0,00 |
4 | 0,03 | 0,00 |
3 | 0,00 | 0,00 |
2 | 0,00 | 0,00 |
1 | 0,00 | 0,00 |
Глава 7. Анализ заданий
213
2 3 4 5 6 7 8 9 10 11 12 Суммарный балл
Рис. 7-5. Регрессия «задание—тест» для заданий 7 и 11 (по данным табл. 7-5)
стремительном расширении доступа к быстродействующим компьютерам, без которых связанные с такими типами анализа вычислительные задачи потребовали бы несоразмерных затрат времени и средств. С составлением компьютерных программ для целого ряда предложенных моделей анализа заданий, практическое применение этих тонких методов стало легко осуществимым. Важнейшие особенности этого подхода будут охарактеризованы в следующих разделах.
Теория «задание — ответ» ( IRT ): основные черты.1 Рассматриваемый математический подход — теория «задание — ответ» — также известен под названиями «теория латентных черт» и «теория характеристических кривых задания» ( item characteristic curve theory или, сокращенно, ICC теория). Главная особенность этого подхода состоит в том, что выполнение задания ставится в связь с оценкой величины «латентной черты» респондента, обозначаемой греческой буквой (тэта). В этом контексте под «латентной чертой» понимается статистический конструкт, за которым не стоит никакой психологической или физиологической сущности, обладающей независимым существованием. В когнитивных тестах латентной чертой обычно называют измеряемую тестом способность ( ability ). Суммарный показатель по тесту часто принимают за начальную оценку такой способности.
Ясный обзор методологии IRT и ее приложений см. в Hambleton et al. (1991). Обзоры технических аспектов IRT и ее критические оценки можно найти в Hambleton (1989), Drasgow & Hulin (1990). 0 внедрении IRT в психометрику см. Lord (1980), D.J. Weiss (1983), D.J. Weiss & Davidson (1981).
214
Чисть 2. Технические и методологические принципы
Рис. 7-6. Гипотетические характеристические кривые для трех заданий
Характеристические кривые заданий строятся на основе математически выведенных функций, а не по эмпирическим данным, используемым при построении регрессионных кривых «задание—тест». В различных моделях IRT используются разные математические функции, так как эти модели основаны на разных наборах допущений. В одних моделях — это интегральные кривые нормального распределения; в других — логистические функции, позволяющие использовать некоторые математически удобные свойства логарифмических отношений. Вообще, применение различных моделей этого рода дает по существу сходные результаты, при условии, что лежащие в их основе допущения не нарушаются в конкретных ситуациях. На рис. 7-6 изображены характеристические кривые для трех гипотетических заданий. Осью абсцисс задана шкала способности (9), оцениваемой по суммарному тестовому показателю и другой информации об ответах на тест в конкретной выборке. Ось ординат дает значения Р. (6) — вероятности правильного ответа на f-e задание как функции от положения респондента на шкале способности (6). Эта вероятность находится по данным о доле респондентов, отнесенных к разным уровням изучаемой способности, которые справились с i-м заданием.
В полной, трехпараметрической модели каждая ICC описывается тремя параметрами, выведенными математически из эмпирических данных. Параметр различающей мощности (или различительной способности) задания (а,)свидетельствует о наклоне кривой. Он обратно пропорционально связан с тем расстоянием, на которое нужно переместиться по континууму способности (0), чтобы повысить Р. (0). Чем больше величина а;, тем круче наклон кривой. На рис. 7-6 задания 1 и 2 имеют одинаковую величину а,, или различающую мощность; задание 3 характеризуется меньшим at, так как его кривая поднимается медленнее. Параметр трудности задания Ф) соответствует точке на оси способности, в которой вероятность правильного ответа, Р (0), равна 0,50. Из рисунка хорошо видно, что задания 2 и 3 имеют одинаковый параметр bf и, значит, одинаковую трудность, а задание 3 легче и, следовательно, требует меньшей способности для достижения вероятности правильного ответа Р. (0) "" = 0,50. Модели IRTдля заданий с множественным выбором часто включают третий
Глава 7. Анализ заданий
215
параметр — так называемый параметр угадывания (с,).' Он отображает вероятность случайного появления правильного ответа. При использовании заданий с множественным выбором даже у обследуемых с самими низкими уровнями способности вероятность дать правильный ответ выше нуля. На рис. 7-6 это видно на примере задания 3, чья асимптота снизу проходит значительно выше нуля.
В типичных случаях для вычисления оценок параметров задания и оценок способности используют итеративные методы или, как их еще называют, методы последовательного приближения; аппроксимации повторяются до тех пор, пока оценки не становятся устойчивыми. В добавление к получению математически уточненных индексов трудности и различительной способности заданий методы IRT дают ряд других преимуществ. Важной особенностью этого подхода является исследование надежности и ошибки измерения при помощи информационных функций заданий (item information functions). Эти функции, вычисляемые для каждого задания, служат надежной опорой при выборе заданий в процессе конструирования теста. Информационная функция задания учитывает все его параметры и показывает его эффективность как средства измерения на различных уровнях способности.
Наиболее широко разрекламированный вклад моделей /ЙГимеет отношение к получаемым с их помощью результатам, которые не зависят от характера выборки, что в специальной литературе описывается как инвариантность параметров задания (in-variance of item parameters). Основная идея теории «задание — ответ» как раз и состоит в том, что параметры задания не должны изменяться при их вычислении в группах, различающихся по уровню способности. Кроме того, это означает, что как группы, так и отдельных людей можно тестировать с помощью разных наборов заданий, которые соответствуют их уровням способности, а их показатели можно сравнивать напрямую. Тестовый показатель каждого конкретного человека основывается не только на количестве, но и на заранее установленном уровне трудности выполненных им правильно заданий.
Когда предполагается тестирование множества различных выборок, единственный возможный способ — работать с большой совокупностью или банком заданий, предварительно откалиброванных на большой случайной выборке. В тех случаях, когда диапазон способности очень широк, как это имеет место в серии тестов достижений, охватывающих все ступени школьного обучения, для преодоления разрывов между группами необходимо использовать общие задания (называемые по-разному: анкерными, согласующими или калибровочными). После того как задания в полной совокупности будут откалиброваны, любое их подмножество можно применять для тестирования любой группы или отдельного человека, а полученные показатели — сравнивать между собой.
Другие модели IRT. В предыдущем разделе мы рассматривали трехпараметриче-скую модель. Двухпараметрические модели, с опущенным параметром случайного ответа (е.), применяют в тех случаях, когда влиянием угадывания правильных ответов на выполнение теста можно пренебречь. Одноиараметрическая модель, основанная только на учете трудности(&.) набора заданий, была разработана Рашем (Rasch,
Некоторые исследователи рекомендуют называть с; просто асимптотой снизу (lower-asymptote) или
случайным параметром ICC, потому что трехпараметрические модели трактуют с. как величину, не
ависящую от способности, тогда как в действительности угадывание является функцией способности.
216
Часть 2. Технические и методологические принципы
1966; см. также Andersen, 1983) и, в последующем, развита и поддержана рядом исследователей (например, Wright, 1977; Wright, & Stone, 1979). Эта модель основана на предположении о том, что как угадывание, так и изменение различительной силы задания на разных уровнях способности не оказывают существенного влияния на выполнение теста. На практике, при конструировании теста, сторонники модели Раша часто отбрасывают именно те задания, которые нарушают это предположение. Кроме того, нередко заявлялось, что модели /ЯГявляются «робастными» в статистическом смысле, а значит допускающими, в определенных границах, нарушение разных предположений без искажения результатов. Разумеется, выяснить это можно только путем эмпирической проверки.
Рассматриваемые до сих пор модели предполагают одномерность ( unidimensiona - lity ) теста или, иначе говоря, исходят из допущения, что ответы на задание можно объяснить одним свойством или одной чертой. В общем, предположение одномерности может в достаточной мере удовлетворяться, если выполнение теста зависит от единственной преобладающей черты, даже когда другие черты менее значительным образом, но все же сказываются на результатах тестирования. Были также сконструированы более общие модели, применимые к многомерным тестам, однако они требуют и более трудоемких вычислительных процедур. Кроме того, были разработаны различные модификации моделей для обработки ответов с несколькими градациями (а не только дихотомических) (Samejima, 1969) или для анализа различных вариантов ответов в заданиях со множественным выбором (Воск, 1972).
Современное состояние IRT . В отношении достоинств альтернативных моделей ШТвсе еще продолжаются широкие дискуссии. Математически получаемые на основе этих моделей оценки требуют гораздо более серьезной проверки, причем не только с помощью моделированных данных и машинного моделирования, но и на реальных данных. Инвариантность параметров задания особенно нуждается в широком исследовании в реальных ситуациях. Например, одни и те же задания могут потребовать различной смеси способностей при выполнении их лицами с различным жизненным и профессиональным опытом или же одним человеком на разных стадиях научения. Если посмотреть с другой стороны, то для анализа данных с помощью моделей ШТуже сейчас доступно большое количество разнообразных компьютерных программ (см., например, Hambleton, 1989, р. 171-172); однако эти программы постоянно меняются в результате переоценки, пересмотра и замены.1
Несмотря на продолжающийся рост теоретического и методологического разнообразия в этой области, использование методов ШТв практической разработке тестов неуклонно возрастает. Технические приемы /ЯГбыстро включаются в состав как вновь создаваемых тестов, так и пересмотренных версий широко используемых тестовых батарей, разработанных коммерческими издательствами. В качестве примеров можно назвать Калифорнийские тесты достижений ( California Achievement Tests ) и Комплексные тесты основных навыков ( Comprehensive Tests of Basic Skills ), а также Дифференциальные шкалы способностей, характеристика которых дана в главе 8. IRT
1 Самый известный и свежий пример — программа ASCAL для двух- и трехпараметрической логистической IRT калибровки, распространяемая корпорацией ASC (адрес указан в приложении Б). Уместно указать и на недавнюю разработку обобщенной линейной теории «задание—ответ» ( GLIRT ), из которой можно выводить различные модели IRT и которая допускает приспособление к разным форматам заданий (Mellenbergh, 1994).
Глава 7. Анализ заданий
217
особенно подходит для некоторых недавно появившихся типов тестирования, таких как компьютеризованное адаптивное тестирование (КАТ), рассматриваемое в главе 10. В ходе такого тестирования каждый тестируемый может отвечать на разные наборы заданий, однако все ответы оцениваются по единой шкале (Wainer et al., 1990). Важным приложением /ЙГявляется применение этого подхода в долгосрочном проекте разработки КА Т версии Батареи профессиональной пригодности Вооруженных сил США ( Arme d Services Vocational Aptitude Battery ) (Wiskoff, & Schratz, 1989).