Адаптивное тестирование и компьютеризованное проведение тестов
Адаптивное тестирование. Индивидуально адаптируемые тесты. С тем чтобы объединить некоторые достоинства индивидуального тестирования с преимуществами группового, опробуется ряд методик. Основной интерес до сих пор сосредоточивался на способах приспособления набора заданий к характеристикам ответов отдельных испытуемых. Во все увеличивающейся литературе, посвященной этой проблеме, такой подход назывался по-разному: адаптивное, последовательное, разветвленное, специализированное, индивидуализированное, программируемое, динамическое или зависящее от ответа тестирование. Хотя вполне можно создавать тесты типа «карандаш—бумага», включающие такие адаптивные процедуры (Geary, Linn, & Rock, 1968; Lord, 1971), сами эти методики идеально подходят для компьютеризованного проведения тестов.
Адаптивное тестирование может строиться на основе широкого множества процедурных моделей (DeWitt, & Weiss, 1974; Larkin, & Weiss, 1974; Weiss, 1974; Weiss, & Betz, 1973). Простой пример тестирования в две стадии приведен на рис. 10-1. В этом гипотетическом тесте все испытуемые проходят тест, состоящий из 10 заданий самой разной степени трудности, с целью определения маршрута дальнейшего обследования. В зависимости от успешности выполнения этого теста-маршрутизатора испытуемому предъявляется один из трех различных по трудности измерительных тестов, каждый из которых состоит из 20 заданий. Таким образом, испытуемый выполняет только 30 заданий, в то время как тест в целом содержит 70 заданий.
Рис. 10-1. Двустадийное адаптивное тестирование с тремя уровнями измерения. Каждый испытуемый проходит тест-маршрутизатор и один из трех измерительных тестов
Глава 10, Групповое тестирование
305
Рис. 10-2. Пирамидальная модель тестирования. Жирной линией показан маршрут обследования одного испытуемого, чьи результаты выполнения заданий приведены в верхней части рисунка
Иная организация заданий иллюстрируется пирамидальным тестом, изображенным на рис. 10-2. В этом случае все испытуемые начинают с задания средней трудности. Если ответ испытуемого на это задание правилен, то ему предъявляется следующее по степени трудности задание; если неправилен, то следующее по степени легкости. Процедура повторяется после каждого ответа испытуемого до тех пор, пока он не даст 10 ответов. Это пример 10-стадийного теста, в котором каждому испытуемому предъявляется 10 из 55 входящих в тест заданий. Жирная линия на рис. 10-2 показывает маршрут обследования конкретного испытуемого, ответы которого на предлагаемые задания отмечены вверху знаками + (правильно) и — (неправильно).
Компьютеризованное адаптивное тестирование (КАТ). Некоторые варианты обеих моделей адаптивного тестирования, примеры которых показаны на рис. 10-1 и 10-2, были реализованы как в форме «карандаш—бумага», так и на базе компьютера. Однако более сложные модели, не предусматривающие заранее установленного, фиксированного порядка предъявления заданий, допускают реализацию только в форме компьютеризованного адаптивного тестирования (Embretson, 1992; В. F. Green, 1983; Wai-пег et al., 1990). В основу этих процедур КАТ положены методы описанной в главе 7 теории «задание — ответ» { IRT ), которые используются для составления комплекта заДаний, проведения тестирования конкретных испытуемых и подсчета индивиду-зльных показателей. Для каждого задания теста существует оценка способности, тре-
306
Часть 3. Тестирование способностей
буемой для его выполнения с вероятностью 0,50. Эта оценка способности и служит тем показателем, который индивидуум получает за правильное выполнение данного задания. Такой показатель отражает уровень трудности, различительную способность и вероятность угадывания правильного ответа для данного задания. Кроме того, для каждого задания имеется информационная функция, показывающая точность измерения. Информационная функция теста, представляющая собой сумму информационных функций заданий, выполняет ту же роль, что и традиционная стандартная ошибка измерения ( SEM ). После ответа испытуемого на каждое задание компьютер выбирает для него следующее задание с учетом всей «предыстории» его ответов. Добавление новых заданий в процессе тестирования продолжается до тех пор, пока информационная функция теста не достигает заранее установленного стандарта. Таким образом, при обследовании всех испытуемых достигается одинаковый уровень точности измерений.
Показатель конкретного испытуемого основывается не только на количестве правильно выполненных заданий, но отражает уровень трудности и другие психометрические характеристики этих заданий. Совокупный тестовый показатель выводится на основе оценок способности, соответствующих каждому выполненному заданию. Эта оценка способности исправляется и уточняется с добавлением каждого нового задания до тех пор, пока не достигается заданная точность измерения. Такие показатели будут сопоставимы у всех лиц, обследованных с помощью комплекта входящих в тест заданий, независимо от специфического набора заданий, предъявленных каждому испытуемому. Существующие на сегодняшний день процедуры конструирования инструмента КАТ можно существенно облегчить за счет использования ряда доступных компьютерных программ, таких как MicroCAГ, распространяемых ASC { Assessment Systems Corporation )}
В общем, исследования, проведенные разными методами, показывают, что индивидуализированное адаптивное тестирование может давать столь же надежные и валидные результаты, как и общепринятые тесты, однако при существенно меньшем числе заданий и значительной экономии времени. Кроме того, оно обеспечивает большую точность измерения для испытуемых, находящихся на верхнем и нижнем краях диапазона способности, охватываемого тестом (Lord, 1970; 1971а; 1971b; 1971c; Weiss, 1982). Было также проведено важное исследование, показавшее, что корреляции между правильно сконструированными КАТ формами тестов и их бланковыми формами (типа «карандаш — бумага») почти столь же высоки, как коэффициенты надежности большинства тестов. Такие результаты говорят о том, что одни и те же конструкты по существу можно измерять с помощью обеих форм тестов (Mead, & Drasgow, 1993). В то же время есть ситуации тестирования, для которых КАТ не подходит, например когда используются тесты скорости и скрининг-тесты, распределяющие испытуемых по группам на основе критического показателя (Wainer, 1993b). Особое внимание уделялось разработке технических руководств по оцениванию инструментов КАТ (Green, Bock, Humphreys, Linn, & Reckase, 1984).
Адаптивное тестирование особенно подходит для использования в индивидуализированных программах обучения, упоминавшихся в главе 3. В этих случаях учащиеся проходят учебный предмет в удобном для себя темпе и могут поэтому выполнять
1 Адрес дан в приложении Б. См. также Quan, Park, Sandahl, & Wolfe (1984) и Weiss, & Vale (1987)-
Глава 10. Групповое тестирование
307
значительно отличающиеся по трудности тестовые задания. Компьютеризованное тестирование позволяет прекращать проверку, как только ответы испытуемого дают достаточно информации для принятия решения об уровне овладения предметом. В настоящее время активно исследуются возможности применения компьютеризованного адаптивного тестирования в различных областях и соответственно разрабатываются технологии КАТ. В качестве одного из примеров можно привести разработанный совместно Службой тестирования в образовании и Советом колледжей компьютеризованный адаптивный тест для распределения поступивших в колледж студентов-первокурсников по группам для изучения английского языка и математики в соответствии с уровнем их подготовки по этим дисциплинам (Smittle, 1990; Ward, Kline, & Flaugher, 1986). Вследствие индивидуализированного подбора заданий этот тест почти не отнимает времени и позволяет сразу же получить оценку. Следовательно, его можно проводить в ходе регистрации поступивших и тут же распределять студентов по курсам или группам соответственно полученным результатам испытаний.
Еще одна важная область применения КАТ — крупномасштабные программы отбора и распределения персонала в промышленности, государственных учреждениях и армии. КАТ особенно хорошо подходит для этих целей, по меньшей мере, по трем причинам: 1) неуклонный рост потока кандидатов, которых необходимо испытать, и в связи с этим предотвращение тестирования очень больших групп, скапливающихся в одно время и в одном месте; 2) необходимость охватить широкий разброс уровня способностей и 3) лучшая защищенность теста, так как каждый кандидат получает разный набор заданий из большого банка заданий, хранящихся в памяти компьютера. Разработке КАТ версии Батареи профессиональной пригодности Вооруженных сил ( ASVAB ) предшествовало несколько лет поисковых исследований (McBride, & Martin, 1983; Moreno, Wetzel, McBride, & Weiss, 1984; Wiskoff, & Schratz, 1989). Постепенно разрабатываются КАТ версии всех важных групповых тестов, таких как Дифференциальные тесты способностей,1 описанные в последнем разделе этой главы. Для многих практических приложений, равно как и для имеющих самостоятельное значение исследований природы и источников индивидуальных различий, КАТ дает бесспорные преимущества. Ясное и полезное изложение его перспектив для будущего тестирования можно найти в работе Embretson (1992).