Четвертая редакция шкалы Стэнфорд—Бине (SB-IV): Общая характеристика.

Современная редакция этой хорошо зарекомендовавшей себя шкалы является результатом наиболее обширного ее пересмотра (Delaney, & Hopkins, 1987; Thorndike, Hagen, & Sattler, 1986a, 1986b). Сохраняя главные преимущества более ранних редакций как индивидуально применяемого клинического инструмента, эта версия отражает результаты развития как теоретических представлений об интеллектуальных функциях, так и методологии конструирования тестов. Преемственность с более ранними редакциями была отчасти обеспечена путем сохранения многих типов заданий из ранних форм. Еще важнее, что удалось сохранить адаптивную процедуру тестирования, благодаря которой каждый тестируемый получает только те задания, чья трудность соответствует продемонстрированному им уровню выполнения.

В то же время сфера содержания была сильно расширена по сравнению с преимущественно вербальным фокусом ранних форм, с тем чтобы обеспечить более репрезентативный охват задач на оперирование числами, пространственными отношениями и данными кратковременной памяти. Кроме того, каждый тип заданий используется, насколько это возможно, в широком возрастном диапазоне, обеспечивая тем самым почти полную сопоставимость оценок на разных возрастных уровнях. Четвертая редакция шкалы Стэнфорд—Бине предназначена для использования в возрастном Диапазоне от двух лет до взрослости.

Проведение тестирования и подсчет баллов. Типовой набор материалов, необходимых для проведения теста Стэнфорд—Бине, показан на рис. 8-1. В него входят четыре книжечки отпечатанных типографским способом карточек с изображениями тестовых заданий, смена которых осуществляется перебрасыванием страниц; предметный материал теста, включающий кубики, доску (геометрических) форм, набор разноцветных и имеющих разную форму бусинок, а также большую картинку с изображением неразличимой по полу и этническим признакам куклы; тетрадь с протоколами Для регистрации ответов и руководство по проведению теста и оценки результатов.

Как и большинство индивидуальных тестов интеллекта, шкала Стэнфорд—Бине требует, чтобы с ней работали только высококвалифицированные специалисты. Специальная подготовка и опыт работы с этой шкалой совершенно необходимы для пра-

232

Часть 3. Тестирование способностей

Рис. 8-1. Материалы, используемые при проведении тестирования с помощью шкалы интеллекта Стэнфорд—Бине (четвертая редакция)

(Copyright © 1986 by the Riverside Publishing Company. Воспроизведено с разрешения издателя)

вильного проведения, подсчета баллов и интерпретации результатов теста. Неуверенность и неумелость могут губительно сказаться на раппорте, особенно с маленькими детьми. Незначительные изменения в словесных формулировках, допускаемые по невнимательности, могут изменить трудность заданий. Дополнительные сложности возникают в связи с тем, что задания должны оцениваться сразу же после их выполнения, поскольку последующее проведение испытания зависит от того, как обследуемый справился с заданиями предыдущих уровней.

Десятилетиями клиницисты относились к шкале Стэнфорд—Бине и подобным ей индивидуальным шкалам не только как к набору стандартизованных тестов, но и как к клиническому интервью. Те же особенности, которые затрудняют применение таких шкал, создают благоприятные возможности для взаимодействия диагноста и обследуемого и позволяют опытному клиницисту выявить необходимую ему для диагноза информацию. Шкала Стэнфорд—Бине и другие тесты, описанные в этой главе, позволяют наблюдать методы работы респондента, его подходы к решению задач и другие качественные аспекты выполнения заданий. Проводящий тестирование имеет также возможность оценить некоторые эмоциональные и мотивационные характеристики тестируемого, такие как способность сосредоточиться, уровень активности, уверенность в себе и настойчивость. Конечно, любые качественные наблюдения, делаемые в момент проведения индивидуальных тестов, необходимо фиксировать именно как наблюдения, а не интерпретировать тем же способом, что и объективные тестовые показатели. Ценность таких качественных наблюдений сильно зависит от мастерства, опыта и психологического чутья проводящего тестирование специалиста, равно как И от знания ловушек и ограничений, свойственных этому виду наблюдения.

Глава 8. Индивидуальные способности

233

Рис. 8-2. Возрастной диапазон 15 тестов шкалы Стэнфорд—Бине (четвертая редакция) Примечание, касающееся областей, закрашенных серым цветом. Что касается девяти тестов с ограниченными возрастными диапазонами, некоторым членам выборки стандартизации, выходящим за их границы, все же предъявлялись какие-то из этих тестов из-за необычайно высокого или низкого результата по тесту, определяющему маршрут тестирования. Их показатели учитывались при оценивании результатов всей соответствующей возрастной выборки для составления нормативных таблиц, но эти оценки включались в них со специальным предостережением в отношении их использования. Что касается деталей, см. Guide (Thorndike et al., 1986a, p. 7) и Technical Manual (Thorndike et al., 1986b, p. 30).

(Приведено с упрощениями из The Stanford-Binet Intelligence Scale: Fourth Edition, Guide for administering and scoring, p. 7. Copyright © 1986 by the Riverside Publishing Company -Воспроизведено с разрешения издателя)

В отличие от возрастного принципа группировки заданий, применяемого в более Ранних редакциях шкалы, в SB - W задания каждого типа помещены в отдельные тесты в Порядке возрастания трудности. Шкала состоит из 15 тестов, подобранных таким °бразом, чтобы представлять четыре основные когнитивные области: вербальное расоведение, абстрактное/наглядное рассуждение, количественное рассуждение и кратковременную память (см. рис. 8-2). Эти 15 тестов, хотя и сгруппированы в четыре Категории в целях вычисления показателей, проводятся в смешанном порядке для ПоДдержания интереса и внимания тестируемых. Диапазон трудности шести из этих естов перекрывает весь возрастной диапазон шкалы SB - IV . Как можно увидеть на

234

Часть 3. Тестирование способностей

рис. 8-2, остальные девять тестов, вследствие характера содержащихся в них задач, либо начинают предъявлять позже, либо перестают предъявлять раньше соответствующих предельных возрастных уровней.

Проведение SB-IV представляет собой двустадийный процесс. На первой стадии тестирующий дает Словарный тест, который служит для выбора маршрута обследования через определение начального уровня (епЩ level) для всех остальных тестов. С какого задания начать Словарный тест зависит исключительно от хронологического возраста тестируемого. Для остальных тестов начальный уровень определяется по номограмме (или таблице) исходя из показателя Словарного теста и хронологического возраста. На второй стадии тестирования проводящий его специалист должен установить базальный (basal) и предельный (ceiling) уровни для каждого теста на основе фактического выполнения тестов индивидуумом. Базальный уровень достигается в том случае, когда испытуемый справляется с четырьмя заданиями на двух соседних уровнях. Предельный уровень достигается, когда три из четырех заданий (или все четыре задания) на двух соседних уровнях не выполняются испытуемым. По достижении предельного уровня по конкретному тесту его перестают использовать в дальнейшем тестировании испытуемого.

Когда задание предъявлено и на него получена реакция испытуемого, проводящий тестирование заносит оценку в тетрадь для записи ответов. Первичная оценка («сырой балл») по каждому тесту находится путем фиксирования номера задания самого высокого уровня из всех предъявленных испытуемому и вычитания из получившегося числа суммарного количества заданий, которые он выполнил неправильно. Кроме того, в состав 11 тестов входят задания-образцы, служащие лишь для ознакомления с тестом и никогда не учитываемые при вычислении показателя. В большинстве тестов каждое задание имеет только один верный ответ; такие ответы указаны на обратной стороне карточек с заданиями и в тетради для записи ответов. Все задания оценивают по принципу «выполнено/не выполнено», в соответствии с установленными эталонными ответами. Пять тестов предполагают свободные ответы, и потому требуют использования более развернутых нормативов и правил оценивания, которые даны в руководстве к проведению и оценке результатов SB-IV (Thorndike et al., 1986a),1 где приведены и некоторые образцы двусмысленных ответов, требующих дополнительного уточнения со стороны проводящего тестирование специалиста.

Хотя полная шкала SB-W имеет в своем составе 15 тестов, ни один человек не проходит все эти тесты, поскольку часть из них применима только в ограниченных возрастных диапазонах. Обычно полная батарея включает от 8 до 13 тестов, в зависимости от возраста тестируемого и его результата по тесту, определяющему маршрут обследования. Время проведения полной батареи предположительно колеблется от 30 до 90 минут, но менее опытным пользователям может потребоваться и больше времени. Как правило, обследование с помощью шкалы SB-YV проводится за один сеанс, возможно с перерывами в несколько минут между тестами. Для некоторых целей в руководстве по проведению и оценке результатов SB-IV (Thorndike et al., 1986a) предлагается несколько сокращенных батарей, требующих меньшего времени тестирования, но сфокусированных на тестах, наиболее подходящих для конкретной цели тестирования. В число таких батарей входят 6-тестовая сокращенная батарея общего

' К числу этих тестов относятся: Словарный, Понимание, Нелепости, Копирование и Вербальные отношения.

Глава 8. Индивидуальные способности

235

назначения и 4-тестовая батарея экспресс-скрининга. Обе имеют в своем составе по меньшей мере один тест в каждой из четырех когнитивных областей. Кроме того, предлагаются три батареи для обследования учащихся с целью включения в программы для одаренных детей, соответственно для каждого из трех возрастных уровней, и три батареи для учащихся с трудностями в обучении, также соответствующие трем возрастным уровням. Во всех этих сокращенных батареях используются стандартные процедуры для определения начальных уровней, проведения тестирования и подсчета баллов. В «Справочном руководстве для пользователей SB-IV» (Examiner's Handbook) (Delaney, & Hopkins, 1987) разъясняются многие процедурные вопросы, касающиеся проведения (и оценки результатов) этого теста с различными категориями обследуемых.

Стандартизация и нормы. Объем выборки стандартизации SB-IV немного превышал 5000 испытуемых в возрасте от 2 до 23 лет, протестированных в 47 штатах (включая Аляску и Гавайи) и округе Колумбия. Эта выборка была стратифицирована по таким признакам, как географический район, размер общины (community size), этническая группа и пол, с целью достичь близкого соответствия (на уровне пропорциональности) данным переписи населения США 1980 г. В добавление к этому контролировался социоэкономический статус испытуемых в виде профессионального и образовательного уровня родителей. Результаты этого контроля обнаружили избыточную представленность испытуемых на верхнем и недостаточную представленность на нижнем уровнях. Эти несоответствия были скорректированы путем приписывания различных весовых коэффициентов частотам при расчете значений показателя в нормативных таблицах. Таким образом, каждый испытуемый из семьи с высоким социоэко-номическим статусом засчитывался как какая-то часть наблюдаемого случая, тогда как испытуемый из семьи с низким социоэкономическим статусом учитывался как случай с некой добавкой.

Нормативные таблицы используются для преобразования первичных показателей по каждому из 15 тестов в «стандартные показатели возраста» (Standard Age Scores, или, сокращенно, SAS).* Они представляют собой нормализованные стандартные показатели со средним, равным 50, и SD = 8 в каждой возрастной группе. Нормативные таблицы составлены с 4-месячным интервалом для возраста от 2 до 5 лет, с 6-месячным интервалом для возраста от 6 до 10 лет и с интервалом в 1 год для возраста от 11 до 17 лет; для возрастного уровня от 18 до 23 лет имеется одна-единственная нормативная таблица. Тетрадь для записи ответов содержит специальный бланк-диаграмму Для построения индивидуального профиля 5Л5по результатам проведенных с конкретным испытуемым тестов.

Стандартные показатели возраста (SAS) можно также получить для каждой из Четырех когнитивных областей и для совокупного результата по полной шкале 55-IV. Комплексный и четыре частных стандартных показателя возраста находят по значениям SAS для тестов, проведенных с конкретным испытуемым, для чего нужно просто обратиться к соответствующим нормативным таблицам. Эти пять SAS тоже являются

Эти таблицы приведены и Thorndike et al., 1986a, p. 183-188. Некоторые значения SAS, основанные "а менее 100 наблюдаемых случаев, статистически оценивались для полной возрастной когорты и "Ыделены в нормативных таблицах темным фоном. Такие показатели появлялись тогда, когда испы-'Уемые показывали необычайно высокий или, наоборот, низкий для своего возраста результат по

СТУ, определяющему маршрут обследования (Thorndike ct al., 1986b, p. 29-30).

236

Часть 3. Тестирование способностей

нормализованными стандартными показателями, но со средним, равным 100, и SD =16. Таким образом, они выражаются в тех же единицах, что и стандартный IQ более ранних редакций шкалы Стэнфорд—Бине. Однако от использования термина «/Q» теперь полностью отказались. Для специальных целей предусмотрены возможности вычисления стандартных показателей возраста для любой комбинации двух или более частных (т. е. соответствующих одной из четырех когнитивных областей) SAS — так называемых «парциальных композиций» (partial composites). Например, комбинация SAS для вербального и количественного рассуждения близко соответствует «способности к обучению» (scholastic aptitude) и может представлять особый интерес в связи с оценкой академических достижений или готовности к обучению.

Надежность. Поскольку в SB-IV нет альтернативной формы, надежность этой шкалы можно было оценить только вычисляя внутреннюю согласованность или проводя повторное тестирование. В большинстве случаев использовался метод Кьюдера—Ричардсона, который применяли к данным, полученным на всей выборке стандартизации. Как и ожидалось, комплексный показатель по полной батарее дал наибольшие коэффициенты надежности на всех возрастных уровнях, значения которых колебались от 0,95 до 0,99. Надежность частных показателей в каждой из четырех когнитивных областей также оказалась высокой. Хотя она и изменялась в зависимости от числа тестов, включаемых в каждую область, соответствующие коэффициенты надежности варьировали в пределах от 0,80 до 0,97. Что касается отдельных тестов, то у большинства из них коэффициенты надежности попадают в интервал между 0,80 и 0,90, за исключением короткого (состоящего из 14 заданий) теста «Память на предметы», надежность которого варьирует от 0,66 до 0,78. В общем, все коэффициенты надежности имеют тенденцию несколько повышаться при переходе от младших к старшим возрастным уровням.

Дополнительные данные по ретестовой надежности были получены на 57 дошкольниках (5 лет) и 55 школьниках (8 лет), повторное тестирование которых проводилось спустя несколько месяцев (от 2 до 8). В общем, надежность оказалась высокой у комплексного показателя: соответствующие коэффициенты для этих двух групп составили 0,91 и 0,90. Хотя частный показатель в области вербального рассуждения дал коэффициенты надежности выше 0,80, ретестовая надежность других частных показателей и отдельных тестов обнаружила существенные колебания. Эти результаты трудно интерпретировать из-за возможного влияния ограниченных возрастных диапазонов некоторых тестов и эффекта практики, который мог существенно различаться от ребенка к ребенку.

В добавление к коэффициентам надежности в руководстве по проведению и оценке результатов SB-W (Guide) и в техническом руководстве (TechnicalManual) приводятся стандартные ошибки измерения (SEM) в пределах каждого возрастного уровня для каждого теста, частных показателей по когнитивным областям и комплексного показателя по полной шкале. Такие SEM нужны для оценивания индивидуальных показателей и для интерпретации различий между показателями при анализе профиля. Общий комплексный SAS (М = 100, SD = 16) имеет SEM от 2 до 3 единиц шкалы. Например, если в качестве приближенного среднего значения SEMвзять 2,5, т. е. 2 шанса к 1, что «истинный» комплексный показатель конкретного испытуемого не будет отличаться от полученного им показателя больше чем на 2,5 единицы; кроме того, есть 95 шансов из 100, что его вариация составит не более 5 единиц (2,5 х 1,96 = 4,90).

Глава 8. Индивидуальные способности

237

В Справочном руководстве для пользователей 5B-/V(Delaney, & Hopkins, 1987) представлена интерпретационная основа, побуждающая формулировать гипотезы и проводить их перекрестную проверку на основе количественных и качественных данных, собранных с помощью этой батареи. Количественный анализ следует модели, впервые предложенной Ф. Б. Дэвисом (F. В. Davis, 1959) и примененной Кауфманом (Kaufman, 1979, 1994) и др. к шкалам Векслера. В сущности, он состоит из типовых схем сравнений комплексного и четырех частных (см. рис. 8-2) показателей с целью обнаружения статистически значимых различий исходя из величины SEM. Частоту полученных различий также сравнивают с соответствующими нормативными данными из выборки стандартизации. В дополнение к этому могут систематически оценивать сильные и слабые стороны конкретных способностей индивидуума, выявляемых каждым тестом, для чего проводят сравнения среднего результата испытуемого по комплексному и частным показателям с показателями по отдельным тестам. Указанное справочное руководство содержит всю необходимую информацию для проведения этих разновидностей анализа профиля, а также дает четыре полных примера их применения; оно наверняка будет оценено по достоинству как начинающими, так и опытными пользователями шкалы Стэнфорд—Бине.

Валидность. В соответствии с современными концепциями валидизации тестов разработчики четвертой редакции шкалы Стэнфорд—Бине придерживались разнообразных подходов при идентификации и определении закладываемых в ее основу конструктов. Первичный выбор конструктов направлялся результатами анализа доступной научной литературы о природе и измерении интеллекта (R. L. Thorndike et al., 1986b, chap. 1). Опыт использования прежних редакций этой шкалы и обнаружившиеся в ходе него ее сильные и слабые стороны служили дополнительными ориентирами при составлении планов конструирования новой шкалы и принятии решений. Например, разделение типов заданий на надежные субтесты было необходимой заменой традиционной клинической практики нестрогого анализа структуры ответов на основе субъективных группировок заданий.

После первичного выбора и предварительного определения конструктов, оцениваемых в SB-IV, были идентифицированы старые и разработаны новые задания, соответствующие этим определениям. Вся совокупность заданий подвергалась всестороннему и статистически изощренному анализу, включая как субъективную, так и статистическую оценку необъективности задания (R. L. Thorndike et al., 1986b, chap. 2). Окончательная версия шкалы, полученная в результате нескольких предварительных проверок и полевых испытаний, была проведена на выборке стандартизации и затем исследована в аспекте трех основных типов данных валидизации: 1) интеркорреля-Ции и факторного анализа показателей; 2) корреляции с другими тестами интеллекта и 3) сравнения результатов в заранее установленных особых группах (Thorndike et al., 1986b, chap. 6).

Прежде всего, по данным полной выборки стандартизации вычисляли интеркорреляции между показателями всех тестов, частными показателями для четырех когнитивных областей и комплексными показателями батареи — отдельно по каждому в°зрастному уровню. Медианные корреляции (найденные ранжированием однотипных коэффициентов для всех возрастов) использовали в качестве исходных данных Для конфирматорного (подтверждающего) факторного анализа. Главной целью этого аНализа была проверка гипотезы о наличии общего фактора, объясняющего корреля-

238

Часть 3. Тестирование способностей

ции между тестами из разных когнитивных областей, и групповых факторов, объясняющих остаточные корреляции внутри каждой области. Аналогичный факторный анализ также проводился с медианными корреляциями в каждой из трех возрастных групп (от 2 до 6, от 7 до 11 и от 12 до 18-23 лет).

Результаты факторного анализа в каждом случае показали существенные нагрузки общего фактора во всех тестах, оправдывая таким образом использование общего комплексного показателя. Для трех из четырех когнитивных областей групповые факторы объяснили значительную долю остаточной общей дисперсии внутри соответствующей области. Исключение составила область «абстрактного/наглядного рассуждения», где все четыре теста обнаружили высокую степень специфичности. Можно высказать предположение, что неспособность найти ясное подтверждение группового фактора в этой когнитивной области могла быть связана с кумулятивными эффектами школьного курса обучения, которое не так тщательно организовано в отношении пространственно-перцептивного содержания, как в отношении словесного и числового материала. Повседневный личный опыт, способствующий развитию пространственно-перцептивных способностей, не организуется систематически в «учебные курсы» или области содержания, подобно опыту, связанному с обучением. Поэтому менее вероятно, что личный опыт благоприятствует формированию общих структур связей у различных людей (Anastasi, 1970,1986b).

Обзор результатов факторного анализа, приведенных в руководстве к тесту, так же как и результаты факторного анализа, проведенного независимо другими исследователями по данным стандартизации SB-YV, подтвердили правомерность использования комплексного показателя как меры общей интеллектуальной способности (R. M. Thor-ndike, 1990). Однако исследователи расходятся в том, что касается числа и природы более узких факторов (см. также McCallum, 1990). Эта ситуация осложняется тем, что поскольку SB-YV состоит из различных наборов тестов в разных возрастах, «сырые» данные для факторного анализа (т. е. корреляции между тестовыми показателями) различаются соответственно. Отсюда и различия в типах и количестве факторов — в пределах от двух до четырех, — появляющиеся на разных возрастных уровнях. Эти расхождения усугубляются разнообразием применяемых в разных исследован иях способов факторного анализа. Однако, в общем, с увеличением возраста испытуемых факторное решение лучше соответствует четырехфакторной модели, постулированной при разработке SB-IV, в особенности при использовании конфнрматорпого факторного анализа в противоположность эксплораторному (разведочному).

Второй источник данных валидизации основан на серии исследований групп, в которых проводился SB-YV и какой-нибудь другой тест интеллекта, включая форму L-Мсамой шкалы Стэнфорд—Бине.1 Эти группы состояли из школьников, систематически посещающих занятия и охарактеризованных учителями как «обычные» (non-exceptional). Кроме того, в распоряжении исследователей были три «особые» (exceptional) группы учащихся, занимавшихся по программам для одаренных детей, детей с трудностями в обучении и детей с задержкой психического развития. В обычной выборке корреляция стандартного IQ по более ранней редакции шкалы Стэнфорд— Бине (форма 1-М) с комплексным показателем по 56-IV составила 0,81; второй по величине (0,76) оказалась корреляция стандартного IQформы L-Mc частным пока-

1 К числу других относились WISC-R, WAIS-R, WPPSI и К-АВС, которые будут рассмотрены в это» главе чуть позже.

Глава 8. Индивидуальные способности

239

зателем SB-W в области «вербального рассуждения», а самую низкую корреляцию (0,56) стандартный /Qдал с частным показателем SB-W в области «абстрактного/наглядного рассуждения», что и следовало ожидать исходя из сходства и различия в содержании этих двух форм шкалы Стэнфорд—Бине. Во всех группах корреляции комплексного и частных показателей SB-IV с общим или парциальными показателями по другим тестам интеллекта большей частью не противоречили гипотезам в отношении тестируемых конструктов. В то же время тщательное изучение всех корреляций, обнаруженных между специфическими показателями SB-W и других тестов интеллекта способствует более твердому пониманию конструктов, измеряемых современной шкалой Стэнфорд—Бине.

Третья серия специальных исследований на особых выборках показала, что SB-IW позволяет правильно определять уровень выполнения одаренных, имеющих трудности в обучении и отстающих в развитии детей школьного возраста. Средние комплексного показателя и четырех частных показателей в выборке одаренных оказались существенно выше соответствующих средних в выборке стандартизации. Средние в выборках детей с трудностями в обучении и с задержкой психического развития были значимо ниже средних выборки стандартизации, а средние умственно отсталых — значимо ниже средних в выборке имеющих трудности в обучении. Следует заметить, что во всех исследованиях особых групп их участники определялись на основе тестов или других показателей деятельности, но сама шкала SB-1V при этом не использовалась.

В более позднем обзоре исследований валидности SB-W (Laurent, Swerdlik, & Ry-burn, 1992) делается вывод, что эта шкала является, по меньшей мере, столь же хорошим средством измерения общей интеллектуальной способности, как и другие имеющиеся в наличии средства; что она сильно коррелирует с мерами достижения и к тому же позволяет различать умственно отсталых, одаренных и больных с неврологическими повреждениями. Авторы обзора предполагают, что SB-IV можно использовать в качестве инструмента отбора при оценивании одаренных детей вследствие высокого «потолка», обеспечиваемого возрастным диапазоном этого теста; с другой стороны, они критикуют SB- IV за отсутствие предельно легких заданий — достаточно простых, чтобы диагностировать задержку умственного развития у самых маленьких детей.

Исследования, необходимые для усиления интерпретационного значения показателей различных тестов SB-W и их комбинаций, продолжают быстро накапливаться. В добавление к этому появилось несколько работ, в которых даны методические указания по использованию этой шкалы (Sattler, 1988; Glutting, & Kaplan, 1990; Kampha-us, 1993). Современная редакция Стэнфорд—Бине отражает истинный прогресс в конструировании шкалы. 55-IV обеспечивает необходимую гибкость, позволяя пользователям оценивать отдельные способности в соответствии с конкретными целями тестирования. Наконец, эта версия шкалы гораздо лучше согласуется с современными теоретическими представлениями о природе интеллекта и свежими данными исследований в этой области (см. главу 11).

i -

Шкалы Векслера

Разработанные Дэвидом Векслером шкалы интеллекта включают несколько последовательных редакций трех шкал: для взрослых, для детей школьного возраста и ^ля дошкольников. Помимо их использования для измерения общего интеллекта век-

240

Часть 3. Тестирование способностей

слеровские шкалы пробовали применять в качестве вспомогательного средства психиатрического диагноза. Опираясь на наблюдение, что повреждения мозга, психотические обострения и эмоциональные расстройства могут избирательно воздействовать на интеллектуальные функции, Д. Векслер и другие медицинские психологи утверждали, что сравнительный анализ выполнения пациентом разных субтестов мог бы пролить свет на специфику психического расстройства. Проблемы и результаты, относящиеся к такому анализу профиля шкал Векслера, будут рассмотрены в главе 17 как пример использования тестов в условиях клиники.

Об интересе к шкалам Векслера и широте их применения свидетельствуют несколько тысяч посвященных им публикаций, появившихся к настоящему времени. Помимо обычных обзоров по тестам в Ежегодниках психических измерений исследования, касающиеся шкал Векслера, периодически освещаются в журналах (Guertin, Frank, & Rabin, 1956; Guertin, Ladd, Frank, Rabin, & Hiester, 1966; Guertin, Ladd, Frank, Rabin, & Hiester, 1971; Guertin, Rabin, Frank, & Ladd, 1962; T. D. Hill, Reddon, & Jackson, 1985; Littell, 1960; Rabin, & Guertin, 1951; I. L. Zimmerman, & Woo-Sam, 1972) и обобщены в нескольких книгах (например, Forster & Matarazzo, 1990; Gyurke, 1991; Kamp-haus, 1993; Kaufman, 1979,1990,1994; Sattler, 1988,1992).

Прошлое и настоящее векслеровских шкал интеллекта. Первая форма шкал Векслера, известная как шкала интеллекта Векслера—Белльвью, была опубликована в 1939 г. Одной из главных целей подготовки этой шкалы была разработка теста интеллекта, пригодного для тестирования взрослых людей. Представляя впервые эту шкалу, Д. Векслер (Wechsler, 1939) отмечал, что доступные ранее тесты интеллекта разрабатывались главным образом для школьников и адаптировались для взрослых добавлением более трудных заданий того же типа. Содержание таких тестов часто не представляло никакого интереса для взрослых людей. Если задания теста не обладают хотя бы минимумом очевидной валидности, то практически невозможно установить должный раппорт со взрослыми испытуемыми. Многим заданиям теста интеллекта, специально составленным с учетом повседневных занятий ребенка школьного возраста, явно не хватает очевидной валидности с точки зрения большинства взрослых.

Ориентировка большинства тестов на скорость выполнения может также ставить в невыгодные условия пожилых людей. Кроме того, Д. Векслер считал, что в традиционных тестах интеллекта неоправданно большое значение придавалось относительно шаблонным манипуляциям словами. Он обратил внимание коллег на неприменимость норм умственного возраста к взрослым и указал на то, что прежние выборки стандартизации для индивидуальных тестов интеллекта включали лишь незначительное число взрослых.

Стремление преодолеть все эти недостатки и привело к разработке первой шкалы Векслера—Белльвью. По форме и по содержанию эта шкала служит базисной моделью для всех последующих векслеровских шкал интеллекта, каждая из которых, в свою очередь, вносила некоторые усовершенствования в предшествующую ей версию. В 1949 г. была подготовлена Векслеровская шкала интеллекта для детей {W1SO как расширение шкалы Векслера—Белльвью в сторону более низких возрастных уровней (Seashore, Wesman, & Doppelt, 1950). Многие задания были взяты непосредственно из теста для взрослых, и в каждый субтест были добавлены более легкие задания того же типа. В 1955 г. шкала Векслера—Белльвью была вытеснена ВекслеровскоИ шкалой интеллекта для взрослых ( WAIS), свободной от некоторых технических не-

Глава 8. Индивидуальные способности

241

достатков прежней шкалы, касающихся объема и репрезентативности нормативной выборки, а также надежности субтестов. В 1967 г. семейство тестов Векслера пополнилось еще одним, «самым младшим ребенком» — Векслеровской шкалой интеллекта для дошкольников и младших школьников (WPPSP), первоначально задуманной для детей от 4 до 6,5 лет как расширение нижней области возрастного диапазона WISC, которая предназначалась для детей от 5 до 15 лет.

Разработка WISC с самого начала была отмечена известными противоречиями, так как Векслер приступил к созданию своих тестов отчасти из-за острой потребности в такой шкале для измерения интеллекта взрослых, которая не была бы простым расширением имеющихся на тот момент шкал для детей в сторону более высоких возрастных уровней. Первая редакция WISC была фактически полностью раскритикована за недостаточную ориентацию ее содержания на детей. В пересмотренной редакции этой шкалы ( WISC-R), изданной в 1974 г. и предназначавшейся для детей от 6 до 16 лет, ориентированные на взрослых задания были заменены или изменены таким образом, чтобы приблизить их содержание к обычному детскому опыту. В арифметическом субтесте, например, в условиях задачи «сигары» были заменены «конфетами». Другие изменения состояли в исключении заданий, которые могли быть в разной степени знакомы отдельным группам детей, и включении большего количества женских и негритянских персонажей в наглядный материал субтестов. Ряд субтестов пришлось удлинить в целях повышения их надежности. Кроме того, были внесены некоторые усовершенствования в процедуры проведения теста и подсчета баллов.

Описание шкал. К настоящему времени каждая из трех шкал Векслера подверглась хотя бы одной, а то и нескольким переработкам. Современных версий шкал, опубликованных под именем Дэвида Векслера уже после его смерти в 1981 г., три: Пересмотренная шкала интеллекта взрослых Векслера (WAIS-R — Wechsler, 1981), охватывающая возрастной диапазон от 16 до 74 лет; Векслеровская шкала интеллекта для детей — Третья редакция ( WISC-III —Wechsler, 1991), предназначенная для детей от 6 лет до 16 лет 11 месяцев; Пересмотренная Векслеровская шкала интеллекта для дошкольников и младших школьников ( WPPSI-R — Wechsler, 1989), покрывающая теперь возрастной диапазон от 3 лет до 7 лет 3 месяцев. Третью редакцию шкалы интеллекта взрослых ( WAIS), работа по усовершенствованию которой велась с 1992 г., предполагается подготовить к 1997 г.

WAIS-R, WISC-III и WPPSI-R имеют много общих черт, включая основную организацию Вербальной и Невербальной шкал, каждая из которых состоит минимум из пяти (а максимум из семи) субтестов и дает отдельные показатели в единицах стандартного IQ Индивидуальные показатели но всем 10 систематически проводимым субтестам (11 для WAIS-R) объединяются в Полную шкалу IQ (Full Scale IQ), которая имеет то же среднее и стандартное отклонение (М= 100, SD = 15), что и две подшкалы — Вербальная и Невербальная. Из 17 различных видов субтестов, используемых в WAIS-R, WlSC -Ши WPPSI-R, восемь (5 вербальных и 3 невербальных) являются общими для всех трех шкал. При применении этих шкал вербальные и невербальные субтесты чередуются и предъявляются в заранее установленной последовательности, своей для каждой шкалы.

Субтест «Осведомленность» — первый вербальный субтест, предъявляемый во всех трех шкалах и служащий хорошим средством установления раппорта с тестируемым. Было затрачено немало усилий, чтобы избежать в нем вопросов, касающихся специ-

242

Часть 3. Тестирование способностей

альных знаний. Его первые задания достаточно легки для того, чтобы с ними справились подавляющее большинство тестируемых, если только они не страдают умственной отсталостью или нарушением ориентации в действительности. В таких случаях тестирующий может быстро принять решение о прекращении тестирования. Вопросы субтеста «Осведомленность» в версиях WAIS-R и WISC-III касаются фактов, о которых большинство живущих в США скорее всего имело шанс узнать, например: «Какой месяц наступает перед декабрем?» или «Кем был Марк Твен?» В версии WPPSI-R предлагаются аналогичные вопросы, хотя и на более низком уровне трудности. На самом деле, эта версия начинается с заданий, предъявляемых в изобразительной форме, которые требуют только показать правильный ответ. Например, при предъявлении картинки с изображением нескольких бытовых предметов ребенка могут спросить, какой из них используется для уборки. Субтест «Арифметический» — еще одна вербальная мера, демонстрирующая широкий диапазон трудности на группе шкал Век-слера. В самых легких арифметических заданиях WPPSI-R требуется показать только один предмет в ряду, иллюстрирующем количественное понятие (такое, как «самый маленький» или «больше»). Более сложные задания могут быть связаны с вычислениями или решением арифметических задач, самые трудные из которых требуют хорошего усвоения дробей.

Невербальные субтесты (или, по-другому, субтесты действия) шкал Векслера обычно требуют манипулирования различными объектами, такими как части разрезанных фигур и кубики, или визуального обследования печатных материалов наподобие картинок или набора символов. Все они устанавливают временные лимиты для тестируемого, которому в большинстве случаев начисляются к тому же дополнительные баллы за скорость. В противоположность этому, в Вербальной шкале только один субтест (Арифметический) является скоростным. Субтест «Недостающие детали» — невербальный субтест, используемый во всех трех шкалах Векслера; он требует от тестируемого определить, какой важной части недостает в изображениях знакомых предметов или обычных сцен. Задания для ранних возрастов рассчитаны на простое визуальное обследование, — например, как в случае предъявления изображения животного с отсутствующей конечностью. В более трудных заданиях для установления недостающего элемента необходимо дедуктивное рассуждение, специальное знание или то и другое вместе. На рис. 8-3 показаны два относительно легких задания на установление недостающих деталей, аналогичных используемым в шкалах Векслера.

Сокращенные шкалы. Со времени выхода в свет первой шкалы Векслера—Белль-вью было предложено множество сокращенных шкал ( abbreviated scales ) или кратких форм ( short forms ) тестов Векслера. Цель этих сокращенных шкал — существенно сократить время тестирования при получении показателя IQ в Полной шкале, который можно оценить на основе опубликованных норм. Самый простой способ построения таких более коротких форм — опустить некоторые из субтёстов и пропорционально распределить показатели. Кроме того, сокращенные шкалы создавали путем уменьшения числа заданий в субтестах.

То, что некоторые комбинации субтестов имеют корреляции с показателями IQ Полной шкалы, превышающие 0,90, стимулировало разработку и использование сокращенных шкал для целей быстрого отсеивания обследуемых. Были проведены обширные исследования, чтобы установить наиболее эффективные комбинации двух, трех, четырех и пяти субтестов в предсказании IQ по Вербальной, Невербальной И

Глава 8. Индивидуальные способности

243

Рис. 8-3. Два задания на установление недостающих деталей, аналогичные используемым в Пересмотренной Векслеровской шкале интеллекта для дошкольников и младших школьников

( С любезного разрешения The Psychological Corporation)

244

Часть 3. Тестирование способностей

Полной шкалам (Matarazzo, 1972; McCusker, 1994; Sattler, 1988, 1992). По большей части в этих работах использовали данные стандартизации, но несколько исследований было проведено на специфических популяциях, таких как пациенты психиатрических клиник и умственно отсталые.

На составление и проверку кратких форм шкал Векслера было затрачено чрезвычайно много сил и энергии. Несмотря на это, неоднократно поднимались вопросы о качестве существующих процедур, используемых при получении сокращенных шкал из полных (Silverstein, 1990). Например, допущение о том, что нормы исходной Полной шкалы применимы к пропорционально распределенным суммарным показателям по кратким шкалам, может быть не всегда обоснованным. Кроме того, многие качественные наблюдения, которые делает возможным применение индивидуальной шкалы, теряются при использовании сокращенных шкал. Поэтому, вероятно, нецелесообразно использовать такие сокращенные версии кроме тех случаев, когда требуются грубые инструменты отсеивания.

Нормы и получение показателей. К формированию выборок стандартизации самых последних шкал Векслера подходили с особой осторожностью, чтобы обеспечить их репрезентативность. Нормативные выборки включали примерно по 2000 испытуемых для каждой шкалы, уравненных по полу и распределенных по соответствующим возрастным группам. Испытуемых отбирали таким образом, чтобы выборки как можно точнее соответствовали данным последних отчетов Бюро переписи населения США, доступным на момент стандартизации, с учетом таких переменных, как географический район, расовая или этническая принадлежность, профессиональный и образовательный уровень. В случае детей учитывался профессиональный уровень родителей. С каждым последующим пересмотром шкал, переменные, используемые в плане стратифицированного отбора испытуемых, несколько изменялись в направлении, обеспечивающем большую инклюзивность выборок стандартизации. Например, категория этнической принадлежности при стандартизации WISC-HI включала четыре группы (белые, черные, испаноязычные и прочие), тогда как стандартизация более ранней версии WISC-R проводилась на выборке, стратифицированной по этой переменной только на две группы (белые или небелые). К тому же в отличие от более ранних шкал, выборка стандартизации WISC-III включала в качестве особо выделенной репрезентативную группу учащихся, получающих специальные услуги в условиях школы, такие как обучение детей-инвалидов и работа с одаренными детьми.

Популярность шкал Векслера, которые в настоящее время являются наиболее широко используемыми индивидуальными тестами интеллекта, стала причиной ряда исследований, задуманных с целью расширения их пригодности. Так, в составе серии нормативных исследований, проводимых на пожилых американцах в клинике Мэйо (Mayo Clinic), с целью получения нормативных данных для WAIS-R за пределами самой старшей возрастной группы выборки стандартизации были обследованы 222 человека в возрасте от 56 до 97 лет (Ivnik et al., 1992). В другом исследовании были составлены нормы на основе данных, полученных при обследовании 130 человек в возрасте старше 75 лет (Ryan, Paolo, & Brungardt, 1990).

Первичные показатели по каждому субтесту шкал Векслера преобразуются в стандартные показатели со средним значением, равным 10, и SD = 3. Таким образом, все нормированные показатели субтестов выражаются в сравнимых единицах. Затем эти показатели субтестов, соответствующих Вербальной, Невербальной и Полной шка-

Глава 8. Индивидуальные способности

245

лам, складываются и преобразуются в стандартные показатели со средним, равным 100, и SD = 15, называемые «стандартным IQ». Кроме того, WISC-III лает четыре дополнительных, основанных на результатах факторного анализа, балльных индекса {index scores), а именно: Индекс Вербального Понимания {Verbal Comprehension [VCI\), Индекс Перцептивной Организации {Perceptual Organization [РОЛ.), Индекс Внимательности {Freedom from Distractibility [FDT]) и Индекс Скорости Обработки Информации {Processing Speed [PS/]). Состав этих индексов имеет тесное сходство с составом факторов, типично выделяемых в результате факторного анализа более ранней версии WISC-R многими независимыми исследователями. Эти новые индексы основаны на комбинациях двух или четырех субтестов и имеют среднее, равное 100, и SD = 15. Каждая из трех шкал Векслера дает информацию, необходимую для оценки индивидуального результата по любым отдельным субтестам и их группам исходя из соответствующих возрастных норм.

Надежность. Векслеровские шкалы предоставляют информацию о коэффициентах надежности эквивалентных половин для показателя каждого субтевта,1 балльного индекса и IQ по всем возрастным группам. Для всех шкал Векслера соответствующие коэффициенты надежности IQ Полной шкалы колебались от 0,90 до 0,98, IQ Вербальной шкалы — от 0,86 до 0,97 и IQ Невербальной шкалы — от 0,85 до 0,94. Четыре балльных индекса WISC -Ш получили коэффициенты надежности эквивалентных половин в диапазоне от 0,80 до 0,95. Как можно было ожидать, надежность субтестов оказалась несколько ниже. Что касается трех обсуждаемых нами шкал Векслера, надежность входящих в них субтестов колебалась от 0,52 до 0,96, при этом подавляющее большинство субтестов дало коэффициенты надежности выше 0,70. Надежность субтестов особенно важно учитывать при оценивании значимости различий между показателями субтестов одного и того же человека, как в случае анализа профиля (J. H. Kramer, 1990,1993; Sattler, 1988,1992). В руководствах к шкалам Векслера также приводятся стандартные ошибки измерения для всех видов показателей. Для IQ Вербальной шкалы такие ошибки варьируют от 2,50 до 4,98 единиц, для IQ Невербальной шкалы — от 3,67 до 4,97 единиц, а для IQ Полной шкалы все они меньше 4,00 единиц. Таким образом, мы можем, к примеру, заключить: шансы того, что истинное значение IQ Полной шкалы у конкретного человека отстоит не больше чем на 4 единицы от IQ, полученного им по Полной шкале, составляют примерно 2:1.

Данные по ретестовой надежности (устойчивости) показателей шкалы Векслера собирались более тщательно, при каждом ее пересмотре. Коэффициенты устойчивости, в тенденции, выше для взрослых, чем для детей. Ретестовые исследования неизменно показывают прирост от 2 до 13 единиц в различных показателях /Qot первого ко второму тестированию, интервал между которыми составляет от 12 дней до 9 недель; при этом IQ Полной шкалы типично возрастает на 5-7 единиц. Такой ожидаемый эффект упражнения, хотя и незначительный, следует принимать в расчет при повторном тестировании испытуемых через короткий промежуток времени.

Руководства по WPPSI-R и WISC-III— самые последние в серии руководств, последовательно совершенствуемых со временем. Среди многих заслуживающих внима-

За исключением тех субтестов, для которых коэффициент надежности эквивалентных половин неприменим, т. е. субтестов «Цифровые символы» (Digit Symbol), «Кодирование» (Coding), «Дом животного» (Animal Pegs), «Поиск символов» (Symbol Search) и «Повторение цифр» (Digit Span).

246

Часть 3. Тестирование способностей

ния особенностей этих руководств — включение коэффициентов надежности оценщика для субтестов, которые требуют при начислении баллов опоры на субъективные суждения. Эти данные свидетельствуют о том, оценивание ответов по таким субтестам могут производить с приемлемой надежностью только получившие специальную подготовку и практический опыт работы пользователи теста. Еще одно новшество в руководствах по этим шкалам — предоставление довольно большого количества данных, касающихся внутрииндивидных различий показателей. В добавление к таблицам, показывающим степень различий, необходимых для достижения статистической значимости, в этих руководствах приводятся частоты различий, обнаруженных внутри выборки стандартизации. Информация такого рода имеет особую ценность при клиническом использовании рассматриваемых шкал (см. главу 17).

Валидность. Нигде улучшение в ходе последовательного совершенствования руководств к шкалам Векслера не было столь выраженным, как в области валидности. В 1981 г., когда была опубликована WAIS-R, в руководстве к этой шкале не было никаких данных о ее валидности кроме результатов двух корреляционных исследований, в которых оценивались связи между показателями WAIS-R и более ранних шкал Векслера. Сведений о валидности в нем было даже меньше, чем в руководствах по WPPSI и WISC-R, которые по крайней мере содержали данные о корреляции показателей этих шкал с показателями других тестов интеллекта, таких как шкала Стэнфорд— Бине. Однако ограниченный охват данных о валидности в старых руководствах к шкалам Векслера в какой-то мере компенсировался значительным объемом опубликованных независимых исследований валидности всех этих шкал.1 Отчасти недостаточное внимание к сведениям о валидности в руководствах к шкалам Векслера было вызвано убеждением Дэвида Векслера в том, что задачи в его шкалах охватывают диапазон специфических способностей, вполне достаточный для обеспечения валидной оценки общего интеллекта (Wechsler, 1958; Zachary, 1990).

Трактовка валидности Д. Векслером отражала, по существу, ориентацию на описание содержания, хотя и содержала некий подтекст, связанный с подходом к валидиза-ции через идентификацию конструкта с минимальным привлечением подтверждающих данных. Например, корреляции между шкалами Векслера и другими глобальными мерами интеллекта, такими как шкала Стэнфорд—Бине, группируются около 0,80. В дополнение к этому, результаты факторного анализа полученных с помощью шкал Векслера данных, проводимого независимыми исследователями на протяжении целого ряда лет, обнаружили удивительную согласованность. Во всех группах почти неизменно выделялся вербальный фактор и фактор перцептивной организации (или невербальный). В шкалах для более старших детей и взрослых типично выявлялись дополнительные факторы памяти и/или внимания. Использование шкал Векслера в профессиональном и образовательном отборе было оправдано, в известной степени, данными о различиях в ожидаемом направлении между разными группами.

Напротив, данные о всех типах валидности самых последних шкал Векслера представлены в изобилии. В руководствах по WPPSI-R и WISC-IIIобсуждению валидности посвящено 21 и 38 страниц соответственно, в противоположность 2 страницам,

1 См. Dean, 1977, 1979, 1980; Gutkm, & Reynolds, 1981; G. P. Hollenbeck, & Kaufman, 1973; Karnes, & Brown, 1980; Kaufman, 1975; Kaufman, & Hollenbeck, 1974; Leckliter, Matarazzo, & Silverstein, 1986; Silverstein, 1982a, 1982b; Waller, & Waldman, 1990.

Глава 8. Индивидуальные способности

247

отведенным этой теме в руководстве по WAIS-R. Данные, относящиеся к валидизации конструкта, получены путем интеркорреляций субтестов и факторного анализа показателей. Усредненные (по всем возрастным группам) интеркорреляции между Вербальной и Невербальной шкалами, полученные на выборке стандартизации, составляют 0,74 для WAIS-.R, 0,66 для WISC -Ши 0,59 для WPPSI-R; величина коэффициентов свидетельствует о наличии значительного общего фактора, что подтверждается большинством результатов факторного анализа трех этих шкал.

Исследования с применением факторного анализа девяти возрастных групп выборки стандартизации WAIS-R по большей части говорят о том, что наилучшим объяснением корреляций между 11 субтестами служит трехфакторная модель. Выделяемые факторы, которые, по-видимому, можно распространить на различные типы выборок, включают Вербальное понимание, Перцептивную организацию и Память/Внимательность (Leckliter et al., 1986; Waller, & Waldman, 1990). Анализ того же типа, проведенный с данными стандартизации WPPSI-R и описанный в руководстве и в других источниках, дает двухфакторное решение, согласующееся с организацией субтестов в Вербальную и Невербальную шкалы (Blaha, & Wallbrown, 1991; LoBello, & Gulgoz, 1991;B.J. Stone, Gridley, & Gyurke, 1991). С другой стороны, данные no WISC-III, с самого начала подвергавшиеся как разведочному, так и подтверждающему факторному анализу, результаты которого описаны в руководстве к этой шкале, лучше всего согласуются с четырехфакторной моделью, включающей такие факторы, как Вербальное понимание, Перцептивная организация, Внимательность и Скорость обработки информации. Эти четыре фактора и были введены в состав стандартных показателей WISC-III.

В руководствах по WPPSI-R и WISC-III также представлены данные о валидности из многочисленных исследований (хотя и с мало подходящими выборками), в которых устанавливаются корреляции этих двух шкал с другими индивидуально проводимыми тестами. В случае WISC-III приводятся еще корреляции с групповыми тестами достижений и школьными оценками. Кроме того, диагностическая или прогностическая (в отношении критерия) полезность WISC-III и WPPSI-R изучалась в серии исследований особых групп, включая одаренных, умственно отсталых, испытывающих трудности в обучении и другие типы детей.

Заключительные замечания по шкалам Векслера

Последовательные редакции трех шкал Векслера отражают возрастающий уровень изощренности и опыта в конструировании тестов, соответствующий сменявшимся Десятилетиям, в которые они разрабатывались. По сравнению с другими индивидуально проводимыми тестами главные достоинства этих шкал связаны с объемом и репрезентативностью выборок стандартизации, особенно для совокупностей взрослых и детей дошкольного возраста, а также с техническими характеристиками нроце-ДУР> применяемых при их конструировании. Следует особо отметить уровень рассмотрения вопросов надежности и валидности в руководстве по WISC-III. Популярность шкал Векслера гарантирует им постоянно расширяющуюся базу исследований, По крайней мере на какое-то время. К тому же для их пользователей доступно множество вспомогательных материалов, таких как программы машинной интерпретации Данных, руководства для подготовки специалистов по тестированию (например, Fan-tuzzo, Blakey, & Gorsuch, 1989) и руководства по интерпретации результатов тести-

248

Часть 3. Тестирование способностей

рования (например, Kaufman, 1994; Nicholson, & Alcorn, 1994; Whitworth, & Sutton, 1993). Однако некоторые критики отмечают, что даже самые последние, наиболее усовершенствованные версии шкал Векслера вскоре могут устареть и стать ненужными в свете современных требований к связям между инструментами оценивания и стратегиями вмешательства (Shaw, Swerdlik, & Laurent, 1993; Sternberg, 1993). В этом отношении самой уязвимой стороной всех шкал Векслера была и остается слабость их теоретического обоснования, препятствующая нахождению прочной и связной основы для интерпретации результатов тестирования. Кроме того, структура этих шкал, по-видимому, основана на предположении, что области способности, «простукиваемые» входящими в них субтестами, остаются одними и теми же (судя по внешнему сходству тестовых материалов и задач) на всех возрастных уровнях. Тем не менее это предположение может оказаться несостоятельным в свете того, что нам уже известно о возрастных изменениях интеллекта на протяжении жизни (см. главу 11).

Шкалы Кауфиана

Шкалы Кауфмана — это клинические инструменты индивидуального применения, предназначенные для использования во многих областях, для которых были разработаны и в которых традиционно применялись такие тесты, как шкалы Стэнфорд— Бине и Векслера (Kaufman, & Kaufman, 1983a, 1983b, 1990, 1993). Разработанные в период с 1980-х по начало 1990-х гг. шкалы Кауфмана вобрали в себя последние достижения в области конструирования тестов. Оценочная батарея Кауфмана для детей {Kaufman Assessment Battery for Children [K-ABC] — Kaufman, & Kaufman, 1983a, 1983b) и особенно Тест интеллекта подростков и взрослых Кауфмана {Kaufman Adolescent and Adult Intelligence Test [KAIT] — Kaufman, & Kaufman, 1993) представляют собой попытки со стороны их авторов, — участвовавших, кстати, в разработке WISC-R, — преодолеть чисто эмпирическую позицию, преобладавшую при создании более ранних шкал интеллекта. Они стремились создать инструменты, которые по замыслу были бы привязаны к развивающимся теориям интеллекта, включали соответствующие возрастному развитию задачи и давали полезную информацию для разнообразных ситуаций оценивания.

Оценочная батарея Кауфмана для детей (K-ABQ

Сущность и построение. Конструирование К- ABC началось с определения подлежащих оцениванию конструктов. В соответствии с генеральной линией когнитивной психологии главное внимание было уделено обработке информации. Выбранный в данном случае подход разграничивает параллельную обработку информации, оцениваемую семью субтестами, и последовательную обработку, оцениваемую тремя субтестами ( J . P. Das, 1984; Das, Kirby, & Jarman, 1975,1979; Das, & Molloy, 1975; Kaufman, & Kaufman, 1983b, chap. 2; Luria, 1966). Субтесты шкалы «Параллельная обработка информации» требуют синтеза и организации пространственных образов и зрительно воспринимаемого содержания, которые могут обозреваться как нечто целое. Субтесты шкалы «Последовательная обработка информации» требуют сериальной или временной организации; они предполагают использование вербального, числового и зрительно воспринимаемого содержания, а также кратковременной памяти. Несколько

Глава 8. Индивидуальные способности

249

задач, представленных в объединенной шкале «Умственная обработка информации», имеют сходство с задачами, используемыми в нейропсихологическом обследовании (см. главу 17), и были выбраны как раз по этой причине.

Эта батарея включает, кроме того, «Шкалу достижения», содержащую шесть субтестов. Несмотря на то, что входящие в эту шкалу субтесты оценивают умения читать и выполнять арифметические действия, знание слов и общую осведомленность, их конструировали вовсе не для измерения фактуальных знаний, которым учат в школе. Они гораздо более похожи на задачи, включаемые в традиционные тесты интеллекта или способностей, чем на задания традиционных тестов учебных достижений. В арифметическом тесте, например, ребенок рассматривает серию картинок о семье, пришедшей в зоопарк, и должен реагировать считая на каждой картинке изображенные объекты или выполняя с ними простые числовые операции. Понимание прочитанного демонстрируется выполнением действий, описанных в каждом предложении, которое ребенок читает.

К-АВС выла стандартизована на национальной выборке, включавшей 2000 детей в возрасте от 2,5 до 12,5 лет. В дополнение к этому было протестировано несколько групп черных и белых детей с целью разработки социокультурных норм с учетом расы и образования родителей — полезного дополнения для более адекватной интерпретации результатов. К тому же К-АВС изначально создавалась таким образом, чтобы ее можно было приспособить к потребностям тестирования особых групп, таких как дети-инвалиды и дети, принадлежащие к культурным и языковым меньшинствам, а также использовать как вспомогательное средство при диагностике трудностей в обучении (Kamphaus, Kaufman, & Harrison, 1990). Эта батарея дает четыре общих показателя: «Последовательная обработка информации» ( SequentialProcessing ), «Параллельная обработка информации» ( Simultaneous Processing ), «Умственная обработка информации» ( MentalProcessing Composite ) — совокупный показатель, объединяющий первые два, и «Достижение» ( Achievement ). Каждый из них представляет собой стандартный показатель со средним, равным 100, и SD - 15.

Общая оценка. К-АВС обладает многими достоинствами как технического, так и практического характера.1 В соответствии с духом времени, распространенной тенденции относить детей к той или иной категории на основе единственной числовой оценки, такой как IQ , здесь ставится надежный заслон благодаря использованию множественных показателей, разных вариантов анализа профиля и диагностических интерпретаций, особенно удачно описанных в главах 5 и б Руководства по интерпретации результатов К-АВС ( Interpretive Manual — Kaufman, & Kaufman, 1983 b). В главе 6 этого руководства дана блестящая иллюстрация цикла порождения и проверки гипотезы, который составляет сущность клинического подхода к диагностике. Кроме того, пытаясь рассеять некоторые неверные представления, получившие широкое распространение, создатели этой батареи открыто заявляют во вступительной главе Руководства по интерпретации... (Kaufman, & Kaufman, 1983b, p. 20-24), что К-АВС не является «мерилом врожденных или неизменных способностей», добавляя при этом, что «все когнитивные задачи рассматриваются в качестве критериев того, чему индиви-

Что касается критических обзоров и дискуссий, см. прежде всего Т. L. Miller (1984). См. также Anastasi (1984a, 1985c), Coffman (1985), Kamphaus (1990), Kline, Snyder, & Castellanos (1996), Page (1985).

250

Часть 3. Тестирование способностей

дуум научился». Они откровенно предупреждают, что К-АВС, подобно любому другому тесту, нельзя считать «завершенной тестовой батареей» и следует дополнять другими инструментами в соответствии с индивидуальными потребностями.

Но вопреки предостерегающим заявлениям авторов, употребление ими термина «тесты достижений», возможно, было неудачным выбором из-за преобладания ошибочных представлений об отношении между тестами способностей и тестами достижений. Тест можно уверенно отнести к категории тестов достижений, когда он тесно связан со специфическим, поддающимся четкому определению, содержанием обучения, которое тестируемые, предположительно, должны пройти. Однако этого нельзя сказать в отношении тестов, обозначенных как «тесты достижения» в батарее К-АВС, при создании которой прилагались специальные усилия, чтобы отделить ее тесты от специфических знаний, приобретаемых в классе. Фактически, внутри континуума развиваемых способностей, эти тесты гораздо ближе к концу способностей {aptitude), чем к концу достижений {achievement), — вывод, подтверждаемый интеркорреляциями субтестов. Поэтому вряд ли можно считать оправданным употребление терминологии, которая приобрела дополнительные значения, несет в себе непреднамеренные импликации и поддерживает распространенные заблуждения.

Формулировка в явном виде теоретической основы как руководства для составления спецификации задач и разработки заданий в К-АВС явилась желанным нововведением, согласующимся с принципами конструирования хороших тестов. И хотя прошло уже более десяти лет с момента выпуска этой батареи, остаются вопросы по поводу того, была ли выбранная ее создателями теоретическая ориентация наилучшей для достижения намеченных целей. В частности, высказывались сомнения в том, что различение параллельной и последовательной обработки информации может служить основой для понимания результатов выполнения К-АВС, и приводились доводы в пользу того, что два набора субтестов, названных в соответствии с таким различением, вполне можно было бы охарактеризовать как тесты вербального и невербального рассуждения (J. P. Das, 1984; Goetz, & Hall, 1984; A. R.Jensen, 1984; Keith, 1985; Keith, & Dunbar, 1984).

С другой стороны, уже накопленные данные исследований по К-АВС говорят о сходстве ее общих показателей с показателями WISC-R в том, что касается их прогностической валидности и того, в какой степени они измеряют «общий интеллект» (Kamphaus, 1990). Вследствие меньшей зависимости от вербальных навыков, К-АВС может быть предпочтительной мерой для детей с ограниченным знанием английского языка или с нарушениями слуха. Сбалансированное изложение достоинств и ограничений этого относительно нового инструмента можно найти в работе Clinical and Research Applications of the K-ABC (Kamphaus, & Reynolds, 1987, chap. 8).