3 нормы и смысловое значение тестовых показателей

Вторая часть учебника, включающая главы 3-7, знакомит с основными понятиями и методологией, необходимыми для понимания психологических тестов и правильной интерпретации их результатов. Соответственно порядку глав в ней рассмотрены нормы, надежность, валидность, анализ заданий и конструирование тестов. Данная глава посвящена разработке и использованию норм, а также другим процедурам, облегчающим пользователям интерпретацию тестовых показателей. При отсутствии дополнительных интерпретирующих данных первичная оценка по любому психологическому тесту лишена всякого смысла. Сказать, что кто-то верно решил 15 задач в тесте математического рассуждения, правильно опознал 34 слова в словарном тесте или успешно собрал механическую конструкцию за 57 с в тесте технических способностей — значит ничего или почти ничего не сообщить о том, как у этого человека развиты соответствующие функции. Знакомые всем процентные показатели также не дают удовлетворительного решения проблемы интерпретации первичных тестовых оценок. Например, 65 % правильных ответов по одному словарному тесту могут означать то же, что 30 % по другому или 80 % по третьему. Разумеется, процентное выражение показателя может иметь тот или иной смысл в зависимости от трудности заданий, из которых состоит каждый тест. Подобно всем первичным оценкам, процентные показатели могут быть истолкованы только в рамках четко заданной и единой системы отсчета.

Оценки по психологическим тестам чаще всего интерпретируются посредством их сопоставления с нормами, отображающими выполнение теста в выборке стандартизации. Такие нормы устанавливаются эмпирически, путем определения того, как представители репрезентативной группы в действительности справляются с тестом. После чего первичную оценку («сырой» балл) конкретного человека можно соотнести с распределением оценок, полученных на выборке стандартизации, чтобы узнать, какое место он занимает в этом распределении. Соответствует ли его показатель среднему результату группы, на которой проводилась стандартизация теста? Или же он несколько ниже среднего? А может быть, он попадает в верхний конец распределения и, таким образом, намного превосходит средний результат?

Чтобы более точно определить положение индивидуума относительно выборки стандартизации, его «сырой» балл (первичная оценка) переводится в некую относи-

Глава 3- Нормы и смысловое значение тестовых показателей 65

тельную меру. Предполагается, что эти производные оценки должны служИТЬ двум целям. Во-первых, они указывают относительное положение обследован] 1оГО человека в нормативной выборке и позволяют оценить полученный им результат в сравнении с результатами других людей. Во-вторых, они обеспечивают сопоставимые меры, допускающие прямое сравнение выполнения индивидуумом различных тестов. Например, если девочка получила 40 баллов по словарному тесту и 22 балла по тесту арифметического рассуждения, то это ничего не говорит нам о ее относительной результативности по этим двум тестам. Какой тест она выполнила лучше — словарный или арифметический — или оба одинаково хорошо? Поскольку первичные оценки по разным тестам обычно выражаются в разных единицах, прямое сравнение таких оценок невозможно. Различие в степени трудности еще больше усложняет сравнение первичных оценок по соответствующим тестам. Производные же оценки могут быть выражены в одних и тех же единицах и относиться к одним и тем же или весьма сходным нормативным выборкам для различных тестов. Таким образом, оказывается возможным сравнение относительной эффективности индивидуума при выгюлнении им множества разных функций.

Есть различные способы преобразования первичных оценок, с тем чтобы они могли служить двум сформулированным выше целям. Однако, с принципиальной точки зрения, получаемые в результате производные оценки выражают один из двух основных аспектов: 1) достигнутый уровень развития или 2) относительное положение индивидуума в определенной группе. Оба типа оценок и некоторые из их распространенных вариантов будут рассмотрены в специальных разделах этой главы. Но прежде необходимо разобраться с несколькими статистическими понятиями, лежащими в основе разработки и использования норм. Цель следующего раздела — разъяснить смысл традиционных статистических мер. Упрощенные вычислительные примеры приведены в нем лишь для иллюстрации и не предназначены для обучения статистическим методам. С формальной стороной вычислений и конкретными алгоритмами решения прикладных задач читатель может ознакомиться по любому современному учебнику статистики для психологов (см., напр.: D. С. Howell, 1997; Runyon, & Haber, 1991; West, 1991). В настоящее время отмечается растущее осознание потребности в элементарных знаниях статистической методологии, причем это касается не только пользователей тестов, но и всех тех, кто хочет с пониманием читать публикуемые материалы исследований в любой области психологии (L. S. Aiken, West, Sechrest,, & Reno, 1990; Anastasi, 1991; Lambert, 1991; S. T. Meier, 1993).

Статистические понятия

Главная цель статистического метода — представить количественные данные в систематизированной и сжатой форме с тем, чтобы облегчить их понимание. Колонка из 1000 тестовых оценок может выглядеть весьма внушительно, но в таком виде она мало что говорит. В качестве первого шага при наведении порядка в этом хаосе «сырых» баллов можно составить таблицу их частотного распределения (см. табл. 3-1). Для этого сначала определяются — исходя из числовых значений первичных оценок — удобные интервалы группирования, а затем каждая из этих оценок отмечается условным значком (палочкой, крестиком и т. п.) в соответствующем ей интервале. Когда все первичные оценки разнесены по интервалам группирования, в них подсчитывает-

66

Часть 2. Технические и методологические принципы

ся количество условных значков, с тем чтобы найти частоту, или число случаев, для каждого интервала. Сумма всех частот равняется N — общему числу случаев в данной группе. В табл. 3-1 приведены первичные оценки 1000 студентов по тесту усвоения кода, в котором нужно было перейти от использования искусственных слов или бессмысленных слогов из одного набора к пользованию аналогичными элементами из другого набора. Первичные оценки, представленные числом правильных элементов слогового кода, замененных в течение двухминутной попытки, колеблются в пределах от 8 до 52. Они были разнесены по интервалам группирования с шириной 4 единицы: от 8-11 до 52-55. Из колонки частот видно, что оценки двух испытуемых находятся в интервале 8-11, трех — в интервале 12-15, и т. д.

Таблица 3-1 Частотное распределение первичных оценок студентов по тесту усвоения кода ( N = 1000)

Интервал группирования Частота
52-55 1
48-51 1
44-47 20
40-43 73
36-39 156
32-35 328
28-31 244
24-27 136
20-23 28
16-19 8
12-15 3
8-11 2

(Из Anastasi, 1934, р. 34)

Информация, содержащаяся в частотном распределении, может быть также представлена графически в виде кривой распределения. На рис. 3-1 данные из табл. 3-1 отображены в графической форме. По горизонтальной оси отложены первичные оценки, представленные границами интервалов группирования, а по вертикальной — частоты, или число случаев, попадающих в каждый интервал. Это график построен двумя способами, в виде гистограммы и полигона (частот), оба из которых достаточно распространены. В гистограмме высота столбца над каждым интервалом группирования соответствует числу испытуемых, попавших по результатам тестирования в соответствующий интервал. В полигоне число испытуемых в каждом интервале группирования указывается точкой, расположенной над серединой интервала на высоте, соответствующей его частоте, а сами точки последовательно соединяются отрезками прямой.

Если не обращать внимание на некоторые нерегулярности, распределение, представленное на рис. 3-1, имеет сходство с колоколообразной нормальной кривой. Математически определенная нормальная кривая изображена на рис. 3-2. Этот тип кривой обладает важными математическими свойствами и лежит в основе многих видов статистического анализа. Для наших целей, однако, достаточно будет отметить лишь некоторые из свойств нормальной кривой. Легко заметить, что согласно нормальному

Глава 3. Нормы и смысловое значение тестовых показателей

Рис. 3-1. Кривые распределения: полигон и гистограмма (по данным табл. 3-1)

закону распределения наибольшее число случаев скапливается вокруг центральной точки кривой и постепенно падает к ее краям. Кривая симметрична и имеет единственный максимум в центре. Большинство распределений человеческих признаков — от роста и веса до способностей и свойств личности — приближаются к нормальной кривой. В общем, чем больше группа, тем ближе эмпирическое распределение к теоретической нормальной кривой.

Далее, совокупность тестовых оценок может быть сжато описана некоторой мерой центральной тенденции. Такая мера дает единственную, наиболее типичную или репрезентативную оценку, характеризующую выполнение теста группой испытуемых, взятой в целом. Самой известной из таких мер является выборочное среднее или, точнее, среднее арифметическое, обозначаемое чаще всего большой буквой М (по первой букве англ. слова mean ). Оно находится сложением всех оценок и делением получившейся суммы на число случаев ( N ). Другой мерой центральной тенденции является мода, или наиболее часто встречающаяся оценка. В частотном распределении мода определяется как середина интервала группирования с максимальной частотой. Например, в табл. 3-1 мода представлена средней точкой интервала 32-35 и равна 33,5. Отметим, что эта величина соответствует самой высокой точке кривой распределения на рис. 3-1. Третья мера центральной тенденции — это медиана, или оценка, приходящаяся на середину совокупности ранжированных (упорядоченных по величине) оценок испытуемых. Медиана есть точка, делящая построенное на такой ранжированной совокупности распределение ровно пополам, в результате чего одна половина случаев лежит выше, а другая ниже медианы.

68 Часть 2. Технические и методологические принципы

Рис. 3—2. Частотные распределения с одинаковым средним и разным диапазоном изменчивости

Дополнительную информацию о совокупности тестовых оценок дают меры изменчивости, показывающие степень индивидуальных отклонений от центральной тенденции. Наиболее очевидным и понятным способом представления изменчивости служит размах, определяемый, в простейшем случае, как разность между максимальной и минимальной оценками в совокупности. Однако размах является крайне грубой и неустойчивой мерой изменчивости, поскольку определяется только по двум оценкам. Всего один необычно высокий или низкий результат может заметно повлиять на величину размаха. Более точный метод измерения изменчивости основан на учете разностей между оценками каждого испытуемого и среднегрупповой оценкой.

В этом месте полезно обратиться к примеру в табл. 3-2, где приведены расчеты рассматриваемых нами различных мер для совокупности из 10 случаев. Столь малая совокупность взята для того, чтобы сделать наш пример предельно понятным за счет упрощения вычислений, хотя на практике обычно приходится иметь дело с гораздо большими совокупностями данных. В табл. 3-2 также вводится ряд принятых в статистике обозначений, которые будут использоваться и в дальнейшем. Первичные оценки по тесту по традиции обозначаются прописной буквой X , а строчная буквах служит для обозначения отклонений каждой индивидуальной оценки от группового среднего. Греческая прописная буква ∑ расшифровывается как сумма. Среднее значение и медиана вычислены по данным, представленным в первой колонке табл. 3-2. Среднее равно 40; медиана равна 40,5 и находится посередине между оценками 40 и 41: пять случаев (50 %) лежат выше и пять ниже медианы. Находить моду для столь малой совокупности лишено всякого смысла, так как составляющие ее случаи не обнаруживают явного скопления вокруг какой-либо из оценок. Формально, однако, мода представлена оценкой 41, поскольку такую оценку получили два человека, тогда как все другие оценки встречаются лишь по одному разу.

Вторая колонка таблицы показывает, насколько каждая оценка отклоняется в ту или другую сторону от среднегрупповой (40). Сумма этих отклонений всегда равна нулю, так как положительные и отрицательные отклонения от среднего обязательно уравновешивают друг друга (+20 - 20 = 0). Отбросив знаки отклонений и усредняя

Глава 3. Нормы и смысловое значение тестовых показателей

о«

Таблица 3-2 Иллюстрация понятий центральной тенденции и изменчивости

Оценка (X) Отклонение = Х-М) Квадрат отклонения (х2)

+ 8' + 7 + 3 + 1 + 1 О

-2

-4

-6

    48 + 8   64
    47 + 7   49
50 % случаев   43 41 + 3 + 1 + 20 9 1

Медиана = 40,5

 

41 40

+ 1 0

 

1
  0
    38 -2   4
50 % случаев   36 34 -4 -6 -20 16 36
    32 -8   64

Примечание. Символы ∑ и σ в этой таблице — соответственно прописная и строчная греческие буквы «сигма». Во многих статистических работах символом SD (или просто 5) обозначается выборочное стандартное отклонение, вычисляемое на основе фактически полученных данных, тогда как символ σ используется для обозначения (ожидаемой величины) стандартного отклонения совокупности, из которой извлекалась выборка для сбора данных.

их абсолютные значения, мы можем получить меру средней величины, на которую каждый человек отклоняется от центральной тенденции группы (выраженной средним арифметическим). Несмотря на некоторые достоинства (прежде всего, ясность и понятность) такой дескриптивной меры, «среднее отклонение» не пригодно для более сложного математического анализа данных из-за произвольного отбрасывания знаков и практически не используется в наше время.

Гораздо более полезной мерой изменчивости является стандартное отклонение ( SD или σ), при вычислении которого отрицательные знаки отклонений устраняются математически допустимым способом — путем возведения каждого отклонения в квадрат, как показано в третьей колонке табл. 3-2. Сумма значений в этой колонке,

Деленная на число случаевназывается дисперсией, или средним квадратом от-

клонений. Дисперсия оказалась крайне полезной при выяснении вкладов разных факторов в индивидуальные различия результатов тестирования. Однако в данный мо-

70

Часть 2. Технические И методологические принципы

Рис. 3-3. Процентное распределение случаев под нормальной кривой

мент главный интерес для нас представляет стандартное отклонение ( SD )\ равное корню квадратному из дисперсии, как видно из табл. 3-2. Эта мера широко используется при сравнении изменчивости данных, полученных в разных группах. На рис. 3-2, например, показаны два распределения с одинаковым средним, но разным диапазоном изменчивости. Распределение с более широким диапазоном индивидуальных различий дает большую величину SD , чем распределение с менее выраженными индивидуальными различиями. При оценивании относительных результатов тестирования двух групп мы должны сравнивать не только средние, но и стандартные отклонения. Если эти группы различаются по диапазону изменчивости оценок, это может указывать на различия в доле высоких, низких или тех и других оценок, независимо от различия средних. Современная статистика располагает комплексными методами анализа эффектов, вызванных различиями средних и стандартных отклонений (см., например, Feingold, 1955).

Как будет показано в разделе о стандартных показателях, SD также выполняет функцию базисного элемента для выражения оценок индивидуума по различным тестам в единицах норм. Интерпретация стандартного отклонения становится особенно ясной в тех случаях, когда речь идет о нормальной или приблизительно нормальной кривой распределения. При нормальном распределении имеется точное соотношение между SD и относительным количеством случаев, как хорошо видно на рис. 3-3. Базис нормальной кривой (ось абсцисс) размечен отрезками, представляющими одно, два и три стандартных отклонения выше и ниже среднего М. Например, для данных, приведенных в табл. 3-2, М = 40 + 1σ = 44,9 (т. е. 40 + 4,9); + 2 σ = 49,8 (т. е. 40 + 2 х 4,9) и т. д. Процент случаев, попадающих в интервал между Ми + 1 σ, для нормального распределения равен 34,13 %. Поскольку кривая симметрична, 34,13 %

1 Иллюстрируемые в этой главе вычисления относятся к описательной статистике, применяемой к фактически обследованной выборке; в статистике вывода N заменяется на N -1 для того, чтобы получить оценку соответствующих параметров совокупности по выборочным данным. Чем меньше выборка, тем больше будут различия между параметрами генеральной совокупности и их выборочными оценками. За разъяснениями можно обратиться к любому современному учебнику статистики (например, Comrey & Lee, 1992).

Глава 3. Нормы и смысловое значение тестовых показателей

/1

случаев попадает также в интервал между М и — 1 с, так что диапазон от — 1а + 1а хватывает 68,26 % случаев. Почти все случаи (99,72 %) лежат в пределах ± За от среднего (М). Эти соотношения имеют особое значение для интерпретации обсуждаемых чуть позднее стандартных показателей и процентилей.

Возрастные нормы

Один из способов придать смысл тестовым оценкам — это указать, как далеко продвинулся индивидуум по нормальной траектории развития. Так, можно сказать, что 1-летний ребенок, справляющийся с заданиями теста интеллекта на уровне среднего 10-летнего ребенка, имеет умственный возраст (УВ) 10 лет. Умственно отсталый взрослый, выполняющий задания этого теста на том же уровне, будет также иметь УВ = 10 лет. В другом контексте четвероклассника, например, можно охарактеризовать как достигшего нормы 6-го класса по тесту чтения и нормы 3-го класса по арифметическому тесту. В некоторых системах для описания возрастного развития используются более качественные характеристики изменения специфических функций, таких как сенсомоториая активность или формирование понятий. Но независимо от способа выражения, показатели, основанные на возрастных нормах, довольно грубы и плохо поддаются точной статистической обработке. Тем не менее они имеют сильную притягательность в силу своей наглядности и широко используются, особенно при клиническом обследовании, а также при решении ряда научных проблем.

Умственный возраст. Как отмечалось в главе 2, термин «умственный возраст» получил широкое распространение благодаря различным переводам и адаптациям шкал Бине—Симона, хотя сам Вине пользовался более нейтральным термином «умственный уровень». В таких возрастных шкалах, как шкачы Бине и их последующие редакции (до 1986 г.), тестовые задания группируются по возрастным уровням. Например, задания, посильные для большинства 7 -летних детей в выборке стандартизации, относятся к уровню 7 лет; задания, выполняемые большинством 8-летних детей, — к уровню 8 лет и т. д. Казалось бы, в этом случае показатель ребенка по данному тесту должен соответствовать самому высокому возрастному уровню, который ему удалось успешно пройти. В действительности, однако, индивидуальные результаты выполнения теста всегда обнаруживают известную степень разброса. Иными словами, обследуемый может не справиться с некоторыми тестами ниже его умственного возраста и выполнить задания, рассчитанные на более высокий умственный возраст. По этой причине сложилась практика, когда сначала определялся базисный возраст обследуемого, т. е. максимальный возрастной уровень, на котором и ниже которого все тесты оказываются доступными ребенку. А за все тесты, пройденные на более высоких возрастных уровнях, производились «частичные зачеты» — в месяцах, добавляемых к базисному возрасту. В этом случае умственный возраст ребенка по такому тесту представлял собой сумму базисного возраста и дополнительных «зачетных месяцев».

Нормы в форме умственного возраста использовались и при работе с тестами, которые не подразделялись на возрастные уровни. В таком случае сначала определяется первичная оценка ребенка по тесту (так называемый «сырой» балл). В качестве первичной оценки может выступать просто суммарное количество правильно выполненных заданий всего теста, либо она может быть более сложной и строиться с учетом

72

Часть 2. Технические и методологические принципы

времени выполнения заданий, числа ошибок или даже какой-то комбинации таких мер. Средние величины первичных оценок, полученных детьми в каждой возрастной группе выборки стандартизации, и составляют возрастные нормы для такого теста. Например, средняя первичная оценка 8-летних детей могла бы служить нормой для возраста 8 лет. Если первичная оценка обследуемого равна средней первичной оценке 8-летних детей, то его У В по данному тесту составляет 8 лет. Все первичные оценки по такому тесту можно преобразовать аналогичным способом, соотнося их с возрастными нормами.

Следует отметить, что единица умственного возраста не остается постоянной и с годами обнаруживает тенденцию к сокращению. Так, ребенок, отстающий в развитии на один год в 4-летнем возрасте, к 12 годам будет отставать примерно на 3 года, т. е. один год умственного роста между 3 и 4 годами равносилен 3 годам роста между 9-м и 12-м годом жизни. Поскольку развитие интеллекта идет быстрее в более ранние годы и постепенно замедляется по мере взросления ребенка, единица УВ соответственно уменьшается. Это соотношение можно сделать более наглядным, если представить себе, что рост ребенка выражается в единицах «ростового возраста» { height age ). Разница, в дюймах, между ростовым возрастом 3 и 4 года будет большей, чем между ростовым возрастом 10 и 11 лет. В силу постепенного сокращения единицы У В один год опережения или задержки развития в возрасте, скажем, 5 лет означает большее отклонение от нормы, чем тот же год в возрасте 10 лет.

Эквивалентные классы. Показатели тестов достижений в обучении часто интерпретируются в единицах эквивалентных классов. Эта практика вполне понятна, поскольку эти тесты применяются в школьной обстановке. Характеризовать достижения ученика как соответствующие уровню 7-го класса по орфографии, уровню 8-го класса по чтению и уровню 5-го класса по арифметике, для большинства столь же притягательно, как пользоваться понятием умственного возраста в традиционных тестах интеллекта.

Нормы в виде эквивалентных классов определяются посредством вычисления среднего по первичным оценкам, полученным детьми в каждом классе. Так, если среднее количество правильно решенных задач арифметического теста в выборке стандартизации четвероклассников равно 23, то первичная оценка 23 соответствует эквивалентному 4-му классу. Промежуточные эквивалентные классы, представляющие как бы доли класса, обычно определяются путем интерполяции, хотя их можно получить и непосредственно, тестируя детей несколько раз в учебном году. Поскольку учебный год длится 10 месяцев, их последовательность можно представить в виде шкалы десятых долей эквивалентного класса. Тогда 4,0 будет указывать на средний результат выполнения теста в начале обучения в 4-м классе (сентябрьское тестирование), а 4,5 — на средний результат по тому же тесту в середине обучения (февральское тестирование), и т. д.

Несмотря на их популярность, нормы в виде эквивалентных классов имеют ряд недостатков. Во-первых, содержание обучения меняется от класса к классу. Поэтому такие нормы подходят только для общеобразовательных предметов, обучение которым ведется на всех уровнях, охватываемых данным тестом. Они, как правило, неприменимы в старших классах, где многие предметы изучают только один или два года. Даже если предмет преподается на протяжении всего обучения в школе, его значение

Глава 3. Нормы и смысловое значение тестовых показателей 73

может меняться от класса к классу и, следовательно, скорость его изучения может быть различной. Иными словами, единицы шкалы эквивалентных классов явно не равны друг другу, причем отсутствует определенная закономерность в их изменении для разных предметов.

Кроме того, представленные в виде эквивалентных классов нормы могут приводить к ошибочной интерпретации результатов тестирования, если пользователь теста не принимает в расчет способ их получения. Например, если четвероклассник в шкале эквивалентных классов получил оценку 6,9 по арифметике, то это вовсе не означает, что он овладел арифметическими операциями, которым обучают в 6-м классе. Бесспорно, он показал такой результат главным образом благодаря отличному знанию арифметики, которую проходят в 4-м классе. И конечно, нельзя считать, что он уже готов к ее изучению по программе 7-го класса. Наконец, нормы в виде эквивалентных классов иногда ошибочно трактуют как нормативы выполнения теста. Учительница 6-го класса, например, может решить, что все ее ученики должны иметь в тестах достижений результаты, соответствующие или по крайней мере близкие к норме 6-го класса. Разумеется, это ошибочное представление не редкость, когда используются нормы в виде эквивалентных классов. Однако индивидуальные различия в пределах одного класса таковы, что диапазон оценок по тесту достижения будет обязательно перекрывать несколько эквивалентных классов.

Порядковые шкалы. Еще один подход к нормам возрастного развития берет начало в исследованиях по детской психологии. Благодаря эмпирическим наблюдениям за развитием младенцев и дошкольников был накоплен обширный материал, позволяющий описать последовательность типичных возрастных изменений таких функций, как локомоция, сенсорное различение, речевое общение и формирование понятий. В качестве первого из таких исследований можно назвать работу А. Гезелла и его коллег по Йельскому университету (Ames, 1937; Gesell, & Amatruda, 1947; Halverson, 1933; Knobloch, & Pasamanick, 1974). «Таблицы развития» Гезелла ( GesellDevelopmental Schedules ) позволяют оценить приблизительный уровень развития в месяцах, которого ребенок достиг в каждой из четырех основных областей поведения, именно: двигательного, речевого, приспособительного и лично-социального поведения. Эти уровни определяются сравнением поведения конкретного ребенка с типичным поведением детей в восьми поворотных точках графика возрастного развития, охватывающего диапазон от 4 недель до 36 месяцев.

Гезелл и его сотрудники особо подчеркивали последовательный характер раннего развития поведения. Они приводили обширные данные, свидетельствующие о единообразии хода развития и организации изменений поведения в четкие последовательности. Например, реакции ребенка на помещенный перед ним небольшой предмет обнаруживают характерную хронологическую последовательность в зрительной фиксации и в движениях руки и пальцев. Попытки захватить предмет всей ладонью предшествуют захвату с помощью большого пальца, противопоставляемого остальным четырем, а он, в свою очередь, сменяется более эффективным пинцетным захватом, когда ребенок зажимает предмет между большим и указательным пальцем. Аналогичные последовательные структуры обнаруживаются также в развитии ходьбы, подъеме по лестнице и в большей части сенсомоторного развития первых лет жизни. Шкалы, разработанные в рамках этого подхода, являются порядковыми в том смысле, что смена ста-

74

Часть 2. Технические и методологические принципы

дни развития следует неизменному порядку, причем каждая новая стадия предполагает предварительное усвоение поведения, характерного для предыдущих стадий.1

В 1960-х гг. резко возрос интерес к теориям развития швейцарского детского психолога Жана Пиаже (см. Flevell, 1963; Ginsburg, & Оррег, 1969; D. R. Green, Ford, & Flamer, 1971). Исследования Ж. Пиаже были сосредоточены на развитии когнитивных процессов от младенчества до старшего подросткового возраста. Его больше интересовало развитие специфических понятий, нежели способностей в широком смысле слова. Примером такого понятия, или схемы, может служить постоянство объекта, благодаря которому ребенок сознает тождественность и непрерывность существования объектов, когда они видны под разными углами или находится вне поля зрения. Другим широко изученным понятием является сохранение, т. е. сознавание того, что то или иное свойство объекта сохраняется неизменным, несмотря на воспринимаемые преобразования объекта, как в случаях, когда одно и то же количество жидкости наливается в сосуды разной формы или когда палочки одинаковой длины по-разному располагаются в пространстве.

Задачи Пиаже широко использовали психологи, изучающие возрастное развитие, а некоторые из его задач были организованы в стандартизованные шкалы, которые будут обсуждаться в главе 9 (Goldschmid, & Bentler, 1968b; Pinard, & Laurendeau, 1964; Uzgiris, & Hunt, 1975). В соответствии с подходом Пиаже, эти инструменты являются шкалами порядка, в которых достижение той или иной стадии зависит от успешного прохождения более ранних стадий развития измеряемого понятия. Задания в этих шкалах конструируются таким образом, чтобы выявлять главные аспекты каждой стадии развития; и только затем собираются эмпирические данные о возрасте, в котором обычно достигается каждая стадия. В этом отношении данная процедура отличается от процедур, применяемых при построении возрастных шкал, в которых задания отбираются прежде всего по их способности дифференцировать смежные возрасты. Хотя интерес к вкладам школы Пиаже в диагностику психического развития сохраняется, критический теоретический анализ и многочисленные эмпирические проверки этого подхода высветили как его конструктивность, так и ряд ограничений (Sugarman, 1987).2

Подводя итог, можно сказать, что порядковые шкалы предназначены для определения стадии, достигаемой ребенком в развитии специфических функций поведения. Хотя получаемые по ним оценки могут сообщаться в виде указания примерных возрастных уровней, такая форма оценок имеет второстепенное значение по сравнению с качественным описанием типичного поведения обследуемого ребенка. Слово «порядок», входящее в название данного типа шкал, указывает на существование единообразия в развитии, проходящем через последовательные стадии. Поскольку эти шкалы обычно дают информацию о том, что конкретный ребенок способен делать в настоя-

1 Данное значение термина «порядковая шкала» отличается от принятого в статистике, где он обозначает любую шкалу, позволяющую упорядочивать различающиеся объекты (или людей) без знания величины различий между ними. В статистическом смысле шкалы порядка противопоставляются шкалам равных интервалов, имеющим единицы измерения. Порядковые шкалы развития ребенка фактически конструируются но образцу шкалы Гуттмана, или модели симплекса, в которой успешное выполнение заданий на одном уровне автоматически предполагает достижение успеха на всех более низких уровнях (L. Guttman, 1944). Расширение анализа Гуттмана с целью включения в пето нелинейных иерархий описано у Bart и Airasian (1974), со специальными ссылками па шкалы Пиаже.

2 Что касается более подробной оценки пиажетианского подхода, см. главу 9.

Глава 3. Нормы и смысловое значение тестовых показателей

75

щее время (например, взобраться по лестнице без посторонней помощи или понять, что количество жидкости сохраняется неизменным при переливании ее в сосуды разной формы), они обладают теми же существенными признаками, что и предметно-ориентированные тесты ( domain - referenced tests ), обсуждаемые в одном из последующих разделов этой главы.

Внутригрупповые нориы

В наше время почти все стандартизованные тесты предусматривают ту или иную форму внутригрупповых норм ( within - group norms ). При наличии таких норм индивидуальный результат тестирования оценивается исходя из выполнения данного теста в наиболее сопоставимой группе стандартизации, как при сравнении полученной ребенком первичной оценки с первичными оценками детей того же возраста или того же года обучения. Внутригрупповые показатели имеют единый и четко определенный количественный смысл и допускают корректное применение большинства методов статистического анализа.

Процентили. Процентильные показатели выражаются в единицах процента лиц, составляющих выборку стандартизации, результат которых ниже установленной первичной оценки. Например, если 28 % людей решают правильно меньше 15 задач в тесте арифметического рассуждения, то первичная («сырая») оценка 15 соответствует 28-му процентилю (Р28). Процентиль показывает относительное положение индивидуума в выборке стандартизации. Процентили можно также рассматривать как ранга в группе из 100, с той лишь разницей, что при ранжировании принято начинать отсчет сверху, т. е. с лучшего члена группы, получающего ранг 1. Напротив, в случае процентилей отсчет ведется снизу, так что чем ниже процентиль, тем хуже позиция индивидуума.

50-й процентиль (Р ) соответствует медиане — одной из рассмотренных выше мер центральной тенденции. Процентили выше 50-го представляют результаты выше среднего, а процентили ниже 50-го указывают на низкие результаты. 25-й и 75-й процентили называют также 1-ми 3-м квартилями ( Q 1 и Q 3 ), поскольку они отсекают нижнюю и верхнюю четверти распределения. Как и медиана, они служат удобными ориентирами для описания распределения показателей и его сравнения с другими распределениями.

Процентили не следует смешивать с привычными для всех процентными показателями. Последние являются первичными оценками и выражаются в единицах процента правильно выполненных заданий, тогда как процентили — это производные оценки, выражающиеся в единицах процента тестируемых. Первичная оценка ниже любой полученной в выборке стандартизации имела бы процентиль, равный нулю д), тогда как первичная оценка, превышающая любую оценку в выборке стандартизации, получила бы процентиль 100 (Р,00). Эти процентили, однако, вовсе не означают нулевого или абсолютного результата выполнения теста.

Процентильные показатели обладают рядом достоинств. Их легко рассчитать и Понять даже сравнительно неподготовленному человеку. Кроме того, процентили имеют универсальное применение. Они в равной мере используются при работе как с Детьми, так и со взрослыми, и подходят к любому типу теста, независимо от того измеряет ли он способности или свойства личности.

76

Часть 2. Технические и методологические принципы

Главный недостаток процентилей связан с неравенством их как единиц измерения, особенно на краях распределения. Если распределение первичных оценок приближается к нормальной кривой, что справедливо для большинства тестовых показателей, то различия между первичными оценками вблизи медианы или центра распределения в процентильном выражении преувеличиваются, тогда как аналогичные различия вблизи краев распределения при переведении их в процентили сильно занижаются. Это искажение расстояний между оценками можно увидеть на рис. 3-4. Напомним, что в нормальной кривой случаи тесно сгруппированы в центре и рассеиваются по мере приближения к краям. Следовательно, каждый данный процент случаев вблизи центра соответствует более короткому отрезку на оси абсцисс, чем тот же процент случаев у краев распределения. На рис. 3-4 это несоответствие интервалов между процентилями хорошо заметно, если сравнить расстояние между Р40 и Р50 с расстоянием между Р и Рж Еще более разительно несоответствие интервалов между Рю и Рг (В теоретической нормальной кривой нулевой процентиль достигается лишь в бесконечности и поэтому не может быть показан на графике.)

То же соотношение можно увидеть, если посмотреть на положение процентилей, соответствующих равным s-интервалам, отложенным в обе стороны от среднего нормальной кривой. Эти процентили приведены в нижней части рис. 3-4. Мы видим, что разность процентилей между средним и + 1о равна 34 (84-50), а между + 1а и + 2а — всего 14 (98-84).

Очевидно, что процентили показывают относительное положение каждого индивидуума в нормативной выборке, а не величину различия между тестовыми оценками. Но если оценки, выраженные в процентилях, наносить на так называемую линейно-вероятностную масштабную бумагу, то и процентильные показатели могут дать адекватную наглядную картину различий между тестовыми оценками. Линейно-вероятностная бумага разграфлена так, что вертикальные линии отстоят друг от друга так же, как и процентили на нормальной кривой (см. рис. 3-4), тогда как горизонтальные линии следуют через одинаковые интервалы, — или наоборот (как на рис. 3-5).

Рис. 3—4. Расположение процентилей при нормальном распределении

Глава 3. Нормы и смысловое значение тестовых показателей

77

Джон Мери Элен Эдгар Джейн Дик Билл Дебби

Рис. 3-5. Нормальная процентильная диаграмма. Интервалы между процентилями выбраны таким образом, чтобы соответствовать равным интервалам нормального распределения. Сравним рсстоя-ние между результатами Джона и Мери, с одной стороны, и Элен и Эдгара — с другой: разность процентилей в обоих случаях составляет 5 делений шкалы. В то же время различие между Джейн и Диком, так же как между Биллом и Дебби, составляет 10 делений процентильной шкалы .

Такие нормальные процентильные диаграммы могут быть использованы для графического представления показателей, полученных разными людьми по одному и тому же тесту, или показателей одного и того же человека по разным тестам. В обоих случаях фактическое различие между показателями будет представлено корректно. Этот способ используется теперь во многих батареях тестов способностей и достижений для вычерчивания профиля оценок, показывающего индивидуальные результаты выполнения каждого теста.

Стандартные показатели. В современных тестах все больше используются стандартные показатели — наиболее удовлетворительный, с точки зрения большинства требований, тип производной оценки. Такие показатели выражают отличие индивидуального результата от среднего в единицах стандартного отклонения соответствующего распределения.

Стандартные показатели могут быть получены как линейным, так и нелинейным преобразованием первичных, «сырых» оценок. При использовании линейного преобразования стандартные показатели сохраняют точные численные соотношения первичных оценок, поскольку вычисляются путем вычитания из каждой первичной оценки одной константы и последующим делением разности на другую константу. Относи тельная величина различий между стандартными показателями, полученными с по^ мощью такого линейного преобразования, в точности соответствует относительно! величине различий между первичными оценками. Все свойства исходного распреде ления «сырых» оценок полностью воспроизводятся в распределении таких стандарт ных показателей. По этой причине любые вычисления, которые можно производит

78

Часть 2. Технические и методологические принципы

с первичными оценками, можно также выполнять и с линейными стандартными показателями без какого-либо искажения результатов.

Стандартные показатели, получаемые линейным преобразованием, часто называют просто «стандартными показателями» или «z-показателями». Чтобы вычислить z-показатель, находят разность между первичной оценкой индивидуума и средним для нормативной группы и затем делят эту разность на SD нормативной группы. В табл. 3-3 показан расчет z-показателей для двух испытуемых, один из которых занимает место на 1 SD выше, а другой — на 0,40 SD ниже группового среднего. Любая первичная оценка, в точности равная среднему, эквивалентна нулевому значению z-показателя. Очевидно, что эта вычислительная процедура будет давать производные оценки с отрицательным знаком для всех лиц с оценками ниже среднего. Кроме того, поскольку для большинства групп область значений индивидуальных оценок не выходит за пределы ± 3 SD от среднего, такие стандартные показатели приходится вычислять с точностью хотя бы до десятых, чтобы обеспечить достаточную дифференциацию обследуемых.

Оба этих условия, а именно появление отрицательных величин и десятичных дробей, делают z-показатели не слишком удобными для проведения дальнейших вычислений и сообщения результатов. Поэтому обычно применяют еще одно линейное преобразование, единственная цель которого придать показателям более удобную форму. Так, показатели по тестам академической оценки { SA Т) Совета по вступительным экзаменам в колледжи ( СЕЕВ) представляют собой преобразованные стандартные показатели со средним М = 500 и стандартным отклонением SD = 100. Так, стандартный z-показатель, равный — 1, в этом тесте выражался бы числом 400 (500 — 100 - 400). Аналогичным образом, z-показатель, равный + 1,5, соответствовал бы 650 (500+ 1,5 х 100 = 650). Чтобы перевести стандартный z-показатель в эту новую шкалу, нужно просто умножить его на заданную величину SD , в данном случае 100, и полученное произведение прибавить (с учетом знака при г) к заданному среднему М (500). При желании в качестве новых Ми SD можно выбрать любые другие удобные значения; например, показатели по отдельным субтестам в шкалах интеллекта Векслера преобразуются к распределению со средним М = 10 и стандартным отклонением SD - 3. Все эти меры служат примерами линейно преобразованных стандартных показателей.

Напомним, что одной из причин преобразования первичных оценок в любую производную шкалу выступает стремление добиться сопоставимости показателей но различным тестам. Только что рассмотренные стандартные показатели, получаемые линейным преобразованием, оказываются сопоставимыми лишь в тех случаях, когда распределения «сырых» оценок, по которым они рассчитываются, имеют приблизит

Глава 3. Нормы и смысловое значение тестовых показателей 79

тельно одинаковую форму. При таких условиях оценка, соответствующая, скажем, + 1SD означает, что индивидуум занимает одинаковое положение относительно обоих групп. Его показатель превышает показатели примерно одинакового процента лиц в обоих распределениях, и этот процент можно определить, когда известна форма распределения. Если же одно распределение заметно скошено, а другое нормально, то z-показа-тель, равный + 1 может превосходить, к примеру, показатели только 50 % членов первой группы и 84 % членов второй.

Чтобы добиться сопоставимости показателей, полученным на основе распределений различной формы, можно применить нелинейное преобразование, позволяющее подогнать показатели к любому заданному типу кривой распределения. Рассмотренные ранее умственный возраст и процентильные показатели представляют собой нелинейные преобразования, но им присущи другие, уже обсуждавшиеся ограничения. Для этой цели обычно используется нормальное распределение, хотя при определенных обстоятельствах другой тип распределения может оказаться более пригодным. Одним из главных доводов в пользу такого выбора является то, что большинство распределений первичных оценок лучше всего аппроксимируется нормальной кривой, чем другими типами кривых. Кроме того, физические характеристики организма, такие как рост и вес, которые измеряются в шкалах с равными единицами, созданных посредством физических операций, обычно имеют нормальное распределение. Другое важное преимущество нормальной кривой заключается в наличии у нее многих полезных математических свойств, облегчающих дальнейшие расчеты.

Нормализованные стандартные показатели — это стандартные показатели, выраженные в единицах распределения, которое было преобразовано с целью его приведения к виду нормальной кривой. Такие показатели можно рассчитывать с помощью таблиц, в которых приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на определенное число единиц SD . Сначала определяется процент лиц в выборке стандартизации, приходящихся на (или превышающих) каждую «сырую» оценку. Затем по этому проценту в таблице значений функции плотности нормального распределения отыскивают соответствующее значение нормализованного стандартного показателя. Нормализованные стандартные показатели выражаются в той же форме, что и линейно преобразованные стандартные показатели, т. е. имеют среднее М = 0 и стандартное отклонение SD = 1. Таким образом, нулевое значение нормализованного показателя показывает, что испытуемый попадает в точку, соответствующую среднему нормальной кривой, превосходя 50 % группы. Показатель, равный — 1, означает, что он превосходит приблизительно 16 % группы, а показатель + 1 — что он превосходит 84 % группы. Эти проценты соответствуют точкам, лежащим соответственно на 1SD ниже и выше среднего нормальной кривой (см. рис. 3-4).

Как и при линейном преобразовании, нормализованным стандартным показателям можно придать любую удобную форму. Например, умножив нормализованный стандартный показатель на 10 и прибавив (по-прежнему с учетом знака) это произведение к 50, получаем Т-показателъ, предложенный впервые Мак-Коллом (W. A. McCall, 1922). На этой шкале Т= 50 соответствует среднему, Г= 60 — превышает среднее на 1 SD , и т. д. Еще одно достаточно известное нелинейное преобразование представлено шкалой станайнов, разработанной в ВВС США во время Второй мировой войны. Это шкала одноразрядных оценок со средним М = 5 и стандартным отклонением

80

Часть 2. Технические и методологические принципы

Таблица 3-4 Значения нормальной плотности (в процентах) для перевода первичных оценок в шкалу станайнов

Процент 4 7 12 17 20 17 12 7 4
Станайн 1 2 3 4 5 6 7 8 9

SD" 2.1 Название станайн (сокращение от англ. standard nine — стандартная девятка) связано с тем, что оценки в этой шкале принимают значения от 1 до 9.

Первичные оценки можно легко перевести в станайны, упорядочив их по величине и приписав станайны в соответствии со значениями нормальной плотности (в процентах), приведенными в табл. 3-4. Например, если в группе ровно 100 человек, то 4 с самыми низкими первичными оценками получают показатель, равный 1 станайну, следующие 7 — показатель, равный 2 станайнам, следующие 12 — показатель, равный 3 станайнам и т. д. Если группа состоит из большего или меньшего числа обследуемых, то сначала высчитывают, скольким из них соответствует каждый из выписанных в табл. 3-4 процентов, а затем приписывают им соответствующие станайны. Так, при 200 испытуемых 1 станайн будет приписан 8 (4 % от 200 - 8), а при 150 — 6 испытуемым (4 % от 150 = 6). Бартлет и Эджертон (Bartlett, & Edgerton, 1966) составили таблицу перевода рангов непосредственно в станайны для групп, содержащих от 10 до 100 человек. Станайны, вследствие их практических и теоретических достоинств, находят все более широкое применение, особенно в тестах способностей и достижений.

Хотя нормализованные стандартные показатели являют собой наиболее удовлетворительный — почти со всех точек зрения — тип показателей, тем не менее имеются определенные технические возражения против нормализации всех распределений подряд. Такое преобразование следует проводить только в тех случаях, когда выборка достаточно велика и репрезентативна и когда есть основания считать, что отклонение эмпирического распределения от нормального произошло в силу определенных недостатков текста, а не особенностей выборки или действия других факторов, влияющих на исследуемое поведение. Следует также отметить, что, когда исходное распределение первичных показателей приближается к нормальному, стандартные показатели, полученные посредством линейного преобразования и нормализации, практически не будут отличаться друг от друга. И хотя методы получения этих двух типов показателей совершенно различны, сами показатели в таких условиях будут почти идентичными. Очевидно, что нормализация распределения, которое и без того фактически нормально, мало или ничего не изменит. Всякий раз, когда это возможно, предпочтительнее добиваться нормального распределения первичных оценок посредством надлежащей коррекции уровня трудности тестовых заданий, а не путем последующей нормализации явно ненормального распределения. В случае приблизительно нормального распределения первичных оценок стандартные показатели, полученные с помощью линейного преобразования, будут служить тем же целям, что и нормализованные стандартные показатели.

1 Кайзер (Kaiser, 1958) предложил модификацию шкалы станайнов, заключающуюся в небольших изменениях процентов и дающую SD - 2, что делает ее более удобной в вычислительном отношении. К вариантам этого типа относится С-шкала (Guilford & Frucher, 1978, p. 484-487), состоящая из И делений и также дающая SD = 2, и 10-балльная шкала стэнов (сокр. англ. standard ten — стандартная десятка), имеющая по 5 делений в обе стороны от среднего (Canfield, 1951).

Глава 3. Нормы и смысловое значение тестовых показателей 81

Стандартный IQ ( deviation IQ ). Для преобразования показателей У В (умственного возраста) в унифицированный числовой показатель относительного (интеллектуального) статуса индивидуума, в ранних тестах интеллекта был введен коэффициент IQ (коэффициент интеллекта). Такой IQ определялся просто как отношение умственного возраста (УВ) к хронологическому (ХВ), умноженное на 100 для устранения десятичных дробей ( IQ = 100 х У В / ХВ). Очевидно, что если У В ребенка равен его ХВ, то его IQ точно равен 100. IQ - 100 означает нормальное или среднее выполнение теста. IQ ниже 100 указывает на отставание, а выше 100 — на ускоренное умственное развитие.

Внешняя логическая простота традиционного коэффициента IQ , однако, оказалась обманчивой. Главная техническая трудность состоит в том, что, пока стандартное отклонение ( SD ) распределения коэффициентов IQ не остается приблизительно постоянным в разных возрастных группах, значения /Qy лиц разного возраста будут несопоставимыми. Например, IQ , равный 115 в возрасте 10 лет, может указывать на ту же степень превышения среднего уровня, что и IQ - 125 для 12 лет, поскольку оба могут приходиться на отметку + 1 SD в соответствующих возрастных распределениях. На деле оказалось очень трудно построить тесты, удовлетворяющие психометрическим требованиям сопоставимости коэффициентов IQ по всему возрастному диапазону. Главным образом по этой причине простой коэффициент IQ сейчас повсеместно заменен так называемым стандартным IQ , являющимся по существу еще одной разновидностью уже знакомого стандартного показателя. Стандартный IQ представляет собой стандартный показатель со средним 100 и стандартным отклонением, приблизительно равным SD распределения /Q Стэнфорд—Бине. Хотя стандартное отклонение распределения IQ Стэнфорд—Бине (использовалась редакция 1937 г.) не было строго постоянным для всех возрастов, оно колебалось вокруг значения медианы, слегка превышавшего 16. Поэтому если при выборе стандартных показателей для вновь разрабатываемых тестов принять значение SD , близкое к 16, то результирующие показатели можно интерпретировать так же, как и IQ Стэнфорд—Бине. Поскольку IQ Стэнфорд— Бине в ходу уже много лет, тестологи и клиницисты привыкли интерпретировать и классифицировать результаты тестов в единицах уровней такого IQ . Они уже знают, чего следует ожидать от лиц с /Q, равным 40,70,90,130 и т. д. Таким образом, имеются определенные преимущества в использовании производной шкалы, которая соответствует привычному распределению значений IQ Стэнфорд—Бине. Такого соответствия единиц показателей можно достичь подбором численных значений М и SD , близких к М и SD распределения IQ Стэнфорд—Бине.

Следует добавить, что использование термина «7Q» для обозначения таких стандартных показателей может в какой-то степени вводить в заблуждение. Действительно, стандартные IQ определяются иначе, нежели традиционные коэффициенты IQ Они не являются отношениями умственного и хронологического возраста. И все же употребление применительно к ним традиционного обозначения оправдывается его привычностью; а также тем, что такие показатели могут интерпретироваться как IQ , при условии приблизительного равенства их SD стандартному отклонению ранее известного IQ . Среди первых тестов, чьи показатели выражались в единицах стандартного IQ , были шкалы интеллекта Векслера со средним М = 100 и стандартным отклонением SD = 15. Стандартный IQ используется в ряде современных групповых тестов интеллекта и в третьей (1960) редакции шкалы интеллекта Стэнфорд—Бине.

В связи с возрастающим применением стандартного 1 Q важно помнить, что стандартные показатели IQ из разных тестов сравнимы лишь в тех случаях, когда в их

82

Часть 2. Технические и методологические принципы

шкалах используются одинаковые или близкие но величине SD . Величину стандартного отклонения следует всегда указывать в руководстве к тесту и учитывать пользователем. Если при построении какой-либо шкалы стандартного IQ выбирается иное SD , чем в других тестах, то и смысловое значение любого конкретного IQ по такому тесту будет существенно отличаться от его смыслового значения в других тестах. Эти расхождения проиллюстрированы в табл. 3-5, где приведены проценты случаев получения показателей Щпри нормальных распределениях со стандартными отклонениями от 12 до 18. Эти величины SD фактически использованы в шкалах Д2ряда опубликованных тестов. Из табл. 3-5 видно, например, что /Q ниже 70 отсекает 3,1 % площади под нормальной кривой с SD = 16 (как в шкалах Стэнфорд—Бине), но может отсекать всего лишь 0,7 % площади при нормальном распределении с SD =12 или до 5,1 % при распределении с SD =18. IQ , равный 70, традиционно использовался в качестве пограничного значения, отделяющего норму от умственного дефекта. Подобные расхождения, разумеется, имеют место для уровня IQ = 130 и выше, который можно использовать при отборе детей для программ работы с интеллектуально одаренными. Диапазон IQ = 90-110, обычно характеризуемый как нормальный, может включать от 42 до 59,6 % популяции, в зависимости от выбранного теста. Разумеется, издатели тестов стремятся к унификации, принимая SD - 16 в новых тестах и новых редакциях старых тестов, однако сохранившийся разнобой в используемых ныне тестах заставляет каждый раз выяснить величину SD .

Соотношения внутригрупповых показателей. На данном этапе рассмотрения производных показателей читатель, вероятно, уже уловил определенную общность между ними. Процентили постепенно приобрели, по крайней мере на графическом уровне, сходство с нормализованными стандартными показателями. Линейные стандартные показатели вообще оказываются неотличимыми от нормализованных, если исходное распределение первичных оценок близко к нормальному. Наконец, стандартные показатели обратились в IQ , и наоборот. В связи с последним обстоятельством переосмысление традиционного IQ , как в шкале Стэнфорд—Бине, показывает, что эти первые коэффициенты интеллекта (в виде отношения У В к ХВ) тоже можно интерпретиро-

Таблица 3-5 Процент случаев получения показателей IQ , соответствующих разным уровням интеллектуального развития, при нормальных распределениях с М - 100 и SD = {12,14,16,18}

УровеньIQ

Процент случаев

 

SD-12

SD-IA

SD-16

 

SD-18

130 и выше 0,7   1,6   3,1     5,1  
120-129 4,3   6,3   7,5     8,5  
110-119 15,2   16,0   15,8     15,4  
100-109 29,8

} 59,6

26,1

} 52,2

23,6

}47,2

  21,0

} 42,0

90-99 29,8   26,1   23,6     21,0  
80-89 15,2   16,0   15,8     15,4  
70-79 4,3   6,3   7,5     8,5  
ниже 70 0,7   1,6   3,1     5,1  
Всего 100,0   100,0   100,0     100,0  

(С любезного согласия Психологической корпорации)

Глава 3. Нормы и смысловое значение тестовых показателей

88

вать как стандартные показатели. Если мы знаем, что распределение коэффициентов IQ Стэнфорд—Бине имеет М = 100 и SD - 16, отсюда следует, что IQ = 116 превышает среднее на 1 SDu совпадает по смыслу со стандартным показателем z = + 1,0. Аналогично, IQ =132 соответствует z = + 2,0, a IQ = 76 эквивалентен г = — 1,5 и т. д. Кроме того, показатель IQ Стэнфорд—Бине, равный 116, соответствует примерно 84-му процен-тилю, поскольку 84 % площади под нормальной кривой лежит ниже отметки + 1 SD (рис. 3-4).

На рис. 3-6 показаны соотношения, существующие при нормальном распределении между рассмотренными нами типами показателей, включая г-, Т- и СEEВ-показа-тели, стандартный IQ Векслера ( SD - 15), станайны и нроцеитили. Коэффициенты интеллекта ( IQ ) по любому тесту, если они нормально распределены и имеют SD - 15, будут совпадать с приведенной здесь шкалой стандартного IQ . В эту диаграмму можно

Рис. 3-6. Соотношения между различными типами тестовых показателей при условии нормального распределения

84

Часть 2. Технические и методологические принципы

было бы включить любой другой нормально распределенный IQ при условии, что мы знаем его стандартное отклонение. Если, например, SD - 20, то IQ = 120 будет соответствовать + 1 SD , a IQ - 80, естественно, — 1 SD , и т. д.

В заключение отметим, что выбор конкретного вида показателя диктуется главным образом удобством, привычностью и легкостью разработки норм. Ввиду некоторых преимуществ, облегчающих конструирование тестов и статистическую обработку данных тестирования, различные варианты стандартных показателей (включая стандартный IQ ), в общем, вытеснили остальные типы показателей. Однако большинство типов внутригрупповых производных показателей по существу дела подобны друг другу, если они корректно выводятся и правильно интерпретируются. При соблюдении определенных статистических условий каждый из этих показателей может быть легко переведен в любой другой.

Относительность норм

Межтестовые сравнения. IQ или любой другой показатель следует всегда приводить вместе с названием теста, в котором они получены. Тестовые показатели невозможно правильно интерпретировать в отрыве от конкретного теста. Если в школьных записях зианится, что Билл Джонс получил IQ - 94, а Терри Браун — IQ = 110, то эти данные нельзя принимать, так сказать, по нарицательной стоимости без дополнительной информации. Положение этих учащихся вполне могло бы оказаться обратным, доведись им «поменяться» тестами, которые они проходили в своих школах.

Точно так же относительная позиция индивида по различным функциям может быть неверно интерпретирована из-за несопоставимости тестовых норм. Предположим, учащемуся были даны тесты на понимание слов и на способность оперировать пространственными представлениями для оценки его уровня развития в двух соответствующих областях. Если первый из этих двух тестов стандартизован на случайной выборке учеников старших классов, а второй — на специально отобранной группе учеников, посещающих факультативные занятия в школьных мастерских, тестирующий может ошибочно заключить, что этот учащийся гораздо более развит в вербальном, чем пространственном отношении, тогда как на самом деле может иметь место обратное.

Другой пример связан со сравнениями в лонгитюдных исследованиях результатов выполнения теста одним и тем же человеком на разных этапах жизни. Если в личном деле школьника содержатся показатели IQ , равные 118,115 и 101, относящиеся соответственно к 4,5 и 6-му классам, то первый вопрос, который необходимо задать, прежде чем интерпретировать эти изменения, должен быть таким: «Какие тесты давали в этих трех случаях?» Очевидное снижение результатов может отражать всего-навсего различие между тестами. В этом случае показатели ребенка остались бы теми же, даже если бы эти три теста были проведены с интервалом в одну неделю.

Существуют три основные причины систематических вариаций оценок, получаемых одним и тем же человеком по различным тестам. Во-первых, тесты, даже если они одинаково называются, могут различаться по содержанию. Множество примеров тому мы находим среди так называемых тестов интеллекта, обычно фигурирующих под одним и тем же именем, хотя одни из них включают в себя только вербальные -„„.,,.„„ „™,™0иаирлрныппеил^шественнонапоовеокупоостоанственных способно-

Глава 3. Нормы и смысловое значение тестовых показателей

85

стей, а третьи могут в равных пропорциях содержать вербальные, пространственные и числовые задания. Во-вторых, иногда несопоставимыми оказываются единицы измерения сравниваемых шкал. Как уже объяснялось, если показатели /Qno одному тесту имеют SD = 12, а по другому — SD = 18, то испытуемый, получивший по первому тесту IQ = 112, по второму, скорее всего, получитIQ = 118. В-третьих, состав выборок стандартизации, использованных при определении норм для разных тестов, может оказаться различным. Очевидно, что результаты одного и того же человека будут выглядеть лучше на фоне средних результатов менее способной, чем более способной группы. Несопоставимость содержания тестов или единиц измерения обычно выявляется при рассмотрении самого теста или при обращении к руководству по его использованию. Но несоответствие нормативных выборок заметить труднее, и им-то, вероятно, и можно объяснить многие не поддающихся иному объяснению расхождения в результатах теста.

Нормативная выборка. Любая норма, как бы она ни выражалась, ограничивается конкретной совокупностью людей, для которой она выводилась. Пользователь теста никогда не должен забывать о том, каким образом устанавливались тестовые нормы. Нормы психологических тестов ни в каком смысле нельзя считать абсолютными, универсальными или постоянными. Они просто отражают уровень выполнения теста лицами, составляющими выборку стандартизации. При формировании такой выборки обычно стремятся получить репрезентативный срез популяции, на которую ориентирован тест.

В статистике принято различать выборку и (генеральную) совокупность. Первый из этих двух терминов обозначает группу лиц, которые реально проходят тестирование. Второй относится к более широкой, но имеющей тот же состав группе людей, из которой извлекается выборка. Например, если мы хотим установить нормы выполнения теста для совокупности мальчиков 10 лет, живущих в городах и посещающих общественную школу, то нам нужно было бы отобрать, скажем, 500 десятилетних мальчиков, посещающих такие школы в нескольких американских городах. Их выборка, чтобы быть действительно репрезентативной для данной совокупности, должна быть выверена по географическому распределению, социоэкономическому уровню, этническому составу и другим существенным характеристикам.

При разработке и применении тестовых норм на выборку стандартизации следует обращать особое внимание. Очевидно, что выборка, на которой основываются нормы, Должна быть достаточно большой для обеспечения их устойчивости. Другая выборка, извлеченная аналогичным способом из той же совокупности, не должна приводить к нормам, заметно отличающимся от полученных. Нормы с большой ошибкой выборки вряд ли добавили бы смысла в интерпретацию тестовых показателей.

Столь же важно, чтобы выборка была репрезентативна изучаемой генеральной совокупности. Необходимо тщательно исследовать даже незначительные факторы, влияющие на отбор испытуемых и делающие выборку нерепрезентативной. Ряд таких факторов можно проиллюстрировать на примере институционных выборок (т. е. выборок из совокупности членов учебных, военных, лечебных, исправительных и других общественных заведений). Использование таких выборок ввиду их доступности и возможности привлечения большого числа испытуемых представляется заманчивым Для сбора нормативных данных. Однако нужно внимательно анализировать присущие этим выборкам ограничения. Так, тестированию школьников свойственно постепен-

86

Часть 2. Технические И методологические принципы

ное от класса к классу повышение уровня испытуемых, вследствие отсева менее способных учеников. В различных подгруппах это явление выражено неодинаково. Например, процент выбывших выше для мальчиков, чем для девочек. Он также выше для социальных групп, находящихся на более низком экономическом уровне.

Факторы отбора действуют и в других институционных выборках, например в выборках заключенных, пациентов психиатрических больниц или интернатов для умственно отсталых. Благодаря конкретным причинам, определившим помещение индивидуума в специальное учреждение, упомянутые группы не репрезентативны генеральной совокупности преступников, душевнобольных или умственно отсталых. Так, умственно отсталые, страдающие физическими недостатками, чаще оказываются в специальном учреждении, чем физически полноценные. Аналогично этому, доля лиц с глубокой умственной отсталостью будет намного больше в выборке такого типа, чем в соответствующей генеральной совокупности.

С вопросом репрезентативности выборки тесно связана потребность точного определения совокупности, на которую можно распространить полученные нормы. Очевидно, одним из способов обеспечения репрезентативности выборки является ограничение совокупности в соответствии с техническими характеристиками выборки. Например, если генеральная совокупность определяется так, чтобы включать не всех вообще 14-летних детей, а только 14-летних школьников, то при таких ограничениях школьная выборка могла бы быть репрезентативной. В идеале, разумеется, желаемая совокупность должна определяться заранее, исходя из целей теста, а уж затем формироваться выборка. Невозможность привлечь нужных испытуемых может, однако, сделать эту цель недостижимой. В таком случае лучше переопределить более узко изучаемую совокупность, чем распространять нормы на генеральную совокупность, которая не была адекватно представлена выборкой стандартизации. На самом деле лишь очень малое число тестов стандартизовано на таких широких совокупностях, как это обычно представляется непрофессионалам. Тестовых норм, действительных для всего рода человеческого, не существует! Сомнительно также, чтобы по какому-либо тесту имелись адекватные нормы для таких широко определяемых совокупностей, как «взрослые американцы-мужчины», «американские дети 10-летнего возраста» и т. п. Следовательно, выборки, получаемые различными создателями тестов, могут и не представлять в полной мере предполагаемые ими совокупности, обнаруживая смещенность в тех или иных отношениях. Отсюда и несопоставимость получаемых норм.

При интерпретировании тестовых показателей пользователю теста следует принимать во внимание специфические факторы, которые могли повлиять на нормативную выборку, использовавшуюся при стандартизации данного конкретного теста. К ним можно причислить особые факторы отбора, а также господствующие общественные условия в период сбора нормативных данных (Anastasi, 1985d).

Национальные анкерные нормы. Одно из решений проблемы несопоставимости норм заключается в использовании анкерного теста для составления таблиц эквивалентности показателей разных тестов. Назначение таких таблиц — представление информации о том, какой показатель в тесте А эквивалентен каждому показателю в тесте В. Для их построения можно воспользоваться методом равных процентилей, согласно которому показатели считаются эквивалентными, если они имеют равные процентили в данной группе. Например, если 80-й процентиль в одной и той же группе соответствует IQ = 115 по тесту Л и /Q = 120 по тесту В, то IQ » 115 в тесте А считается ч эквивалентным IQ = 120 в тесте В. Этот метод в ограниченной степени практиковался

Глава 3. Нормы и смысловое значение тестовых показателен

87

некоторыми издателями тестов, выпустившими таблицы эквивалентности для нескольких собственных тестов (напр., Lennon, 1966a).

Время от времени делались попытки реализовать более честолюбивые замыслы, в частности откалибровать каждый новый тест относительно единого анкерного теста, который был проведен на высоко репрезентативной нормативной выборке в масштабах всей страны (Lennon, 1966b). Пример — исследовательская программа «Анкерный тест» { Anchor Test Study ), проведенная Службой тестирования в образовании при поддержке Федерального управления просвещения { U . S . Office of Education ) (Jaeger, 1973). Ее целью было получение сопоставимых и действительно репрезентативных общенациональных норм по семи наиболее употребительным тестам достижений в области чтения, предназначенным для учеников средних классов. По тщательно разработанному плану эксперимента, позволявшему контролировать многие переменные, в 50 штатах были обследованы свыше 300 000 учеников 4,5 и 6-х классов. Анкерный тест состоял из субтестов понимания прочитанного и словарного запаса, входящих в Тест достижений для учащихся американских школ { Metropolitan Achievement Test ), по которым на первом этапе исследования были установлены новые нормы. На этапе калибровки каждому ребенку предъявлялись субтесты понимания прочитанного и словарного запаса двух из семи батарей, причем план эксперимента предполагал использование всех сочетаний из семи батарей по две. Некоторым группам предъявлялись параллельные формы двух субтестов из одной и той же батареи. В специальных группах предъявление всех пар субтестов осуществлялось в обратной последовательности, что позволяло контролировать влияние'порядка проведения тестов. По результатам статистического анализа полученных данных были составлены, с помощью метода равных процентилей, таблицы эквивалентности показателей для семи тестов, а также подготовлено руководство по интерпретации их показателей для работников системы образования и других заинтересованных лиц (Loret, Seder, Bianchini, & Vale, 1974).

Впоследствии данные, собранные на калибровочном этапе программы «Анкерный тест», были использованы для разработки шкалы единого показателя, получившей название Национальной эталонной шкалы { National Reference Scale ) (Rentz, & Bashaw, 1977). Разработанные таким образом таблицы перевода позволяют преобразовать показатель учащихся соответствующих классов по любому из семи тестов (включая их параллельные формы) в трехместный показатель единой непрерывной шкалы. Эта шкала была построена благодаря применению методов анализа заданий и шкалирования, основывающихся на модели Раша; одна из простейших моделей анализа заданий рассматривается позже в этой главе и более полно — в главе 7.

Для многих целей тестирования полезно иметь сопоставимые показатели по разным тестам, которые выражались бы в единицах одной измерительной шкалы и были выверены на одной нормативной выборке. Следует, однако, заметить, что есть разные степени и виды сопоставимости показателей. Сопоставимость, достигаемая в конкретных ситуациях, зависит от сходства тестов по содержанию и таких психометрических свойств, как надежность и уровень трудности, а также от статистических методов, используемых для получения сопоставимых показателей (Angoff, 1984; Angoff, & Cowell, 1986; P. W. Holland, & Rubin, 1982). He стоит характеризовать тесты как приравненные или полностью эквивалентные, если они не допускают взаимозамены. Несмотря на это, различные виды и степени сопоставимости могут облегчить интерпретацию результатов тестирования, при условии, что сравниваемые показатели используются правомерно и с полным представлением о том, как они были получены.

88

Часть 2. Технические и методологические принципы

Специфические нормы. Другой, и для большинства тестов, вероятно, более реалистический подход к решению проблемы неэквивалентности существующих норм заключается в стандартизации тестов на более узко определяемых совокупностях, выбираемых сообразно специфическим целям каждого теста. В таких случаях границы нормативной выборки должны быть четко определены и приведены вместе с нормами. Так, о нормах может быть сказано, что они применимы к «конторским служащим крупных фирм» или к «студентам-первокурсникам машиностроительных факультетов университетов». Для многих целей тестирования желательно иметь высоко специализированные нормы. Даже когда имеются репрезентативные нормы для более широко определяемой генеральной совокупности, часто оказывается полезным располагать отдельно публикуемыми нормами для подгрупп. Они явно не будут лишними в тех случаях, когда показатели теста заметно меняются от одной группы к другой. Сами подгруппы могут формироваться по признаку возраста, года обучения, типа школьной программы, пола, географического региона, проживания в городе или в сельской местности, социоэкономического уровня и т. д. А предназначением теста будет определятся наиболее существенный признак дифференциации подгрупп, равно как и целесообразность применения общих или специфических норм.

Следует также упомянуть о локальных нормах, которые нередко разрабатываются самими пользователями тестов в конкретных социальных условиях. Группы, используемые для получения таких норм, еще более специфичны, чем даже обсуждавшиеся выше подгруппы. Так, работодатель может накапливать нормы, тестируя претендентов на определенные должности в конкретной компании; приемная комиссия колледжа может разрабатывать нормы, обследуя совокупность своих студентов, а какая-то начальная школа может оценивать выполнение тестов своими учениками на основе собственного, внутришкольного распределения показателей. Эти локальные нормы в большей степени, чем общенациональные, отвечают таким задачам тестирования, как предсказание учебных (студенческих) или профессиональных достижений, сравнение относительных успехов детей по различным предметам, измерение.

Фиксированная эталонная группа. Хотя способ вычисления большинства производных показателей предусматривает непосредственную нормативную интерпретацию выполнения теста, существуют и примечательные исключения. Один тип ненормативных шкал использует фиксированную эталонную группу для обеспечения сопоставимости и преемственности показателей, не предусматривая нормативного оценивания выполнения теста. При использовании такой шкалы нормативная интерпретация требует обращения к независимо накопленным нормам в ходе обследования подходящей совокупности лиц. Нередко для этой цели используются локальные или другие специфические нормы.

Одним из самых ранних примеров шкалирования в единицах показателей фиксированной эталонной группы служит шкала Теста академических способностей ( Scholastic Aptitude Test илп, сокращенно, SAT )* Совета колледжей (Donlon, 1984). В период между 1926 г. (когда этот тест был применен впервые) и 1941 г. показатели ЗАГвыра-

1 Позднее этот тест был переименован в Тест академической оценки { Scholastic Assessment Test ) с целью отразить изменение взглядов на природу тестовых показателей, которое произошло в конце XX столетия. (См. особенно главу 12 о влиянии индивидуальных различий жизненного опыта на выполнение теста.)

Глава 3. Нормы и смысловое значение тестовых показателей

89

жались в нормативной шкале, исходя из среднего и SD оценок абитуриентов, полученных при очередном проведении теста. По мере того как увеличивалось число и разнообразие колледжей — членов Совета и, соответственно, менялся состав совокупности абитуриентов, было решено сохранить преемственность шкалы SAT , ибо в противном случае индивидуальные показатели ставились бы в зависимость от особенностей контингента, проходящего обследование в данном году. Еще более актуальный повод для сохранения преемственности шкалы дало наблюдение, согласно которому учащиеся, проходившие SAT в одно время года, справлялись с ним хуже тех, кто проходил тестирование в другое время года, вероятно, вследствие различного действия факторов отбора. Поэтому после 1941 г. все показатели 5!ЛГстали выражаться в единицах шкалы, в основу которой положено среднее и SD оценок примерно 11 000 абитуриентов, проходивших этот тест в 1941 г. Эти абитуриенты и составили фиксированную эталонную группу, используемую при пересчете показателей всех последующих форм данного теста. Например, показатель 500 любой формы SA Тсоответствует среднему в выборке 1941 г.; показатель 600 превышает среднее на 1 SD , и т. д.

Для того чтобы можно было перевести первичные показатели любой формы SA T в показатели фиксированной эталонной группы, в каждую такую форму включен короткий анкерный тест (или набор общих заданий). Тем самым каждая новая форма связывается с одной или двумя более ранними формами, а те, в свою очередь, — с другими, еще более ранними, цепочкой заданий, доходящей до исходной формы 1941 г. Эти ненормативные показатели SA Гможно к тому же интерпретировать, сопоставляя с любым подходящим распределением оценок, таким как распределение показателей конкретного колледжа, колледжей определенного типа, региона и т. д. Подобные специфические нормы более полезны для принятия решений о-приеме в колледж, чем, скажем, ежегодные нормы, основанные на результатах тестирования полной совокупности абитуриентов. Кроме того, любые происходящие со временем изменения в совокупности абитуриентов можно обнаружить только пользуясь шкалой фиксированных показателей. Совсем недавно шкала 5>1Гбыла заново откалибрована по результатам более миллиона учащихся, закончивших среднюю школу в 1990 г. и прошедших этот тест во время обучения в младшей средней (9-10 кл.) или старшей средней (11 -12 кл.) школе. Показатели учащихся, выполняющих SAT после 1 апреля 1995 г., заносятся в табель успеваемости уже в единицах шкалы, перестроенной на основе эталонной группы 1990 г. Для пользователей SAT были разработаны разъяснительные материалы и вспомогательные средства для облегчения перевода индивидуальных и совокупных показателей из старой шкалы в новую и наоборот (см. главу 17). Таким образом созданы условия для полной и разнообразной интерпретации индивидуальных результатов в соответствии со специфическими целями тестирования.'

Шкалы, построенные по данным фиксированной эталонной группы, в одном отношении аналогичны физическим измерительным шкалам. В этой связи Ангофф (Ап-goff, 1962, р. 32-33) пишет:

Вряд ли кто теперь точно знает первоначальное определение длины фута, которым пользуются для измерения высоты и расстояния. Вряд ли кто назовет имя короля, чья ступня была принята в качестве эталона. Вместе с тем мало

Мы выражаем благодарность Уэйну Камара из Совета колледжей за помощь в получении сообщаемой здесь информации.

90

Часть 2. Технические и методологические принципы

таких, кто не смог бы оценить длину или расстояние с помощью этой единицы измерения. Наше незнание буквального значения или происхождения фута ни в коей мере не делает его бесполезным, ведь, сколько бы ни прошло времени, фут останется одним и тем же, и это позволяет нам освоиться с ним. То же самое можно сказать и про другие единицы измерения — дюйм, милю, градус Фаренгейта и т. д. В области психологического измерения столь же справедливо утверждение, что из первоначального определения шкалы ничего не следует или не должно следовать. Все, что требуется — сохранять постоянной шкалу (в программах тестирования с применением множества форм это достигается их попарным приравниванием) и обеспечивать своевременный приток дополнительных нормативных данных, обновляемых по мере необходимости, которые облегчают интерпретацию и принятие конкретных решений.

Теория «задание ответ». Семидесятые годы были отмечены всплеском интереса к семейству довольно сложных в математическом отношении процедур для шкалирования тестовых заданий по уровню трудности (Hambleton, 1989; Hambleton, Swami-nathan, & Rogers, 1991; Jaeger, 1977). Поскольку эти процедуры требовали большого объема вычислений, их практическое применение стало возможным только с появлением широкого доступа к быстродействующим вычислительным машинам. Существенно различаясь по сложности и используемым математическим методам, все эти подходы первоначально были объединены под общим названием: модели латентных черт. В качестве основной меры в них выбиралась вероятность того, что человек с определенной способностью (так называемой латентной чертой) преуспеет в выполнении задания установленной трудности. Однако при этом не подразумевалось, что такие латентные черты или базисные способности существуют к каком-то физическом или физиологическом смысле и что они служат причинами поведения. Латентные черты — всего лишь статистические конструкты, которые математически выводятся из эмпирически измеренных связей между ответами на тест. Грубой, первичной оценкой латентной черты обследуемого является совокупный показатель, полученный им по данному тесту. Во избежание ошибочных мнений, создаваемых термином «латентная черта», некоторые из ведущих представителей этого подхода заменили его более точным описательным термином «теория "задание — ответ"» ( item response theory ) или, сокращенно, IRT (Lord, 1980; D.J. Weiss, & Davison, 1981). И именно это название стало общеупотребительным в психологии.

По существу, /ЯГ-модели используются для создания унифицированной — «независимой от выборки» — измерительной шкалы, применимой к отдельным лицам и группам лиц с широко варьирующим уровнем способности и пригодной для широко варьирующего по уровню трудности содержания теста. Как и в случае с фиксированной эталонной группой, описанной в предыдущем разделе, /КГ-модели требуют анкерных заданий или общего теста в качестве устройства сопряжения между выборками обследуемых и между тестами или наборами заданий теста. Однако, вместо того чтобы использовать для определения нулевой точки и единицы шкалы среднее и SD специфической эталонной группы, в /КГ-моделях эти параметры шкалы устанавливаются на основе данных, представляющих широкий диапазон способности и трудности задания, которые могут собираться на разных выборках. Обычно нулевую точку шкалы устанавливают в центральной области этого диапазона. Единица общей шкалы математически выводится из данных, касающихся заданий; такой подход имеет ряд пре-

Глава 3. Нормы и смысловое значение тестовых показателей

91

имуществ, как теоретических, так и практических, перед более ранними методами анализа заданий. Конкретные аспекты методологии /ЯГобсуждаются в главе 7, в связи с рассмотрением всей совокупности методов анализа заданий. Постепенно IRT внедряется в крупномасштабные программы тестирования. Например, начиная с 1982 г., методы //^применяются для приравнивания суммарных показателей по новым формам SAT , чтобы выражать их в неизменной, единой шкале (Camara, Freeman, & Ever-son, 1996; Donlon, 1984).

Общей проблеме приравнивания тестов ( test equating ), посредством чего показатели по разным формам теста выражаются в показателях единой шкалы, всегда уделялось неослабное внимание. Рассмотрение специальных вопросов различных подходов к этой проблеме выходит за рамки этого учебника. Исчерпывающий обзор и критическую оценку существующих на данный момент методов приравнивания тестов читатель может найти в работах P. W. Holland, & Rubin (1982) и Petersen, Kolen, & Hoover (1989).