Рис. 4-3. Коэффициент надежности 0,72 (по данным из статьи Anastasi & Drake , 1954).

Диаграмма рассеяния для этих данных (рис. 4-3) представляет типичное двумерное распределение, соответствующее высокой положительной корреляции. Можно видеть, как «палочки» (условные значки для кодировки испытуемых или, в общем, наблюденных случаев) теснятся вблизи диагонали, идущей из левого нижнего в правый верхний угол; тенденция группировки в этом направлении выражена довольно определенно, хотя и наблюдается некоторый разброс отдельных случаев. В следующем разделе обсуждается использование коэффициента корреляции для вычисления различных мер надежности теста.

Типы надежности

Ретестовая надежность. Самый очевидный и понятный метод определения надежности результатов теста — его повторное проведение. В этом случае коэффициент надежности (гп) просто равен корреляции между показателями, полученными теми же испытуемыми в каждом из двух случаев проведения теста. Дисперсия ошибок соответствует случайным колебаниям в выполнении заданий от одного сеанса тестирования к другому. Эти колебания могут отчасти быть результатом неконтролируе-

Глава 4. Надежность

111

мых условий тестирования — таких, как резкие изменения погоды, внезапные шумы и другие отвлекающие факторы или, скажем, сломавшийся некстати карандаш. В какой-то степени они могут быть вызваны и изменениями в состоянии самих тестируемых — например болезнью, утомлением, эмоциональным напряжением, беспокойством, недавними приятными или неприятными переживаниями и т. д. Ретестовая надежность показывает, в какой степени результаты теста можно распространить на различные случаи его применения. Чем выше надежность, тем менее чувствительны тестовые показатели к случайным суточным изменениям состояния тестируемых и обстановки тестирования.

Приводя в руководстве к тесту его ретестовую надежность, всегда следует указывать, в каком интервале времени она измерена. Поскольку ретестовые корреляции постепенно снижаются по мере увеличения этого интервала, для любого теста существует не один, а бесконечное множество ретестовых коэффициентов надежности. Желательно также давать некоторые сведения о событиях, происшедших за время между двумя сеансами тестирования с теми, на ком измерялась надежность теста, и касающихся их учебы, работы, семейной жизни, консультирования, психотерапии и т. д.

Кроме желательности сообщения длины интервала между двумя тестированиями, хорошо бы знать, какими соображениями направлялся выбор именно этого интервала? Можно привести немало примеров тестов, надежность которых остается высокой в течение нескольких дней или недель, но спустя десять-пятнадцать лет их результаты уже практически не коррелируют с первоначальными. Так, многие из тестов интеллекта для дошкольников дают достаточно устойчивые показатели на протяжении дошкольного периода, но совершенно бесполезны в качестве инструментов предсказания IQ в позднем детстве или во взрослости. На практике, однако, чаще всего следуют простому правилу в установлении границ ретсстового интервала. Обычно дисперсия ошибок тестового показателя определяется кратковременными, случайными колебаниями, происходящими в интервалах от нескольких часов до нескольких месяцев. Поэтому, при проверке этого типа тестовой надежности, стараются придерживаться небольших временных интервалов. При тестировании маленьких детей этот период должен быть еще короче, чем у испытуемых старшего возраста, поскольку в первые годы жизни связанные с возрастным развитием изменения наблюдаются ежемесячно и даже быстрее. В целом, для любого типа обследуемых лиц ретестовый интервал, по-видимому, редко превышает шесть месяцев.

Какие-либо дополнительные изменения в относительном выполнении теста одними и теми же людьми, происходящие в более длительные промежутки времени, уместнее относить к кумулятивным и прогрессирующим, а не к чисто случайным. Кроме того, такие изменения, вероятно, характеризуют более широкую сферу поведения, чем та, которая проявляется при выполнении данного теста. Так, общий уровень способности человека к обучению, пониманию технических устройств или искусства мог за 10 лет существенно измениться вследствие каких-то произошедших с ним неординарных событий. Его статус с годами мог заметно возрасти или упасть относительно статуса других людей того же возраста вследствие обстоятельств жизни дома, в школе или условий социального окружения, а также по таким причинам, как физическая болезнь или эмоциональное расстройство.

Степень влияния таких факторов на психологическое развитие человека является важной исследовательской проблемой. Однако этот вопрос не следует смешивать с вопросом надежности конкретного теста. Например, при измерении надежности те-

112

Часть 2. Технические и методологические принципы

стов Стэнфорд—Бине, мы обычно вычисляем корреляцию между показателями, полученными с интервалом не в десять лет и даже не в один год, а в несколько недель. Конечно, с этими тестами проводились и долгосрочные ретестовые испытания, но их результаты обычно обсуждаются с точки зрения предсказуемости уровня интеллекта взрослого на основе выполнения теста в детском возрасте, а не с точки зрения надежности конкретного теста. Понятие надежности в основном ограничивается сферой краткосрочных случайных изменений, характеризующих технические характеристики самого теста, а не тестируемую область поведения.

Следует отметить, что различные поведенческие функции сами могут различаться по степени обнаруживаемых суточных колебаний. Например, на отточенности движений пальцев рук могут сказаться самые незначительные изменения в состоянии человека, никак не влияющие на понимание им речи. Если хотят получить полную оценку характера движений пальцев, свойственного конкретному человеку, то, по всей видимости, придется провести повторные тесты в течение нескольких дней; в то же время для оценки уровня его вербального понимания достаточно было бы одного сеанса тестирования. Всякий раз мы должны обращаться к анализу целей теста и всестороннему осмыслению того поведения, для предсказания которого предназначен данный тест.

Несмотря на кажущуюся простоту и очевидность методики повторного тестирования, ее применение к большинству психологических тестов представляет немалые трудности. Улучшение показателей как результат тренировки при повторении теста будет, вероятно, различным у разных людей. Кроме того, если промежуток времени между первым и вторым тестированием достаточно мал, испытуемые могут припомнить многие из своих прежних ответов. Иными словами, та же картина правильных и ошибочных ответов, вероятно, воспроизводится благодаря работе одной только памяти. Следовательно, результаты двух предъявлений теста не будут независимыми, и корреляция между ними окажется обманчиво высокой. К тому же повторное проведение может изменить саму сущность теста. В первую очередь это относится к задачам, требующим логических рассуждений или сообразительности. Испытуемый, однажды ухватив принцип решения или построив всю цепь рассуждений, в дальнейшем может воспроизводить правильный ответ, минуя промежуточные ступени. Методика повторного тестирования применима только к тем тестам, на которые их повторное проведение на одних и тех же испытуемых не оказывает заметного влияния. К этой категории относится ряд моторных тестов и тестов сенсорного различения. Однако для подавляющего большинства психологических тестов эта методика определения коэффициента надежности оказывается неприменимой.

Надежность взаимозаменяемых форм. Один из способов избежать трудностей, с которыми приходится сталкиваться при определении ретестовой надежности, — использование взаимозаменяемых форм ( alternate forms ) теста. Одних и тех же испытуемых могут тестировать в первый раз с помощью одной формы, а второй раз — с помощью другой, эквивалентной формы. Корреляция между показателями, полученными по двум формам теста, представляет его коэффициент надежности. Заметим, что такой коэффициент надежности служит мерой как временной устойчивости, так и согласованности ответов на различные выборки заданий (или формы теста). Таким образом, этот коэффициент служит смешанной характеристикой двух типов надежности. Однако поскольку оба ее типа важны для большинства целей тестирования, надежность взаимозаменяемых форм оказывается полезной мерой для оценки многих тестов.

Глава 4. Надежность

ИЗ

Понятие выборочной проверки заданий, или выборочной проверки содержания ( content samplingy, лежит в основе не только данного, но и других типов надежности, о которых речь пойдет дальше. Именно поэтому оно заслуживает более тщательного рассмотрения. Вероятно, каждому студенту когда-то доставались на экзамене вопросы именно по той теме, к которой он был особенно хорошо подготовлен или, напротив, знал этот материал особенно плохо. Столь знакомая всем ситуация иллюстрирует дисперсию ошибок, вызванную выборочной проверкой содержания. В какой степени показатели данного теста зависят от факторов, специфичных для этой конкретной подборки заданий? И если другой исследователь, работая независимо от нас, подготовил бы другой тест в соответствии с теми же требованиями, то насколько бы результаты этих тестов отличались друг от друга?

Предположим, что для оценки понимания слов общего употребления был сконструирован словарный тест, состоящий из 40 заданий. Предположим далее, что с той же целью был составлен второй тест из 40 других слов, причем были соблюдены все предосторожности, чтобы трудность теста оставалась той же самой. Различия в показателях, полученных по этим двум тестам одними и теми же людьми, иллюстрирует рассматриваемый тип дисперсии ошибок. Под действием случайных факторов, связанных с прошлым опытом разных людей, относительная трудность двух списков будет несколько меняться с переходом от одного человека к другому. Так, первый список может содержать больше слов, незнакомых испытуемому А, чем второй, в котором, в свою очередь, могло оказаться непропорционально много слов, незнакомых испытуемому В. Если оба испытуемых примерно равны по своему словарному запасу (т. е. по своим «истинным показателям»), то В тем не менее превзойдет Л по первому списку, тогда как А превзойдет В по второму. Относительное положение испытуемых Л и В по данным двум спискам окажется взаимно противоположным из-за случайных различий в подборке заданий.

Как и в случае ретестовой надежности, сведения о надежности взаимозаменяемых форм всегда должны сопровождаться указанием длительности временного интервала между двумя предъявлениями теста, а также характеристикой релевантных событий, происшедших за это время в жизни испытуемых. Если обе формы применяются непосредственно одна за другой, то полученная корреляция показывает только надежность параллельных форм, но ничего не говорит о надежности как временной устойчивости. Дисперсия ошибок в этом случае обусловлена колебаниями результатов при переходе от одного набора заданий к другому, а не временными флуктуациями показателей.

При разработке взаимозаменяемых форм, безусловно, следует позаботиться о том, чтобы они на самом деле были параллельными. Принципиально важно, чтобы параллельные формы конструировались как независимые тесты, отвечающие, однако, одним и тем же требованиям. Такие тесты должны содержать одинаковое число заданий, представленных в одной и той же форме и с однотипным содержанием. Диапазон и уровень трудности заданий тоже должны быть одинаковыми. Инструкции, временные рамки, поясняющие примеры, формат бланков и все другие аспекты теста также необходимо проверить на сопоставимость.

Следует добавить, что наличие параллельных форм желательно и по другим соображениям, помимо определения надежности теста. Взаимозаменяемые формы полез-

1 Строгий термин content sampling в этом контексте можно более вольно перевести как выборочная представленность содержания или, короче, выборка содержания. Примеч. науч. ред.

114

Часть 2. Технические и методологические принципы

ны при повторных исследованиях и при изучении влияния некоторых промежуточных экспериментальных факторов на выполнение теста. Использование нескольких взаимозаменяемых форм служит, кроме того, средством уменьшения возможности натаскивания в выполнении тестов и обмана.

Несмотря на гораздо более широкое, сравнительно с ретестовой надежностью, применение, надежность взаимозаменяемых форм также обнаруживает ряд ограничений. Прежде всего, если изучаемые поведенческие функции подвержены значительному влиянию тренировки, использование параллельных форм ослабит, но не устранит его полностью. Конечно, если бы у всех тестируемых наблюдалось одно и то же улучшение результатов при повторном проведении теста, это не повлияло бы на корреляцию показателей, поскольку прибавление постоянной величины к каждому показателю не меняет коэффициента корреляции. Однако, скорее всего, улучшение результатов у разных людей будет неодинаковым вследствие индивидуальных различий в опыте работы с подобным материалом, в мотивации участия в тесте и по других причинам. При этих условиях эффект тренировки представляет собой еще один источник дисперсии, снижающей, в общем, корреляцию между двумя формами. Но если влияние тренированности невелико, снижение корреляции будет незначительным.

Другая проблема связана с возможным изменением сущности теста при повторном его проведении. Например, если в параллельных задачах на сообразительность применен один и тот же принцип, то большинство испытуемых, однажды найдя решение, и во второй раз применят его. В подобных случаях одной замены содержания заданий явно недостаточно для того, чтобы избежать переноса принципа принципов решения из одной формы теста на другую. Наконец, следует добавить, что для многих тестов взаимозаменяемые формы отсутствуют ввиду практических трудностей создания подлинно эквивалентных форм. В силу этих причин часто приходится обращаться к другим методам оценки надежности теста.

Надежность эквивалентных половин теста. Меру надежности можно определить и на основании однократного применения единственной формы теста, пользуясь для этого различными процедурами расщепления теста на две равноценные половины. При таком способе каждый испытуемый получает два показателя благодаря разделе-] шю теста на две эквивалентные части. Очевидно, что надежность, найденная методом расщепления, дает нам меру согласованности выборочных проверок содержания. Временная устойчивость показателей в такой характеристике надежности не представлена, поскольку она предполагает только один сеанс тестирования. Этот тип коэффициента надежности иногда называют коэффициентом внутренней согласованности, так как для его определения требуется лишь однократное проведение единственной формы теста.

Первая проблема, с которой мы сталкиваемся при применении метода расщепления, связана с тем, как разделить тест, чтобы добиться максимальной эквивалентности его половин. Всякий тест можно членить многими способами. В большинстве тестов первая и вторая половины оказались бы неэквивалентными вследствие различий в характере и уровне трудности заданий, а также в связи с кумулятивными эффектами вхождения в работу, практики, утомления, скуки и любых других факторов, воздействие которых нарастает от начала к концу теста. Подходящий для большинства целей метод состоит в вычислении показателей отдельно по четным и нечетным заданиям теста. Если задания теста были изначально расположены в порядке возрас-

Глава 4. Надежность

115

тания трудности, то такое разбиение дает практически эквивалентные показатели обеих половин. Одна предосторожность, которую требуется при этом соблюдать, относится к случаю, когда тест содержит группу взаимосвязанных заданий — например, когда несколько вопросов касаются какого-то одного чертежа механического устройства в тесте технических способностей или одного и того же фрагмента текста в тесте чтения. В этом случае каждая такая группа заданий должна быть целиком отнесена либо к одной, либо к другой половине. Если задания таких групп разделить на две части, то возникнет обманчивое сходство сравниваемых показателей, так как любая ошибка в понимании задачи скажется на выполнении заданий из обеих половин.1

Полученные показатели по двум частям теста коррелируются обычным методом. Нужно иметь в виду, однако, что эта корреляция в действительности показывает надежность лишь половины теста. Например, если весь тест состоит из 100 заданий, то корреляция вычисляется между двумя множествами показателей, каждый из которых основан только на выполнении 50 заданий. В отличие от надежности этого типа, при расчете ретестовой надежности, как и надежности взаимозаменяемых форм, каждый показатель основывается на полном наборе заданий теста.

При прочих равных условиях, чем больше заданий содержит тест, тем выше его надежность.2 Вполне оправданно ожидать, что чем обширнее выборка поведения, тем адекватнее и согласованнее получаемые единицы измерения. Влияние, оказываемое увеличением или сокращением теста на его коэффициент надежности, можно оценить с помощью формулы Спирмена—Брауна:

где rnn — ожидаемое значение коэффициента надежности; п — отношение нового числа заданий к первоначальному; rttполученное значение коэффициента надежности. Так, если число заданий теста возросло с 25 до 100, то п = 4, а если оно сократилось с 60 до 30, то п = 1/2. Формула Спирмена—Брауна широко используется при определении надежности методом расщепления, и во многих руководствах к тестам данные о надежности приводятся в этом виде. Применительно к расчетам надежности эквивалентных частей теста формула Спирмена—Брауна всегда предполагает удвоение числа заданий теста, и потому может быть приведена к более простому виду:

где rhh — корреляция эквивалентных половин теста.

Альтернативный метод вычисления надежности эквивалентных половин теста был разработан Рюлоном (Rulon, 1939). Требуется знать только дисперсию разностей между показателями каждого испытуемого по обеим половинам теста ( SD 2 d) и дисперсию показателей по полному тесту ( SD ]); значения этих величин подставляются в

' К настоящему времени накоплено достаточно эмпирических данных в пользу этого предположения, равно как и результатов статистического анализа таких монолитных групп заданий, или «тестов в тесте» (Screci, Thissen, & Wainer, 1991).

2 Увеличение числа заданий теста не влияет на временную устойчивость его показателей, а повышает только его согласованность с точки зрения выборочной проверки содержания (см. Cureton, 196j; Cureton et al., 1973).

116

Часть 2. Технические и методологические принципы

следующую формулу, которая позволяет сразу получить характеристику надежности полного теста:

Интересно отметить связь между этой формулой и определением дисперсии ошибок. Любая разность между показателями испытуемого по двум половинам теста отражает постороннее влияние или дисперсию ошибок. Дисперсия таких разностей, поделенная на дисперсию показателей по всему тесту, дает долю дисперсии ошибок в этих показателях. Вычитая эту дисперсию ошибок из единицы, мы получаем долю «истинной» дисперсии для установленного применения теста, которая равна его коэффициенту надежности.

Надежность по Кьюдеру—Ричадсону и коэффициент альфа. Четвертый метод определения надежности, также использующий однократное предъявление единственной формы теста, основан на оценке согласованности ответов по всем заданиям теста. На эту внутреннюю согласованность ( interitem consistency букв, «взаимосогласованность заданий»} влияют два источника дисперсии ошибок: 1) выборочная представленность содержания (как в случае надежности взаимозаменяемых форм и эквивалентных половин теста) и 2) неоднородность выборочной области поведения. Чем однороднее эта область, тем выше внутренняя согласованность. Например, если один тест включает только задания на умножение, а другой — на сложение, вычитание, умножение и деление, то первый тест, вероятно, покажет более высокую внутреннюю согласованность, чем второй. Во втором, более разнородном тесте один испытуемый может лучше справиться с вычитанием, чем с другими арифметическими действиями, другой покажет относительно высокий результат в делении, но хуже проявит себя в сложении, вычитании и умножении, и т. д. Более контрастным примером однородности и разнородности мог бы служить тест, состоящий из 40 словарных заданий, и тест, содержащий 10 словарных заданий, 10 заданий на пространственные отношения, 10 — на арифметическое рассуждение и 10 — на скорость восприятия. В последнем тесте связь между выполнением различных типов заданий одним человеком может быть незначительной или полностью отсутствовать.

Очевидно, что чем однороднее тест, тем однозначнее его результаты. Предположим, что в последнем из только что упомянутых тестов из 40 заданий Смит и Джонс получили по 20 баллов. Можем ли мы заключить, что с этим тестом они справились одинаково? Вовсе нет. Смит мог правильно ответить на 10 словарных вопросов, выполнить 10 заданий на скорость восприятия и не справиться ни с одним заданием на арифметическое рассуждение и пространственные отношения. Напротив, 20 баллов Джонса могли распределиться таким образом: 5 за скорость восприятия, 5 за пространственные отношения, 10 за арифметическое рассуждение и 0 за словарь.

Суммарный показатель в 20 баллов, разумеется, можно было бы набрать путем множества других комбинаций, и тогда он имел бы совершенно иной смысл для каждой из таких различных комбинаций. С другой стороны, в более однородном словарном тесте показатель в 20 баллов, вероятно, означал бы, что испытуемый правильно указал значение примерно 20 первых слов, если задания располагались в порядке возрастания трудности. Он мог ошибиться в отношении двух-трех сравнительно легких слов, дать правильный ответ по более трудным словам, расположенным под номерами,

Глава 4. Надежность

117

большими 20, но такие индивидуальные колебания ничтожны по сравнению с теми, которые обнаруживаются в более разнородном тесте.

Весьма существенным в этой связи является вопрос об относительной однородности (или неоднородности) самого критериального признака, на предсказание которого направлен тест. Хотя однородные тесты могут предпочитаться, потому что их показатели допускают довольно однозначную интерпретацию, но взятый в отдельности однородный тест, очевидно, непригоден для предсказания крайне неоднородного критериального признака. Более того, при предсказании неоднородного признака-критерия разнородность заданий теста не обязательно означала бы дисперсию ошибок. Традиционные тесты интеллекта дают хороший пример неоднородных тестов, предназначенных для предсказания неоднородного критериального признака. В подобных случаях, однако, иногда желательно составить несколько относительно однородных тестов, каждый из которых измерял бы различные аспекты неоднородного критериального признака. Тем самым однозначная интерпретация показателей теста могла бы сочетаться с адекватным охватом признака-критерия.

Самая распространенная методика оценки внутренней согласованности была разработана Кьюдером и Ричардсоном (Kuder, & Richardson, 1937). Как и в методах расщепления, внутренняя согласованность находится по данным однократного проведения единственной формы теста, но вместо использования показателей по двум эквивалентным половинам теста эта методика опирается на результаты выполнения каждого задания. Из различных формул, выведенных в указанной статье, шире других применяется так называемая формула KR — 20:

В этой формуле rttкоэффициент надежности полного теста, п — число заданий в тесте, a SDtстандартное отклонение суммарных показателей теста. Единственным новым элементом в этой формуле является сумма ∑ pq где p и q — доля испытуемых, соответственно справившихся (р) и не справившихся ( q ) с каждым заданием. Чтобы вычислить ∑ pq, нужно для каждого задания найти произведение pxq , a затем сложить эти произведения по всем заданиям. Поскольку в процессе конструирования теста величина p часто фиксируется для определения уровня трудности каждого задания, этот метод определения надежности требует лишь незначительных добавочных вычислений.

Можно математически доказать, что коэффициент надежности Кьюдера—Ричардсона представляет собой среднее значение коэффициентов надежности частей теста, вычисляемых для всех возможных разбиений теста надвое (Cronbach, 1951).1 Обычный же коэффициент надежности частей теста основан на разбиении, построенном в расчете на получение эквивалентных половин. Поэтому в случае неоднородности заданий теста коэффициент Кьюдера—Ричардсона будет ниже коэффициента надежности эквивалентных половин. Следующий контрастный пример поясняет, в чем причина такого расхождения. Допустим, мы составляем тест из 50 заданий 25 различных видов (например, задания 1 и 2 — на понимание слов, 3 и 4 — на арифметическое

Строго говоря, это утверждение справедливо, лишь когда коэффициенты надежности частей геста Рассчитываются по формуле Рюлона (основанной на дисперсии разностей между показателями по °беим половинам теста), а не методом корреляции половин или по формуле Спирмена—Брауна (Novick & Lewis, 1967).

118

Часть 2. Технические и методологические принципы

рассуждение, 5 и 6 — на пространственную ориентацию и т. д.). Показатели по четным и нечетным заданиям этого теста теоретически могли бы весьма тесно коррелировать друг с другом, что дало бы высокий коэффициент надежности эквивалентных половин. Но однородность этого теста была бы очень низкой в силу почти полного отсутствия согласованности результатов выполнения всех 50 заданий. В данном примере есть все основания ожидать, что коэффициент Кыодера—Ричардсона окажется намного ниже коэффициента надежности эквивалентных половин теста. Фактически, разность между этими двумя коэффициентами может служить приблизительной числовой оценкой однородности теста.

Формула Кьюдера—Ричардсона применима лишь к тем тестам, в которых выполнение заданий оценивается как правильное либо ошибочное, или, в общем, по принципу «все или ничего». В некоторых тестах, однако, практикуется более дифференцированная форма представления результатов отдельных заданий. Например, в личностном опроснике респондент может получить различные числовые показатели по любому конкретному пункту опросника в зависимости от того, на какой из готовых категорий ответов он остановил свой выбор: «обычно», «иногда», «редко», «никогда». Для таких тестов была выведена обобщенная формула, известная как коэффициент альфа (Сгоп-bach, 1951; Kaiser, & Michael, 1975;Novick, & Lewis, 1967). В этой формуле ∑ pq заменена на ∑( SD 2 i ) — сумму дисперсий балльных оценок по каждому заданию теста. Процедура вычислений состоит в нахождении дисперсии всех индивидуальных балльных оценок по каждому заданию с последующим суммированием этих дисперсий по всем заданиям. Полная формула коэффициента альфа выглядит следующим образом:

Надежность оценщика. Теперь уже очевидно, что различные типы надежности отличаются друг от друга факторами, относимыми к источникам дисперсии ошибок. В одном случае дисперсия ошибок охватывает временные колебания, в другом относится к различиям между наборами параллельных заданий, в третьем учитывает любую внутреннюю несогласованность теста. С другой стороны, факторы, исключенные из мер дисперсии ошибок, образуют два широких класса: а) факторы, чья дисперсия сохраняется в показателях, так как эти факторы составляют часть истинных различий, измеряемых тестами, и б) нерелевантные факторы, поддающиеся экспериментальному контролю. Например, в руководстве к тесту не принято сообщать об ошибках измерения, которые могут появиться в результате проведения теста в отвлекающей обстановке или в более короткое или длительное, чем это положено, время. Подобных нарушений можно избежать, и поэтому нет нужды в отдельных коэффициентах надежности, соответствующих «дисперсии отвлечения» или «дисперсии временных лимитов».

Большинство тестов, особенно если они предназначены для массового обследования с использованием компьютеров для вычисления показателей, настолько стандартизированы, что их проведение и регистрация результатов сводят на нет дисперсию ошибок, обусловленную этими факторами. Пользуясь такими тестами, необходимо лишь внимательно следить за выполнением соответствующих предписаний. Вместе с тем в отношении клинических тестов, применяемых при интенсивных индивидуальных обследованиях, накоплены данные о значительной дисперсии наблюдателя (еха-

Глава 4. Надежность

119

miner variance). Благодаря использованию специальных планов эксперимента удается отделить эту дисперсию от той, которая обусловлена временными колебаниями в состоянии испытуемого или применением взаимозаменяемых форм теста.

Один источник дисперсии ошибок, который довольно легко установить, — это дисперсия оценщика (scorer variance). Некоторые типы тестов, — особенно тесты креативности и проективные личностные тесты, — предоставляют довольно много свободы пользователю, оценивающему ответы испытуемого и выставляющему за них определенное количество баллов. При работе с такими тестами потребность в мере надежности оценщика столь же велика, как и в более привычных коэффициентах надежности. Надежность оценщика можно определить, располагая выборкой протоколов выполнения теста, оцененного двумя специалистами независимо друг от друга. Между двумя множествами полученных таким образом показателей вычисляется обычный коэффициент корреляции, который и служит искомой мерой надежности оценщика. Если подсчет показателей теста существенно зависит от суждений пользователя, то в руководстве к тесту необходимо также привести и коэффициент надежности оценщика.

Общий обзор типов и коэффициентов надежности. Различные виды только что рассмотренных коэффициентов надежности сведены в табл. 4-2 и 4-3. В табл. 4-2 методы, применяемые для оценки каждого типа надежности, сгруппированы в зависимости от числа требуемых для этой цели форм теста и сеансов тестирования. В табл. 4-3 представлены источники дисперсии, трактуемые каждым из методов как дисперсия ошибок.

Таблица 4-2 Классификация методов измерения надежности в зависимости ОТ требуемого числа форм теста и сеансов тестирования

Необходимое Необходимое число форм теста

 
ЧИСЛО сеансов одна две  
тестирования    
Один Метод расщепления на эквивалент- Метод взаимозаменяемых форм  
ные половины (непосредственный )  
Метод Кыодера—Ричардсона    
Два Метод «тест — ретест» Метод взаимозаменяемых форм (отсроченный)  

Любой коэффициент надежности можно интерпретировать непосредственно в процентах дисперсии показателей, приписываемой разным источникам. Так, коэффициент надежности 0,85 означает, что 85 % дисперсии показателей теста зависят от Истинной изменчивости (дисперсии) измеряемой черты, а 15 % — от дисперсии ошибок (что операционно определяется используемой расчетной процедурой). Читателю, знакомому со статистикой, напомним, что именно квадрат коэффициента корреляции представляет собой часть общей дисперсии. Фактически, доля истинной дисперсии в показателях теста есть квадрат корреляции между показателями, полученными по какой-то одной форме теста, и истинными показателями, свободными от случай-

120

Часть 2. Технические и методологические принципы

ных ошибок. Эта корреляция, именуемая индексом надежности,1 равна корню квадратному из коэффициента надежности (yfc ). Если индекс надежности возвести в квадрат, то получится исходный коэффициент надежности ( гя), который, следовательно, можно прямо интерпретировать как процент истинной дисперсии для указанного использования теста.

Таблица 4-3 Источники дисперсии ошибок, связываемые с коэффициентами надежности

Вид коэффициента надежности Дисперсия ошибок
Ретестовый Временная выборка
Взаимозаменяемых форм (непосредственный) Выборка содержания
Взаимозаменяемых форм (с временным Временная выборка и выборка содержания
интервалом)  
Эквивалентных половин теста Выборка содержания
Кьюдера—Ричардсона и альфа Выборка содержания и неоднородность со-
  держания
Оценщика Различия между оценщиками

Планы эксперимента, позволяющие получать несколько разных коэффициентов надежности на одной группе испытуемых, дают возможность проводить компонентный анализ суммарной дисперсии показателей. Рассмотрим следующий гипотетический пример. Предположим, на 100 шестиклассниках с интервалом в два месяца были проведены формы Aw . В теста креативности. В результате, надежность взаимозаменяемых форм составила 0,70. Кроме того, по ответам на любую из форм теста можно было вычислить коэффициент надежности эквивалентных половин.2 Этот коэффициент, повышенный за счет применения формулы Спирмена—Брауна, составил 0,80. Наконец, надежность оценщика, полученная благодаря привлечению еще одного специалиста, проставившего новые баллы в случайно выбранных 50 протоколах ответов, оказалась равной 0,92. Анализ этих трех коэффициентов надежности с целью получения значений дисперсий ошибок показан в табл. 4-4 и на рис. 4-4. Вычитая дисперсию ошибок, связываемую только с выборкой содержания, из дисперсии ошибок, обусловленной временной выборкой и выборкой содержания, находим, что 0,10 последней можно приписать чистому влиянию временной выборки. Складывая дисперсии ошибок, связываемые с выборкой содержания (0,20), временной выборкой (0,10) и различиями между оценщиками (0,08), получаем суммарную дисперсию ошибок, равную 0,38, из чего следует, что величина истинной дисперсии равна 0,62. Эти компоненты дисперсии, выраженные в более привычной процентной форме, графически изображены на рис. 4-4. Такая классификация источников дисперсии составляет существо так называемой теории надежности как обобщаемости ( generalizability theory of reliability ). Сложные экспериментальные планы, позволяющие производить одно-

1 Выведение индекса надежности, основанное на двух различных наборах допущений, представлено в книге Гулликсена (Gulliksen, 1950, chaps. 2 and 3).

2 В целях более точной оценки коэффициента внутренней согласованности, корреляции между двумя половинами теста можно было вычислить для каждой формы отдельно, а затем найти среднее из двух коэффициентов корреляции, воспользовавшись подходящими статистическими методами (например, г-преобразованием Фишера).

Глава 4. Надежность

121

Таблица 4-4 Анализ источников дисперсии ошибок в гипотетическом тесте

По надежности взаимозаменяемых форм 1 — 0,70 = 0,30 (временная выборка + выборка

(с временным интервалом) содержания)

По надежности эквивалентных половин 1 — 0,80 = 0,20* (выборка содержания)

теста (формула Спирмена—Брауна)

Разность 0,10* (временная выборка)

По надежности оценщика 1 — 0,92 » 0,08* (различия между оценщиками)

Суммарная оценка дисперсии ошибок* = 0,20 + 0,10 + 0,08 = 0,38* Истинная дисперсия = 1 — 0,38 = 0,62

* Дисперсия ошибок

временную оценку большего числа источников дисперсии показателей и взаимодействий между ними, можно найти в публикациях, посвященных обстоятельной разработке этого вопроса (см., например, Brennan, 1984; Cronbach et al., 1972; Feldt, & Bren-nan, 1989; Shavelson, & Webb, 1991).