Оценка надежности. Последовательность действий при проверке надежности.
Выявить информацию о том, существуют ли данные о надежности теста, который предполагается использовать, существенно и то, в какой диагностической ситуации проводилась проверка. Если проверки не было или имеются признаки влияния новых выборок и ситуаций на результаты, то требуется выполнить заново проверку с учетом указанных возможностей.
Провести повторное тестирование на всей выборке стандартизации и подсчитать все коэффициенты как для целого теста, так и для его отдельных пунктов.
Если возможности обследования выборки испытуемых ограниченны, производится повторное тестирование только на части выборки, но при этом эта часть не должна быть меньше 30 обследуемых. Далее необходимо подсчитать ранговую или четырехклеточную корреляцию для оценки внутренней согласованности и стабильности теста в целом.
Надежность необходима для достижения достаточной валидности.
4.3. Валидность как соответствие результатов диагностируемому свойству
Как считала А. Анастази, валидность указывает на то свойство, которое тест измеряет, и на то, как хорошо он это делает. Валидность теста не может превышать надежность, но повышение надежности не обязательно приводит к повышению валидности. Основное соотношение выглядит следующим образом: В < Н. Это означает, что валидность теста не может превышать его надежности, другими словами, ненадежная методика не может быть валидной.
В психометрии понятию валидности уделяется не слишком много внимания по сравнению с концепцией надежности. Концепция валидности относительно трудна для изучения и для математического определения.
Валидность — комплексная характеристика методики, включающая сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним. В качестве сходных с ним понятий могут быть названы правдивость, полезность, точность, возможность интерпретации (интерпретируемость), прогностическая способность и помощь в принятии решений. Как уже подчеркивалось, разные типы валидности имеют одну и ту же основу. Однако понятие валидности должно быть четко определено применительно к различным целям, аспектам и контекстам. Такая дифференциация дает информацию о том, в каком контексте концепция валидности может быть использована.
Общепризнано, что нецелесообразно использовать в работе практического психолога один и тот же тест для оценки, например, интеллектуальных способностей и свойств темперамента всех представителей выборки и в различных экспериментальных ситуациях. В отдельных случаях допустимо использование различных Шкал одного и того же теста (например, тест коммуникативного и когнитивного развития младенцев Н. Бейли).
Определяется валидизация путем сопоставления (корреляции) результатов тестирования с успешностью выполнения испытуемыми соответствующей деятельности, определяемой иными способами. Процесс валидизации можно также представить как установление корреляционных связей данных, полученных в ходе психодиагностического тестирования, с результатами обследования испытуемых по другим проверенным и надежным методикам.
Принято считать валидность достаточно высокой, если коэффициент корреляции будет более 0,6. При его значении 0,45-0,65 валидность считается вполне удовлетворительной.
Валидность, надежность, соответствие тестовым нормам (репрезентативность) — основные требования адекватного психометрического исследования свойств личности. Их объективный характер, возможность перепроверки результатов являются гарантией достоверной психологической информации. В связи с чрезвычайно широким распространением технологий психодиагностического тестирования в Западной Европе и Северной Америке вопрос их возможного использования в новых региональных и социальных условиях стоит чрезвычайно остро. Необходимое условие успешного применения известных зарубежных тестовых методик — их адаптация.
Рассматривают в основном следующие типы валидности: содержательная (логическая), прагматическая (критериальная), теоретическая (конструктная). В каждом руководстве по психодиагностике можно встретить описание этих трех типов.
Содержательная валидность (логическая, валидность по содержанию) характеризует степень репрезентативности заданий теста измеряемой области психологических свойств. Применяется в методиках, исследующих деятельность, близкую к реальности. Содержательная валидность требует того, чтобы каждое задание, задача или вопрос, принадлежащие к определенной области, имели равные шансы стать заданиями теста. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) измеряемой области поведения. Оценка содержательной валидности в определенной степени субъективна и зависит от мнений экспертов.
При исследовании содержательной валидности необходимо создать адекватную модель тестирования деятельности, охватывающей главные аспекты ее пропорции. На практике для определения содержательной валидности отбираются эксперты, которые указывают, какая область поведения важна, а затем, исходя из этих областей, генерируются задания теста, которые вновь оценивают эксперты.
Прагматическая валидность (эмпирическая, критериальная) измеряется всегда с помощью статистического коррелирования. Подсчитывается корреляция двух рядов значений: баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности. Эти критерии являются показательными, обладающими непосредственной ценностью для определения областей практики; условием, ориентированным на эти категории.
Критериями в большинстве случаев выступает социально-значимое поведение, например успеваемость в школе, профессиональная деятельность или социальная адаптация.
Психолог решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психолого-педагогической программы. Соответствие критерия проверяется с помощью корреляционного анализа. Если г > 0,75, то можно говорить о валидности методики.
Теоретическая (конструктная) валидность демонстрируется полным описанием переменной, для измерения которой предназначается тест. Каждая методика должна иметь теоретическое обоснование. Она включает в себя все виды валидности, которые были перечислены выше. Конструктная валидность имеет отношение к теоретическому конструкту самому по себе и включает в себя поиск факторов, объясняющих поведение человека при выполнении теста.
Решение вопроса о конструктивной валидности теста представляет собой поиск ответа на два вопроса:
• существует ли реально некоторое исследуемое свойство?
• надежно ли измеряет данный тест индивидуальные различия по этому свойству?
Кроме этого, некоторыми исследователями выделяются также и другие требования к созданию и апробации новой методики.
Дружинин В. Н., к примеру, указывает на то, что наиболее оптимально использовать семь заданий (вопросов) для исследования одного психологического явления. Айзенк Г. утверждает, что количество заданий теста, необходимых для качественной оценки выраженности исследуемого свойства психики или качества личности, должно составлять от 20 до 30. Если мы проанализируем существующие психодиагностические методики по данному показателю, то обнаружим, что разные авторы используют различное количество вопросов, которое варьируется от 7 до 220, а иногда и более тысячи, как в одном из вариантов теста Бине. При этом каждый автор по-своему аргументирует свою позицию, и иногда эти аргументы прямо противоположны друг другу.
4.4. Достоверность психологической диагностики
Достоверность психологической диагностики определяется тем набором психологических методов, методик, приемов, которые применяются психодиагностом. Достижение достоверности требует специальных усилий и процедур по ее обеспечению. Достоверность характеризует устойчивость измерительной процедуры к фальсификации результатов теста. Объективность результатов исследования и его достоверность во многом определяются всесторонностью изучения обследуемого.
Комплекс психологических методов — тестирование, наблюдение, анализ продуктов деятельности, учет случайных факторов в сопоставлении друг с другом составляют основу объективности психологического диагноза. В процессе работы психодиагност должен уметь сопоставлять результаты применяемых методов и выявлять сущностные характеристики обследуемого.
Справедливо отмечается, что есть большая разница между достоверностью полученных в конкретном обследовании данных и достоверностью вывода. Выводы всегда относительны, поскольку щепаются на основании экспериментов или наблюдений, проведенных но одной или нескольким из возможных методик и направлений и одному из возможных способов интерпретации данных. Таким образом, диагноз должен основываться на критическом и осторожном истолковании данных, полученных из разных источников (Детская психодиагностика и профориентация, 1999, с. 334).
Кроме достоверности полученных результатов и достоверности выводов, существует понятие «достоверность теста», под которой подразумевается способность теста защищать информацию от мотивационных искажений обследуемых.
Достоверность тестирования тесно связана со степенью доверительности общения с психодиагностом. Выделяются две диа-гностические ситуации: консультативная (ситуация клиента) и аттестационная (ситуация экспертизы). В первом случае обследуемый участвует в тестировании на добровольной основе и сам заинтересован получить рекомендации по результатам диагностирования. Во втором случае тестирование проводится по инициативе взрослого (педагога, психолога, родителей и других лиц). При этом обследуемый не проявляет инициативности.
Психодиагностическое исследование ребенка, как уже отмечалось, сопровождается рядом трудностей. В данном случае трудность заключается в специфическом источнике информации, которым является сам ребенок с его психологическими, психофизиологическими, индивидуальными особенностями.
Прежде чем стать источником информации, ребенок должен правильно понять вопрос, инструкцию, задание или любое другое требование психодиагноста. Но дети обладают различной способ-ностью понимания, что отражается на достоверности получаемых результатов.
При этом и психические процессы имеют разный уровень раз-вития в зависимости от возраста ребенка. Например, особенности памяти, свойства внимания имеют свою возрастную специфику. Это также необходимо учитывать в процессе диагностирования ребенка.
В процессе психологической диагностики ребенка важную роль играет мотивация участия обследуемого. Важная задача психодиагноста — заинтересовать ребенка в процессе тестирования, но при этом не исказить результаты диагностирования повышенной мотивацией. Дошкольники лишь тогда будут в процессе психодиагностики демонстрировать свои способности, т. е. показывать результаты, объективно отражающие уровень их психологического развития, когда сами методики и имеющиеся в них психодиагностические задания вызывают и поддерживают к себе интерес на протяжении всего времени обследования. Как только непосредственный интерес ребенка к выполняемым заданиям утрачивается, он перестает проявлять те способности и задатки, которыми реально обладает.
Бодалев А. А. и Столин В. В. акцентируют внимание на достоверности самоотчетов, что особенно существенно в отношении психодиагностики детей дошкольного возраста. Отслеживание достоверности самоотчетов больше касается взрослых обследуемых и детей школьного возраста, у которых уже сформирована самооценка и развит уровень самосознания. Авторы выделяют определенные психологические факторы, от которых зависит достоверность самоотчета (Бодалев А. А. Столин В. В., 2000).
1. Фактор знания. У обследуемого может быть более или менее четкое представление о следующем:
• свойственны ли ему в действительности или нет тестируемые поведенческие признаки;
• какое личностное свойство скрывается у психолога за тем или иным конкретным поведением, описанным в суждении;
• как это свойство соотносится с общепринятыми моральными нормами и признаками социального успеха.
2. Фактор социальной желательности. Проявляется в тенденции обследования давать о себе социально ободряющую информацию.
Рассматриваются следующие приемы борьбы с фактором социальной желательности и искажения результатов тестирования:
• введение шкал лжи в диагностический вариант методики;
• устранение или сбалансирование социальной желательности с помощью использования инструкции на преднамеренную фальсификацию результатов;
• использование признаков, независимых от диагноза, и др. Имея в виду указанные факторы, очевидно, что самоотчеты и
самооценочные опросники у дошкольников чаще всего дают искаженную и неточную информацию.
Глава 5