07.10.2009
Время чтения: 1 минута
Усовершенствование психодиагностической методики на примере теста «ТИПС» (Тест Интеллектуального Потенциала Стандартизированный)
Редакция Ht.ru, Валерия Одинцова, HR-Лаборатория Human Technologies
06 октября, 2003
Разработка теста представляет собой итерационную процедуру, направленную на формирование психодиагностического инструмента, соответствующего требованиям психометрии – науки о психологических измерениях.
Процедуру разработки тестовой методики в общем виде можно представить следующим образом:
1. Разработка. Создание содержательной части методики (экспертная оценка содержания, формирование банка заданий, шкал, ключей); создание пилотной (исследовательской) версии.
2. Эксперимент. Сбор протоколов
3. Анализ. Психометрическая обработка (статистическая обработка собранных данных)
4. В зависимости от степени работоспособности теста принимается решение о переходе к пунктам 5 или 6.
5. Коррекция. При неудовлетворительной работоспособности теста - корректировка методики, внесение исправлений и изменений с целью усовершенствования существующей версии; переход к пункту 2.
6. Эксплуатация. При удовлетворительной работе теста – ввод в эксплуатацию с периодическими ревизиями. При обнаружении недостатков или ужесточении требований к параметрам методики переходим к пункту 5.
В данной статье мы рассмотрим некоторые этапы психометрической проверки, необходимые для определения диагностической пригодности теста.
Рассмотрим процесс психометрической проверки теста на примере теста «ТИПС».
<«ТИПС» предназначен для профориентации и профотбора на основе дифференцированной диагностики спектра интеллектуальных способностей.
Тест включает в себя 72 задания по 6 шкалам: «вычисления» (математический интеллект), «лексика» (словарный запас), «эрудиция» (широта кругозора), «визуальная логика», (конструктивно-технические способности, пространственное мышление), «абстрактная логика» (стратегическое мышление, способности к анализу-синтезу), «внимание» (способность к концентрации, мобилизации внимания).
На данный момент методика претерпела 5 психометрических коррекций.
Рассмотрим результаты проведения статистического анализа наиболее удачных версий ТИПС (третьей («ТИПС-3») и пятой («ТИПС-5»)).
Прежде, чем тест «заработает», - начнет успешно дифференцировать людей с разным уровнем способностей, - тестовые задания проходят процесс экспериментально-статистической апробации. Начальная разработка заданий основывается на принципах обеспечения их содержательной валидности (вопросы хотя бы косвенно должны быть связаны с исследуемыми качествами будущих испытуемых). Далее следуют набор протоколов, анализ работы пунктов теста и совершенствование тестовых заданий (вопросов). Ключевым средством оценки тестовых свойств заданий является применение статистических методов обработки данных и, в результате, - определение статистических характеристик заданий.
Первой определяемой статистической характеристикой для тестов интеллекта является мера трудности задания. Трудность заданий, как первое требование к тестовым заданиям, можно образно сравнить с высотой планки в секторе для прыжков в высоту. При слишком низкой планке, все соревнующиеся одинаково успешно преодолеют ее, как и при слишком высокой, - никто не сможет преодолеть. И то, и другое делает всю процедуру соревнования бессмысленной.
Если на какое-то задание правильно отвечают все тестируемые, то такое задание становится неинформативным. Неинформативным является и такое задание, на которое никто не отвечает правильно. Вариация по нему также равна нулю. Требование оптимальной трудности оказывается важнейшим системообразующим признаком тестового задания.
Одновременно с мерой трудности определяется дифференцирующая способность - способность тестового задания дифференцировать сильных (способных) респондентов от слабых – еще одно требование к тестовым заданиям.
Меру трудности задания можно определить двумя способами:
• умозрительно, на основе предполагаемого числа и характера умственных операций, необходимых для успешного выполнения задания (это чаще называют сложностью, или экспертной трудностью);
• экспериментально, путем опробования задания, с подсчетом долей правильных и неправильных ответов.
При анализе тестов «ТИПС» мы использовали второй способ определения меры трудности задания. На этом этапе нами выявлялись слишком легкие (более 90 % респондентов справляются с данным заданием) и слишком трудные (менее 10 % респондентов справляются с данным заданием) пункты. После чего данные пункты видоизменялись или заменялись другими, оптимальными по сложности.
Анализ сложности заданий теста «ТИПС-3» и анализ их дифференцирующей способности позволил выявить 3 слишком легких задания (более 90 % респондентов справляются с данным заданием) и одно слишком трудное задание, с которым справилось менее 10 % респондентов:
№ вопроса | % респондентов, кот-ые дали прав. ответ | Диф-ая способность |
63 | 91% | 0,4 |
69 | 94% | 0,38 |
71 | 95% | 0,38 |
49 | 9% | 0,11 |
Анализ сложности заданий теста "ТИПС3" и анализ их дифференцирующей способности позволил выявить 3 слишком легких задания (более 90 % респондентов справляются с данным заданием) и одно слишком трудное задание, с которым справилось менее 10 % респондентов:
№ вопроса | % респондентов, кот-ые дали прав. ответ | Диф-ая способность |
63 | 91% | 0,4 |
69 | 94% | 0,38 |
71 | 95% | 0,38 |
49 | 9% | 0,11 |
Анализ сложности заданий теста «ТИПС-5» и анализ их дифференцирующей способности позволил выявить 2 слишком легких задания (более 90 % респондентов справляются с данным заданием).
№ вопроса | % респондентов, кот-ые дали прав. ответ | Сложность | Диф-ая способность |
4 | 94% | -2,75 | 0,42 |
69 | 92% | -2,44 | 0,42 |
Согласованность (корреляция) задания с критерием - представляет собой более точную и технологичную меру дифференцирующей способности задания. Корреляция проверяется посредством расчета коэффициента корреляции.
В зависимости от численности выборки, определяется тот или иной уровень значимости коэффициента корреляции, определяющий весовой вклад каждого пункта в критерий. В качестве критерия в нашем случае мы брали суммарный балл по шкале теста «ТИПС». Такой подход оправдан в тех случаях, когда большинство пунктов методики являются удачными и соответствуют измеряемому свойству (хотя бы на уровне экспертных оценок). После анализа корреляций из пилотажной версии удаляются пункты, не коррелирующие с критерием. Это позволяет разработчику сформировать банк пунктов, работающих на критерий (внутренне согласованных друг с другом).
Высокая (значимая) корреляция с критерием (суммарным баллом) говорит о том, что испытуемые из высокой группы значимо чаще справляются с заданием, чем испытуемые из низкой группы. Нулевая корреляция свидетельствует об отсутствии у задания психометрических свойств, необходимых для диагностики конкретного показателя. Такие задания устраняются из пилотной версии методики как не выдержавшие экспериментальной проверки.
Если после анализа значимых корреляций каждого пункта со шкалами теста «ТИПС-3» было выявлено 60 хорошо коррелирующих и 12 плохо коррелирующих пунктов, то после аналогичного анализа пунктов теста «ТИПС-5» число хорошо коррелирующих пунктов достигло цифры 68, а число плохо коррелирующих уменьшилось до 4.
Чем лучше сделан тест и чем больше испытуемых его прошло, тем больше реальное распределение сырых баллов, представляемое гистограммой, начинает приобретать форму нормального распределения. Распределение отражает свойства пунктов, из которых составлена та или иная шкала теста. Если кривая имеет правостороннюю асимметрию, то среди пунктов, работающих на ту или иную шкалу, преобладают трудные задания; если левостороннюю асимметрию, значит, большинство пунктов легкие (применительно к тестам интеллекта или тестам на знания, включая профессиональные знания).
Данный анализ позволяет понять, как нужно скорректировать задания (усложнить, облегчить или изменить их качественно).
Анализ гистограмм, построенных по данным теста «ТИПС-3» позволил выявить как положительные, так и отрицательные тенденции в характере распределения сырых тестовых баллов. Это позволило внести соответствующие корректировки в последующие версии теста. Анализ гистограмм, построенных по данным теста «ТИПС-5» выявил не только положительные тенденции, учитывающие ошибки прошлых модификаций, но и незначительные недочеты в формировании пунктов и отнесении их к шкалам, которые, в свою очередь, должны быть учтены при последующих разработках.
Надежность теста как средства измерения определяется низкой вероятностью ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Особый интерес представляет оценка внутренней согласованности теста, она обуславливает ту часть ошибки, которая связана с отбором заданий.
Оценка внутренней согласованности теста производилась посредством расчета альфа-коэффициента Кронбаха. Данный коэффициент представляет собой оценку надежности, базирующуюся на гомогенности шкалы или сумме корреляций между ответами испытуемых на вопросы внутри одной и той же тестовой формы.
В нашем случае рассчитанный для каждой шкалы альфа-коэффициент надежности Кронбаха показал в целом высокий уровень внутренней согласованности:
Шкала | Вычисления | Лексика | Эрудиция | Зрит. логика | Абстр. логика | Внимание |
Tips3 | 0,679 | 0,844 | 0,777 | 0,709 | 0,818 | 0,797 |
Tips5 | 0,667 | 0,937 | 0,952 | 0,875 | 0,919 | 0,918 |
Напомним, что строгим психометрическим требованиям, предъявляемым к эффективно работающему тесту, соответствует значение альфа-коэффициентов выше 0,8.
В нашем же случае относительно низкий уровень значения коэффициента надежности Кронбаха (шкала «Вычисления») можно объяснить содержательной объемностью шкалы: на нее приходится 12 разноплановых вопросов, что позволяет расширить область охвата фактора, жертвуя вместе с тем высоким уровнем внутренней согласованности.
Таким образом, от модификации к модификации не только уменьшается количество неработающих пунктов и увеличивается количество работающих пунктов, но и улучшаются остальные показатели - а это значит, что последующая версия работает лучше предыдущей.
Как мы видим, рассмотренная нами пятая версия теста не идеальна и требует последующих модификаций. Естественно, что работа по модификации, адаптации и рестандартизации тестов занимает не один день. Зачастую от создания первоначальной до внедрения окончательной версии методики проходит не один год. Но именно в этом долголетнем опыте исследований – залог качественности и эффективности наших продуктов.
0 комментариев
Написание комментария требует предварительной регистрации на сайте
Комментариев пока нет, будьте первым
Хотите подобрать тест для оценки?
В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.
Оставьте заявку на бесплатную консультацию специалиста!