Практика конструирования тестов и обучения конструированию: достижения и проблемы
ЗАО "Лаборатория "Гуманитарные Технологии", 15 июля 2010г., Шмелев А. Г., профессор МГУ, научный рук. Лаборатории
Тезисы доклада на Пленарном заседании конференции "Современная психодиагностика в период инноваций" в г. Челябинск (сентябрь, 2010).
В настоящем докладе автор поставил своей целью осветить определенные подходы к конструированию тестов, но главное – обосновать необходимость практического ознакомления студентов-психологов с принципами и обучения простейшим навыкам конструирования тестов при изучении университетского курса «Основы психодиагностики».
Из многочисленной литературы, в том числе уже издаваемой в последние десятилетия и на русском языке, известны 2 принципиальных подхода к конструированию тестов, которые следует считать в одинаковой степени правомерными и способными успешно взаимодополнять друг друга: 1) дедуктивно-рациональный, 2) эмпирико-статистический. В первом случае разработчик теста отталкивается от научно-теоретического обоснования диагностического конструкта и движется далее – к эмпирическим индикаторам (тестовым заданиям), которые операционализируют процедуру измерения соответствующей шкалы. Во втором случае исходная точка – это определенная практически сложившаяся система эмпирических индикаторов (тестовых заданий), над которой в ходе статистической группировки данных (в виде факторов или кластеров) надстраивается система интерпретации – система интерпретирующих диагностических конструктов.
Противоречия между этими подходами возникают, если в первом случае разработчик не «опускается» до статистики и «зависает» на теоретической орбите, а во втором случае – «вязнет» в статистическом «болоте» и не поднимается до теоретического осмысления. То есть, принципиально важно, чтобы в первом случае, работа не останавливалась на этапе создания эмпирических индикаторов: нужно собрать эмпирические данные по тесту и убедиться, что созданный таким образом тест обладает внутренней консистентностью (индикаторы работают на «свои» шкалы) и внешней валидностью (дает значимые и предсказуемые корреляции с определенными внешними критериями). Аналогично этому во втором случае важно обеспечить убедительную теоретическую интерпретацию выделенных статистических связей и группировок. Как? – Тут важно, чтобы разработчик предложил независимым экспертам некие альтернативные варианты интерпретации полученных результатов и добился конкордации (статистической согласованности) в выборе экспертами определенного варианта. К сожалению, в отечественной практике мы до сих пор частенько наблюдаем, что теоретики не дорабатывают эмпирически, а эмпирики предлагают в лучшем случае свою собственную авторскую интерпретацию полученных данных (выступая в логика единственного эксперта), не конструируя никакой схемы сбора независимых экспертных интерпретирующих оценок.
Для того, чтобы оба подхода процветали и обогащали друг друга нужно со студенческой скамьи учить психологов азам конструирования тестов, а также методам сбора и анализа экспертных оценок. Казалось бы, зачем будущим психологам-практикам постигать эти премудрости, перегружать свою голову статистическими психометрическими процедурами (проверки надежности, валидности и т.п.)? - Ведь 90 процентов в будущем будут работать лишь как пользователи готовых методик и никогда сами не будут заниматься работой по конструированию (и психометрической адаптации) тестов. Но автор данного доклада, базируясь на тридцатилетней практике преподавания курса «Основы психодиагностики», считает необходимым практически ознакомить ВСЕХ студентов с принципами конструирования, причем принципиально не только на теоретическом уровне, а в проектной форме – в форме выполнения определенных заданий на практикуме. Дидактический смысл такого подхода к преподаванию психодиагностики заключается в том, чтобы учащийся более глубоко осмыслил структуру изучаемого объекта (психодиагностического теста) с помощью выполнения конкретно-операциональных процедур его анализа и синтеза. Упрощенно такой педагогический подход можно свести к лозунгу: «Если Вы смогли разобрать и собрать изучаемый объект, то Вы познали его устройство и освоили принцип его применения». Конечно, синтетический, неаналитический когнитивный стиль (стиль мышления) многих студентов-психологов противится такому инженерному подходу к изучению психодиагностики, но без приобщения к каким-то элементам когнитивной инженерии (а конструирование тестов – это, по убеждению автора, именно разновидность когнитивной инженерии) трудно надеяться на выработку у психологов-пользователей хотя бы азов понимания смысла психометрических требований к тестам, на выработку хотя бы даже элементарного профессионального уважения в деятельности добросовестных разработчиков тестовых методик.
В последние несколько лет на факультете психологии МГУ им.М.В.Ломоносова в практикуме по курсу «Основы психодиагностики», которым руководит автор доклада, все студенты третьего года обучения (независимо от сложившейся или складывающейся специализации по кафедрам) выполняют следующее компьютеризированное задание под названием «Психометрические свойства теста» :
1) На первом этапе на экране компьютера студент должен указать избранную им личностную факторную шкалу (на базе шкал «Большой пятерки», 16PF, но этими методиками набор шкал не ограничивается) и отобрать из 280 вопросов тест-опросника (пунктов) такие 15, которые, по его мнению, служат согласованными (консистентными) эмпирическими индикаторами соответствующего диагностического конструкта.
2) Компьютер выдает студенту на основе выбранных им 15 заданий прямоугольный массив уже имеющийся в базе данных ответов 60 респондентов на эти 15 заданий. Для пяти заданий (столбцов матрицы) из этого массива студент должен подсчитать четырехклеточный Фи-коэффициент корреляции Гилфорда – между ответами студентов и попаданием в крайние группы по величине суммарного балла (для остальных 10 заданий этот коэффициент компьютер считает сам). Правильность вычислений студента проверяется в интерактивном режиме с помощью диалоговой компьютерной программы.
3) Студенту поставлена задача подобрать удачные эмпирические индикаторы – так, чтобы не менее 10 выбранных им вопросов давали значимые фи-коэффициенты. Если до этой планки (эффективность – 66 процентов) студенту не удается добраться, он возвращается к этапу 1 в своей работе – снова подбирает вопросы или даже пересматривает свой диагностический конструкт.
В данном кратком изложении (в форме тезисов доклада) нет смысла, да и нет возможности подробно останавливаться на всех этапах работы студента с массивом результатов, полученных на студентах прежних лет (там возникают и этапы расчета показателей внешней валидности, и анализ репрезентативности тестовых норм и построение конверсионных таблиц). Важно подчеркнуть главный дидактический эффект: анализ письменных отчетов студентов по этому заданию, а главное – содержательное устное обсуждение полученных результатов студентов с преподавателями практикума – показали, что данное задание, которые в большей степени имитирует решение творческой задачи по конструированию тестов, не только мотивационно гораздо больше устраивает студентов, но и дает необходимый познавательно-интеллектуальный эффект: уже не меньшая (30 процентов), а бОльшая часть студентов (почти 60 процентов) осваивает понимание смысла психометрических показателей для проверки качества тестов. В качестве базы сравнения мы имеем многолетние результаты обучения, при котором студенты имели дело с массивом данных с заданными набором тестовых заданий, то есть, никак не принимали участие в конструировании (выборке) набора тестовых заданий. Это углубление понимания объективно регистрируются в значимом повышении показателей студентов при выполнении 60 формализованных тестовых вопросов на проверку знаний по курсу «Основы психодиагностики», то есть, в ходе процедуры сдачи итогового экзамена по курсу в компьютеризированной тестовой форме.
Проведение заданий практикума в указанном формате выявило не только достижения, но и проблемы. Во-первых, каждый год снижается уровень математической подготовки поступающих на факультет психологии: каким-то образом студентами становятся учащиеся, которые не освоили в ходе своего школьного обучения таких элементарных вещей, как … пропорции и дроби. Во-вторых, не хватает времени (в рамках 32 часового практикума) для обобщения навыков в работе со структурами данных: освоив построение четырехклеточной таблицы сопряженности для расчета внешней валидности своего «собственного теста» с таким критерием, как например, «успеваемость», многие студенты все еще затрудняются построить аналогичную таблицу для другого произвольного критерия (например, для «производительности труда»). Не хватает времени для практического сбора тестовых данных по принципу «тест-ретест» и анализа для подсчета ретестовой надежности. Проведение процедур «согласования интерпретаций» показывают, что очень слаба ориентировка студентов в теоретических конструктах. Но, что удивительно, низкую согласованность в своих оценках (например, при переводе шкал 16PF в «Большую пятерку») показывают не только студентов, но и … большинство преподавателей.
Таким образом, наши познания в области психодиагностики даже на уровне передовых молодых специалистов (а именно такие привлекаются к описанному выше практикуму) оказываются по факту весьма умозрительными: между теоретическими и эмпирическими знаниями имеются разрывы, для преодоления которых необходим не только опыт одиночной работы по конструированию тестов, но и опыт работы в командах разработчиков – только в таком социально-профессиональном контексте можно наработать определенные экспертно-профессиональные стандарты в области психодиагностики, без которых крайне сложно добиваться продвижения в качестве психодиагностического инструментария в стране в целом.
{jcomments on}
В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.
Оставьте заявку на бесплатную консультацию специалиста!