10.06.2015 Время чтения: 3 минуты

КОМПЬЮТЕРНЫЕ ТЕСТЫ: ПРОВОДИМ АПРОБАЦИЮ


Дмитрий Аббакумов, EDUTAINME, 10 июня 2015г.

В прошлых материалах мы рассказывали о том, какими бывают компьютерные тесты, как разрабатывать задания и проводить экспертизу. Когда некачественные задания удалены, а остальные очищены от неточностей формулировок и других погрешностей, самое время провести апробацию теста. Дмитрий Аббакумов, руководитель Лаборатории адаптивных образовательных технологий ВШЭ, делится практическими советами в новом выпуске рубрики. Всех интересующихся разработкой тестов приглашаем на однодневный семинар Лаборатории "Конструирование тестов знаний": успейте зарегистрироваться по спеццене!

Апробация, как и экспертиза, является крайне желательным (если не обязательным) этапом создания теста. Она позволяет найти ошибки, которые пропустили авторы и эксперты в силу самых различных факторов, например, «замыленности взгляда» или спешки. Авторы и эксперты могли ошибиться не только в заданиях, но и в оценке трудности отдельных заданий или теста в целом. Очень часто встречаются случаи, когда авторы считают задания простыми, а в итоге они оказываются «неберушками», и их не решает ни один из испытуемых. Обратные ситуации, когда тест оказывается слишком простым, также нередки. Именно поэтому лучше провести апробацию на небольшой выборке, прежде чем запускать тест на десятки, сотни и тысячи – в случае онлайн-курсов – испытуемых.

ДВА КЛЮЧЕВЫХ УСЛОВИЯ УСПЕШНОЙ АПРОБАЦИИ:
  • Качество выборки. Тест нужно апробировать на группе испытуемых, совпадающей по характеристикам с целевой аудиторией. Другими словами, если мы планируем применять тест для оценки знаний второкурсников филологического факультета, то и апробировать его нужно на филологах-второкурсниках.
  • Объем выборки. Выборка апробации должна быть не менее 50 испытуемых. Этот минимум позволяет рассчитать необходимые статистики для оценки качества заданий и теста в целом.
Процедура апробации должна также повторять процедуру будущего использования теста на целевом контингенте. Это особенно важно применительно ко времени проведения теста. Например, если тест запланирован на 60 минут, то и апробировать его нужно в течение 60 минут.

По итогам апробации для каждого задания рассчитываются две базовые статистики:
  • трудность или коэффициент решаемости,
  • различительная (дифференцирующая) способность или коэффициент дискриминативности.
Коэффициент решаемости

Для наиболее распространенных заданий закрытой формы с выбором одного правильного ответа коэффициент решаемости рассчитывается по формуле:
КОМПЬЮТЕРНЫЕ ТЕСТЫ: ПРОВОДИМ АПРОБАЦИЮ
где ki – коэффициент решаемости задания i, ci – доля испытуемых, выполнивших задание i верно, N – общее количество испытуемых.

Коэффициент решаемости может принимать значения от 0 до 1: чем его значение выше, тем легче тестовое задание. Задания с коэффициентом решаемости до 0,3 являются трудными, от 0,3 до 0,7 – средней трудности и выше 0,7 – легкими. Встречаются задания с коэффициентами 0 (их не решил никто) и 1 (их решили все). Обычно такие задания удаляют после апробации, так как они не различают испытуемых. Рассчитав коэффициенты решаемости каждого задания, можно посчитать трудность теста в целом. Для этого нужно сложить коэффициенты решаемости всех заданий и разделить на общее число заданий в тесте. Интерпретировать полученное значение можно, опираясь на указанные выше интервалы.

Коэффициент дискриминативности

Различительная (дифференцирующая) способность показывает, насколько хорошо задание разделяет испытуемых на сильных и слабых в рамках измеряемой дисциплины. Наиболее распространенной мерой различительной способности является коэффициент дискриминативности. Этот коэффициент учитывает коэффициенты решаемости заданий и рассчитывается следующим образом:

Пусть kj' - коэффициент решаемости j-го задания лучшей четвертью испытуемых (25% участников, имеющие высокие баллы), kj'' - коэффициент решаемости j-го задания худшей четвертью испытуемых (25% участников, имеющие низкие баллы). Тогда
КОМПЬЮТЕРНЫЕ ТЕСТЫ: ПРОВОДИМ АПРОБАЦИЮ
Задания хорошо дифференцирует испытуемых, если их индекс дискриминативности выше 0,4. Задания с индексом дискриминативности ниже 0,2 обычно удаляют или полностью переделывают.

Сегодня совсем необязательно рассчитывать указанные коэффициенты вручную. Можно воспользоваться возможностями MS Excel. Можно использовать специализированные программы анализа результатов тестирования, например, Test Analisys Program (TAP). А можно сразу проводить апробацию с помощью сервисов, в которых уже встроены возможности для анализа, например, HT-Line.

Как видно, на этапе апробации приходится снова прощаться с заданиями: удаляются задания с коэффициентами решаемости 0 и 1, а также с коэффициентом дискриминативности ниже 0,2. Но, обращаясь к метафоре огранки драгоценного камня, можно сказать, что после этапа апробации у нас, наконец, в руках появляется бриллиант.

При подготовке текста использовались материалы лекций преподавателя магистерской программы «Измерения в психологии и образовании» к. физ.-мат. н. Е. Ю. Кардановой и материалы книги А. Г. Шмелева «Практическая тестология».

Все статьи цикла по порядку:
  1. "Компьютерные тесты: от линейности к адаптивности"
  2. "Как создать идеальный компьютерный тест?"
  3. "Компьютерные тесты: придумываем задания"
  4. "Компьютерные тесты: проводим экспертизу"
  5. "Компьютерные тесты: проводим апробацию"
  6. "15 идей для авторов тестовых заданий"
0 комментариев
Написание комментария требует предварительной регистрации на сайте

Войти с помощью:

Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Комментариев пока нет, будьте первым
Хотите подобрать тест для оценки?

В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.

Оставьте заявку на бесплатную консультацию специалиста!

Перейти в каталог тестов