26.10.2011 Время чтения: 30 минут

Опыт внедрения компьютеризированных тестовых испытаний в систему итоговой государственной аттестации студентов-психологов

Ю.П.Зинченко, Н.Б.Березанская, И.А.Володарская, О.А.Тихомандрицкая, А.Г.Шмелев,

Вестник Московского университета. Серия 14, психология, №3, 2011


Краткая аннотация

 

            В статье освещаются результаты многолетнего опыта внедрения компьютеризированных тестов на выпускных курсах дневного, вечернего и спецотделения факультета психологии МГУ им.М.В.Ломоносова. Дается описание методики тестового испытания, характеристика созданного банка тестовых заданий, рассматриваются технологические и организационные вопросы (регламент для студентов-экзаменуемых, регламент учета результатов для преподавателей-экзаменаторов). Основное внимание уделяется статистическому анализу полученных взаимозависимостей (статистических корреляций) между результатами тестовых испытаний, оценками на традиционном устном госэкзамене (по билетам) и суммарным баллом диплома, полученным студентом за все годы обучения (сумма оценок за все экзамены).  Год от года в связи с систематической работой над качеством тестовых материалов корреляция между тестовыми баллами и суммарным баллом диплома (выбранным в качестве главного критерия валидности) росла и достигла значений 0,72 (коэффициент Пирсона) и 0,86 (коэффициент Гилфорда для крайних групп). В то же время аналогичная корреляция для оценок на устном экзамене осталась на прежнем уровне (0,55 - 0,59 - коэффициент Пирсона в разные годы).

 

 

            Организационный и научно-методический контекст[1]  

 

В отечественном среднем и высшем образовании в последние два десятилетия наблюдается процесс активного внедрения метода тестов для измерительного контроля  качества образования (Аванесов, 1994: Болотов, Шмелев, 2005). Это не в последнюю очередь вызвано тем обстоятельством, что приход в вузы и школы массовой вычислительной техники позволил автоматизировать существенные элементы в процессах подготовки, проведения и обработки именно результатов тестирования. Одной из знаменательных вех в этом процессе служит широко внедренный и широко-дискутируемый общероссийский проект ЕГЭ (Болотов, Шаулин, Шмелев, 2002, Челышкова, Шмелев, 2004), существенные элементы которого опираются на информационные технологии (хотя сам испытуемый получает, как правило, тестовые материалы в бланковой форме).

            Но нужно ли внедрять метод тестов по принципу замещения - замены существующий традиционных форм контроля? - Авторы настоящей статьи ставят своей целью обосновать подход к итоговой аттестации, при котором реализуется другой принцип - принцип дополнения.  Практически это означает, что тестовые испытания  внедряются на факультете психологии МГУ не как единственный и не как важнейший, а лишь как один из вспомогательных этапов государственных экзаменов. На втором решающем этапе по-прежнему проводится устный традиционный экзамен. Такая схема для авторов статьи - организаторов этого проекта на факультете - явилась не только и не столько формой политического компромисса между сторонниками и противниками тестовой формы контроля, сколько возможностью проведения полнокровного многолетнего эксперимента, дающего возможность сравнивать и статистически измерять достоинства и недостатки тестовой и традиционной формы не только по отношению друг к другу, но и по отношению к другим внешним критериям.

            Еще в начале 80-х годов в рамках лекционно-практического курса «Основы психодиагностики» А.Г.Шмелев начал накапливать опыт применения компьютеризированных тестов как одной из процедур для оценки уровня усвоения студентами материалов учебного курса (Шмелев. 2002). Первые работы по внедрению такого подхода в систему госэкзаменов на факультете психологии МГУ были произведены в кандидатском диссертационном исследовании, выполненным А.А.Чумаковым (руководитель - А.Г.Шмелев) в начале 2000-х годов. В тестировании тогда принимали участие в основном студенты-добровольцы. Затем - с появлением нацпроекта «Инновационное образование» в 2006-2007 гг на факультете психологии МГУ была выполнена наиболее интенсивная работа по созданию банка тестовых заданий прежде всего по общей психологии  (по программе госэкзамена для студентов-психологов), по упорядочиванию определенных подходов к проведению и обработке результатов тестовых испытаний, а главное - применение тестовых испытаний стало обязательным для всех студентов, а учет их результатов на устных экзаменах стал осуществляться в соответствии с официальным регламентом и закреплен в ежегодно обновляемом приказе по факультету. Приобретение тестовыми экзаменами такого официального статуса потребовало тесного взаимодействия всех соавторов настоящей статьи, отвечавших за разные аспекты данного проекта (далее соавторы перечисляются просто по алфавиту):

- Н.Ю. Березанской (организация работы коллектива авторов тестовых заданий),

- И.А.Володарской (руководство Учебно-методическим советом факультета, на котором обсуждались и внедрялись принципиальные модели учета результатов тестирования),

- О.А.Тихомандрицкой (руководство Учебной частью, практическая организация взаимодействия различных групп исполнителей при реализации проекта).

-  Ю.П.Зинченко (общее руководство проектом в статусе декана факультета),

- А.Г.Шмелев  (методическое и технологическое обеспечение основных процедур - комплексная автоматизация процессов подготовки, проведения и обработки результатов тестовых испытаний).  

            Тем самым подход по принципу дополнения создал условия для реализации научно-практического эксперимента, итоги которого в данной статье авторы впервые попытались систематизировать.

 

            Методика

 

            Этап 1. Авторский цикл. Первым и существеннейшим методическим инструментом в рамках данного проекта явилась строго-определенная методика и технология работы с авторами банка тестовых заданий. Была применена технология, отработанная А.Г.Шмелевым и сотрудниками его лаборатории «Гуманитарные технологии» в течение многих лет, начиная с 1997 года, при подготовке компьютеризированной олимпиады «Телетестинг» для старшеклассников и абитуриентов (Шмелев, Ларионов, Серебряков, 1998). В ходе авторского цикла данного проекта к работе были привлечены 22 независимых автора - опытные преподаватели и научные сотрудники факультета психологии МГУ, которые создали в течение двух лет более 700 заданий по основным разделам общей психологии (опыт разработки заданий по экспериментальной психологии, психодиагностике, клинической, инженерной и экстремальной психологии в данной статье описываться не будет, данная статья посвящена целиком разработке и проведению тестовых испытаний по общей психологии). В приложении 1 к данной статье приводится подробный текст инструкции для автора,  который позволит не только познакомить читателя с основным содержательным смыслом авторского цикла в разработке заданий, но и при желании воспроизвести подобный подход.

 

            Этап 2. Экспертный цикл.  Авторским циклом работа над банком тестовых заданий в данном проекте вовсе не ограничивалась. Существенным вторым этапом работы был так называемый «экспертный цикл». В нем принимали участие в значительной степени те же самые лица, что и в авторском цикле, но в данном случае они выступали экспертами при оценке заданий, созданных коллегами. В приложении 2 можно познакомиться с инструкцией для экспертов. Важно подчеркнуть, что экспертные работы были еще более формализованными  и происходили в режиме диалога с ЭВМ: каждый эксперт решал и оценивал задания,  которые предъявлялись ему на экране персонального компьютера (в режиме персонализированного парольного доступа к удаленному серверу  с банком заданий)[2]. Задания, при решении которых эксперты не находили правильного ответа согласованным образом (по принципу квалифицированного большинства в 66 процентов ответов, согласованных с авторским ключевым ответом), либо корректировались, либо удалялись из банка заданий. В результате экспертного цикла были получены 600 заданий, удовлетворивших большинство экспертов по качеству и дающих согласованные ответы. Это десятикратное превышение численности рабочего банка заданий над числом заданий в индивидуальном варианте явилось залогом обеспечения достоверности[3] (информационной безопасности) при реализации тестирования.

 

            Этап 3. Проведение тестирования. Каждый год в течение пяти лет (начиная с 2005 года) каждая экзаменационная сессия преследовала 2 цели: а) оценить знания студентов-выпускников данного года, б) совершенствовать банк заданий на основе статистики ответов. Возможность самосовершенствования методики на основе статистики - это одно из принципиальных достоинств метода тестов, позволяющего формализовать количественно-статистическую обработку результатов и проанализировать качество каждого отдельного тестового задания (вопроса).  Поэтому само проведение тестирования в данном случае является одним из ключевых источников информации для повышения качества методики на следующий год.

            Тестирование производится в компьютерных классах факультета психологии в последние годы в течение одно-двух дней февраля (второй день - резервный)  примерно за 10-14 дней до устного этапа госэкзамена. В ходе теста каждому студенту на экране компьютера предъявляются 60 заданий, случайным образом отобранных из банка заданий, причем ровно по 10 заданий на каждый из 6 крупных разделов (см. перечень разделов в приложении 1). Время на выполнение задания из одного раздела ограничивалось 8 минутами, тем самым общее время на тест не могло превышать 48 минут и в среднем занимало порядка 40 минут. Важно подчеркнуть, что подготовленность студентов к такому испытанию обеспечивает целая серия курсов в предыдущие годы обучения (среди них «Основы психодиагностики», «Экспериментальная психология» и другие), где подобная процедура используется в качестве одного из инструментов текущего и итогового контроля. Также важно, что в течение месяца перед тестовым экзаменом студенты получают неограниченный доступ на Интернет-портал факультета www.psy.msu.ru, на котором размещается открытая демоверсия теста.

 

            Этап 4. Обработка результатов  тестирования и коррекция заданий.  Для  облегчения восприятия результатов студентами и преподавателями простейшая обработка сводилась к подсчету числа правильных ответов (сырого балла) - по тесту в целом и по тематическим разделам.  В течение ряда лет студентам и преподавателям предъявлялись также процентильные баллы - процент испытуемых, показавших балл ниже данного в текущем году, но затем от этой практики решено было отказаться. Напротив, для облегчения сопоставимости в учете результатов тестирования и результатов устного экзамена баллы тестирования переводились в традиционные оценки, исходя из интервалов, согласованных  в ходе заседания комиссии из авторов заданий и руководителей проекта. В последние 2 года границы перевода сырых баллов в экзаменационные оценки не изменялись:

 

От 44 правильных ответов до  60 - оценка «отлично»

От 34 до 43  - оценка «хорошо

От 25 до 33 - оценка «удовлетворительно»

От 0 до 24  - оценка «неудовлетворительно»

 

Переход к такой фиксированной конверсионной таблице (таблице перевода баллов в оценки) стал возможным благодаря определенной стабилизации процедуры, а главное - повышению качества тестовых заданий.

 

Для понимания мотивации студентов к выполнению тестов (а это является, с психологической точки зрения, важнейшим аспектом любой методики тестирования) тут же важно сформулировать, как учитываются результаты тестирования в итоговой оценке за госэкзамен. В последние три года действует мягкий принцип учета, который можно назвать «принципом подстраховки»: низкие баллы по тесту никак не ограничивают студентов в возможности получить в конечном счете любой высокий итоговый балл, а вот высокий балл на тестовом испытании дает определенные гарантии: устные комиссии, ознакомленные с результатами тестирования, не должны понижать балл более, чем на 1 градацию, по традиционной пятибалльной шкале. Это практически означает, что «отличники» по тесту не должны получать итоговую «тройку», а «хорошисты» по тесту - итоговую «двойку». Такая мягкая форма учета результатов тестирования (в пользу студентов), утвержденная в приказе, сняла определенное социально-психологическое напряжение, которое неизбежно возникло бы в коллективе (и среди студентов, и среди преподавателей) в случае применения более жестких форм учета.

 

Для повышения качества тестовых заданий для каждого задания регулярно (каждый год) рассчитываются индексы трудности (процент правильных ответов), дискриминативности (разность в пропорции правильных ответов в высокой и низкой группе  испытуемых, сгруппированных по величине балла)[4]. Авторам заданий также передавались данные о проценте выбора дистракторов (ложных ответов). Это позволило либо удалять низкокачественные задания из банка (с отрицательным или низким КД -  коэффициентом дискриминативности), либо корректировать вопрос и ответы со следующими целями:

а) понижения трудности для слишком трудных заданий,

б) повышения трудности для слишком легких,

в) повышения дискриминативности для таких, по которым либо слабые испытуемые догадывались о правильном ответе, либо сильные запутывались в дистракторах.

 

Пример тестовых заданий, достаточно легких для того, чтобы проиллюстрировать степень неосведомленности тех студентов, которые отвечают на них неправильно, приводится в приложении 3.

 

Получение эмпирическо-статистических индексов трудности для каждого задания позволило применить, начиная с 2008 года,  такой алгоритм блочной рандомизации[5], который обеспечивает сбалансированный уровень трудности для каждого студента (каждого сеанса тестирования).

 

В целом примененная технология регулярного повышения качества тестовых материалов не является каким-то особым изобретением авторов данного проекта, а является стандартным подходом в рамках известных, давно апробированных и внедренных в развитых странах (в развитых в плане тестологической культуры). Так что применение данной технологии может обеспечить любой вузовский коллектив, изучивший классические работы по научной теории тестов.

 

Результаты и их анализ

 

А) Анализ распределения тестовых баллов и оценок

 

В 2007-2009 годах процедура тестирования (включая мотивацию студентов) и сам банк заданий оказались практически стабилизированы, так что в дальнейшем имеет смысл принимать во внимание именно результаты за эти три последних года. За это время в условиях реального экзамена компьютеризированный тест по общей психологии выполнили 621 студент-выпускник факультета психологии МГУ, завершивших обучение по программам дневного и вечернего отделения. Гистограмма распределения оценок изображена на рис.1.  Анализ распределения сырых тестовых баллов (числа правильных ответов) показал, что по критерию Колмогорова-Смирнова гипотеза о нормальности распределения не отвергается. Отсутствуют значимые значения асимметрии и эксцесса. Тем самым можно считать, что мы имеем дело с нормальным распределением с параметрами: среднее = 34,18, стандартное отклонение = 8,11. Так что формальный способ выставления оценок по интервалам, определенным параметрами {Xср - S, Xср + S}, дал бы в нашем случае границы традиционных оценок, вполне близкие к тем, которые были утверждены комиссией (см. выше).

 

#IMAGE_0#

Рис.1. Гистограмма распределения частот сырых тестовых баллов (числа правильных ответов) по результатам тестирования 621 студента-выпускника

(за три года 2007-2009). Выбран интервал равнозначности в пять сырых баллов.

 

На рис.1 наблюдается легка асимметричность, но если бы мы сдвинули интервалы квантования на 1-2 сырых балла вправо (тем самым сцентрировав шкалу вокруг реальной медианы), то мы получили бы практически симметричную колоколообразную кривую. На рис.2  можно увидеть, с какой частотой выставлялись традиционные оценки по тесту в течение трех разных лет и каков разброс (колебания) в численности студентов с разными оценками в разные годы.

 

#IMAGE_1#

На рис.2.  Пропорции оценок за тестирование  в разные годы (за 100 процентов в каждом году принято общее количество протестированных).

 

На глаз заметен определенный спад результатов студентов в 2008 году (по сравнению с 2007 годов), тогда как в 2009 году наметился определенный подьем. Основным фактором падения результатов в 2008 году следует считать заблаговременное информирование студентов о том, что в этом году было решено не показывать тестовые оценки членам комиссии на устном экзамене (это было предпринято с целью проверки  возможного влияния тестовых оценок на мнение устной комиссии), тогда как в 2009 году было решено вновь вернуться к ознакомлению комиссии с тестовыми оценками - прямо в процессе приема экзамена.

 

Б) Связь с оценками на устном экзамене

 

Одним из ключевых направлений анализа результатов явилось сопоставление тестовых оценок и оценок на устном (традиционном) экзамене. На рис.3 можно видеть диаграмму, аналогичную той, которая приведена на рис.2, но только применительно к устным оценкам.

 

#IMAGE_2#

Рис. 3.  Пропорции оценок на устном экзамене  в разные годы (за 100 процентов в каждом году принято общее количество проэкзаменованных).

 

Бросается в глаза  резкая асимметрия распределения в пользу высоких оценок на устном экзамене   - особенно на фоне достаточно симметричного распределения тестовых оценок.

 

 

Анализ согласованности тестовых и устных оценок далее производился двумя способами - с помощью расчета традиционных коэффициентов линейной корреляции по нормализованным устным и тестовым оценкам, а также с помощью матриц сопряженности (см. таблицу 1).

 

На фоне высокой асимметрии устных оценок не мудрено, что линейная корреляция нормализованных тестовых баллов и устных оценок, оказывается относительно не высокой (хотя и вполне значимой). В 2007 году она достигала величины 0,51, в 2008 - 0,45, в 2009 - 0,47.  Это не так плохо с учетом серьезных различий в этих процедурах (и прежде всего с учетом их различий в мотивации - в силу их принципиально разного вклада в итоговую оценку, что расхолаживает некоторых студентов при выполнении теста).

 

Но более интересные результаты дал анализ матриц сопряженности.

 

2009

Тест 2

Тест 3

Тест 4

Тест 5

Уст 2

0

0

0

0

Уст 3

6

17

6

0

Уст 4

9

25

28

1

Уст 5

2

19

51

27

Таблица 1а

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2008

Тест 2

Тест 3

Тест 4

Тест 5

Уст 2

2

3

1

0

Уст 3

12

27

3

0

Уст 4

12

50

28

6

Уст 5

10

22

43

19

Таблица 1б

 

 

 

 

 

 

 

 

 

2007

Тест 2

Тест 3

Тест 4

Тест 5

Уст 2

0

1

0

0

Уст 3

9

13

5

1

Уст 4

11

34

24

3

Уст 5

1

15

47

28

Таблица 1в.

 

Таблицы 1а, 1б, 1в.  Три частотные матрицы сопряженности тестовых и устных оценок[6]. В каждой клетке каждой матрицы указано количество студентов (частота совместного события), показавших определенное сочетание оценок по тесту и на устном экзамене.

 

Уже визуальный анализ  трех матриц сопряженности (полученных в разные годы) обращает внимание на 2 факта:

 

1)      Только в 2-х случаях из 621 в течение трех лет экзаменаторы выставляли на устном экзамене оценку, которая оказывалась на 2 градации ниже по традиционной шкале, чем оценка по тесту. То есть, более строгое испытание, каким оказывался тест, достаточно определенно (с точностью до 1 деления на традиционной шкале) информирует о том, что студент вполне подготовлен. Собственно это статистическое наблюдение, выявленное еще в прежние годы (в 2005-2006) и стало основой для формулирования того правила, которое действует в настоящее время в виде мягкой поощрительной (подстравочной) формулы учета результатов тестирования. Только в 28 случаях из 621 экзаменаторы на устном экзамене понижали свою оценку на 1 балл ниже тестовой. То есть, на устном экзамене балл снижался только менее, чем для 5 процентов студентов (достигнут стандартный статистический уровень ошибки измерения!).  Важно подчеркнуть, что эта закономерность вполне сохранилась и в 2008 году, когда экзаменаторы просто НЕ видели тестовых оценок. Таким образом, на основании таблицы 3 можно просто увидеть основания для следующего вывода:

 

Высокий балл по тесту предопределяет высокий балл на устном экзамене с высокой статистической надежностью (более 95 процентов!!).

 

Эту эмпирически выявленную закономерность мы предлагаем интерпретировать таким образом: действительно хорошо подготовленные студенты проявляют свою высокую подготовку и в тестовых испытаниях, и на устной экзамене, а средне- и слабоподготовленные студенты НЕ могут проявить себя на тестовом испытании, в то время как на устном экзамене им удается добиться высокой оценки.

 

2)      А вот низкий балл по тесту не предопределяют постановку на устном экзамене низкой оценки. При этом на 3 балла (с двойки на пятерку) оценка повышалась в 13 случаях из 621 (то есть около 2 процентов от всех оценок). На два балла (с двойки на четверку и с тройки на пятерку) оценка повышалась в 78 случаях (это почти 13 процентов от всех оценок).  На один балл происходит повышение в 277 случаях из 621 (это 44 процента). Получается, что завышение на 1 балл встречается даже чаще, чем  точное соответствие (35 процентов). На рис.3 видно, что распределение отклонений устных оценок от тестовых оказывается резко смещенным вправо. 

 

 

#IMAGE_3#

Рис. 4. Гистограмма частот, указывающая на отклонение устных оценок от тестовых (за три года). По оси абсцисс на данном графике отложены величины отклонений устных оценок от тестовы (в единицах традиционной пятибалльной шкалы).

 

Надо сказать, что постепенно к 2009 году эта тенденция (можно ее интерпретировать как «тенденцию завышения оценок на устном экзамене») стала нивелироваться. Очевидно, это происходило не без влияния со стороны тестового испытания. Заметно, что число, например, завышений на 3 балла (постановок оценок «Отлично» тем, кто получил «Двойки» за тест) резко возросло (до 10 человек) именно в 2008 году - в том году, когда преподавателям-экзаменаторам вообще не показывали тестовые оценки. Но в целом тенденция сохранилась.

 

Как же правильнее проинтерпретировать асимметричную связь тестовых баллов и устных оценок? Может быть, за этим стоит вовсе не либерализм преподавателей на устном итоговом экзамене (не «завышение» как таковое), а, например, неумение какой-то части хорошо подготовленных студентов успешно выполнять тестовый экзамен за компьютером? Но… ведь при этом почти ВСЕ студенты, которые успешно выполняют тестовый экзамен, успешно сдают и устный. Так что все-таки основная наша гипотеза, объясняющая асимметричность, заключалась в том, что за асимметрией стоит элементарное стремление преподавателей завышать оценки на устном экзамене (тем более, что за пять лет большинству преподавателей студенты стали хорошо известными, многие из них регулярно получали на разных устных экзаменах высокие оценки и тем самым уже как бы «ангажировали» своих экзаменаторов на госэкзаменах на выставление высоких баллов).

 

Чтобы выяснить, какая же из двух процедур вносит больше искажений (слишком ли жестким и неудобным оказывается тест или слишком мягким и удобным оказывается устный экзамен), надо взять какой-то третий независимый критерий и проверить статистическую связь этого третьего критерий с каждой из двух исследуемых переменных.

 

В) Корреляционный анализ  с суммарным баллом диплома

 

В качестве этого третьего критерия мы располагали возможностью взять так называемый «суммарный балл диплома» - сумму оценок, полученных каждым студентом на всех экзаменах (их около 40) за все пять лет обучения на факультете. В западной литературе этот критерий известен под названием academic history score («балл за всю историю обучения»). Он часто используется в тестологических исследованиях прогностической валидности тестов для абитуриентов и студентов как более объективный инструмент, чем оценка за один единственный экзамен.

 

 

Для всей выборки

2005

2007

2008

2009

Тест

0.6

0.7

0.68

0.74

Устный

0.55

0.53

0.52

0.54

 

Для 16 процентов на краях тест-шкалы

2005

2007

2008

2009

Тест

0.7

0.78

0.84

0.86

Устный

0.55

0.58

0.57

0.59

Таблица 2. Показатели линейной корреляции тестовых и устных оценок с критерием «суммарный балл диплома».

 

 

В таблице 2 мы видим, что коэффициент корреляции теста с третьим критерием неуклонно рос все эти годы (начиная с 2005 года, который мы тоже привлекли в данном случае для анализа, чтобы показать тенденцию), в то время как тот же коэффициент корреляции между устными оценками и суммарным баллом диплома фактически оказался на одном уровне - немногим более высоком, чем корреляции между тестом и устным экзаменом. Особенно высокий рост корреляций заметен для «краев» тестовой шкалы, то есть, для явных «отличников» (верхние 16 процентов выборки) и для «двоечников» (нижние 16 процентов по тестовому баллу).

 

Тем самым, работа по совершенствованию тестовых заданий и самой процедуры тестирования дала свои очевидные плоды: валидность именно теста по отношению к внешнему критерию за годы наблюдений возросла, в то время как невысокая валидность устного экзамена осталась на прежнем уровне.

 

Эти ключевые результаты нашего исследования мы решили в более наглядной форме проиллюстрировать не только в виде таблицы 2, но и на рисунке 4.

 

#IMAGE_4#

Рис. 4. Рост корреляции результатов тестирования с критерием «суммарный балл диплома» превосходит рост аналогичной корреляции результатов устного экзамена с тем же критерием.

 

Г) Анализ надежности и прогностической устойчивости тестовых результатов

 

Последний вид анализа, который мы проделали, касается такой ключевой характеристики любой тестометрической процедуры, как надежность, или ретестовая устойчивость. В 2005 году А.А.Чумаков провел подобный анализ, пригласив сразу после устного экзамена добровольцев - тех студентов, которые откликнулись на просьбу проверить устойчивость теста к перетестированию. В таком перетестировании приняло участие 38 человек. Надо подчеркнуть, что несмотря на низкую мотивацию студентов (тестирование производилось в тот же день, что устный экзамен, сразу после его сдачи), был получен вполне приличный коэффициент корреляции между первым и повторным тестированием (r=0, 68). Интервал между первым и повторным тестированием в данном случае равнялся 2 неделям  - стандарт для такого рода проверочных процедур.

 

В 2008 и 2009 году удалось собрать новые данные такого типа, но на более значительном временном интервале между первом и повторном тестированием. В сентябре повторному тестированию по точно такой же программе-методике (при том же банке заданий) подверглись выпускники факультета, поступавшие в аспирантуру (тестирование было включено в программу вступительных экзаменов в аспирантуру).  Итого интервал между первым и вторым тестированием составлял уже не 2 недели, а целых 7 месяцев. Подобную проверку можно назвать по-другому - это уже не столько проверка на надежность, сколько проверка на прогностическую устойчивость тестовых оценок. Ведь за 7 месяцев, да к тому же в такой насыщенный жизненный период, как окончание университета, происходит немало значимых событий  (сюда относится защита диплома, попытки трудоустройства и другие события, возможно, и в личной жизни),

За 2 года были собраны данные по 57 студентам, которые поступали в аспирантуру. Коэффициент линейной корреляции Пирсона для нормализованных тестовых баллов оказался равным 0,72. Такой результат следует признать высоким. Почему? - Казалось бы, это весьма умеренное значение на фоне требований к более высокой диахронной устойчивости тестов достижений (устойчивость профессиональных тестов такого рода должна находиться в диапазоне  0,8 - 0,9). Но… следует учесть, что рекомендацию в аспирантуру получают в основном очень сильные студенты. Среди попавших в данную выборку преобладали отличники (уже по результатам первого тестирования). Тем самым речь идет заодно и о различительной прогностичности теста именно в тех диапазонах шкалы, которые прилегают к высокому полюсу.  Например, для сравнения аналогичный коэффициент корреляции для устного экзамена (на интервале в 7 месяцев) оказался близким к нулю (всего лишь - 0,10, что не значимо отличается от нуля на выборке в 57 человек).  Почему мы получили такое превосходство теста в данном случае? - А дело в том, что почти все поступающие в аспирантуру получали на устном госэкзамене оценки «отлично», поэтому никакой дифференцирующей прогностической силы эти оценки уже не могли нести. Именно эти причины (низкая дифференцирующая способность устных экзаменов) и подталкивает руководство факультета к внедрению таких процедур, которые гарантируют различение подготовки претендентов в условиях конкурса.

 

Опросы студентов и преподавателей - мониторинг общественного мнения

 

Любая инновация должна быть так или иначе поддержана большинством сотрудников коллектива. В противном случае коллектив найдет возможность в явном или неявном виде отказаться от внедрения инновации - так трансформировать логику проведения и использования формализованных процедур, что они лишаются своего смысла. Поэтому при разработке и внедрении новой технологии оценивания качества подготовки студентов мы постарались по-возможности отслеживать динамику отношения к нашей инновации со стороны студентов и преподавателей. Для этого проводились опросы - как в режиме онлайн (на портале факультета психологии), так и в ходе очных встреч и собраний (на ряде заседаний Ученого совета факультета, а также, например, на расширенном профессорском собрании в марте 2008 года).

В приложении 4 освещается статистика ответов на проведенные опросы среди студентов и преподавателей в динамике в течение трех лет (ограниченный формат статьи не позволяет осветить все заданные вопросы, освещаются лишь самые ключевые и показательные).

Из приведенной статистики следует, что студенты еще в 2007 году значительно более скептически относились к тестированию в ходе экзамена, чем преподаватели, которые в целом гораздо более явным большинством поддержали инновацию. Но в 2008-2009 годах прослеживается положительная динамика в установках студентов. С чем это связано и как это объяснить? Ведь каждый год опрашивались новые выпускники, которым приходилось каждый раз впервые проходить подобную процедуру (на уровне госэкзамена). Одно из объяснений можно свести к достаточно банальному эффекту привыкания. Общественное мнение в студенческой среде тоже инерционно. Доверие к тому, что за низкие баллы по тестам никто не пострадает, возникло не сразу. Но постепенно год от года, по мере того, как тест стал приносить скорее позитивные сдвиги в итоговых оценках студентов, отношение стало более положительным. И что даже важнее: отношение стало меньше зависеть от самооценки успешности собственного выполнения тестового испытания. Например, студенты 2009 года оценили в целом свою успешность явно ниже, чем студенты 2007 года, но при этом выразили  более положительное отношение к процедуре тестирования.

Многочисленный выбор преподавателями в 2009 года ответа «не участвовал в приемке экзаменов» вызван был тем, что именно в 2009 году   круг экзаменаторов впервые (за последние десятилетия) был строго ограничен исключительно профессорским составом, а получить от профессорского состава ответы на онлайн-опрос оказалось делом более трудным. Ответы преподавателей в 2008 году иллюстрируют явный импульс со стороны коллектива в пользу не только формального учета результатов тестирования в итоговой оценки, но и прямого знакомства экзаменаторов с результатами тестирования непосредственно в ходе экзамена. Именно в результате такого мнения коллектива, высказанного на профессорском собрании в марте 2008 года, в 2009 году было решено вернуться к практике открытого информирования экзаменаторов о результатах тестирования.

 

Общие выводы и перспективы

 

По характеру распределения тестовых баллов (близкому к нормальному распределению), по результатам проверки надежности и валидности тестовых испытаний  мы можем сделать однозначный вывод, что мы получили достойный инструмент для педагогических измерений качества образования, который и может, и должен быть использован для итоговой аттестации как необходимый инструмент, как необходимый этап в системе различных испытаний.

 

Есть, конечно, «горячие головы», которые предложили таким образом проинтерпретировать высокую корреляцию между тестом и суммарным баллом за все годы обучения (значение, близкое к 0,9): а не является ли это свидетельством того, что тест вообще не нужен, ведь фактически дублирует ту информацию, которая собрана за все годы? Но ведь именно тестовое испытание способно на самом последнем этапе выявить те важные 10-15 процентов исключений, когда очень слабые ответы студента на самые очевидные вопросы позволяют усомниться в том, насколько корректными были большинство оценок, полученных этим студентом в течение пяти лет. Итоговая аттестация для того и предназначена, чтобы не только мотивировать учащихся на сохранение знаний, которые должны быть предъявлены в определенный контрольный момент (а не учиться по принципу «сдал - забыл»), но и осуществлять контроль за доброкачественным выполнением своих профессиональных обязанностей всем педагогическим коллективом образовательного учреждения. Кстати, высокая корреляция между результатами теста и суммой баллов за все годы позволяет «страховать» и тестовые технологии от каких-то «чудовищных ошибок» (вызванных, например, неожиданным провалом сильного студента в результате волнения, плохого самочувствие и т.п.) Все случаи резкого расхождения суммарного балла диплома и результатов тестирования должны рассматриваться государственной комиссией индивидуально и быть предметом особого внимания.

 

Таким образом, наш опыт параллельного применения двух процедур - традиционного устного экзамена и компьютеризированного тестового испытания - по многим параметрам выявил однозначное превосходство тестового испытания.  Но на основании этого результата мы не собираемся настаивать на какой-либо замене устной процедуры. Наоборот, параллельное использование двух процедур дает возможность теперь использовать тестовые данные как основание для совершенствования устных экзаменов - с целью преодоления тех недостатков, которые им давно свойственны и в целом хорошо известны (включая весьма либеральное отношение экзаменационных комиссий к тому, что некоторые студенты отвечает на вопросы билетов, не отрывая глаз от своих записей, которые при проверке оказываются удивительно однотипными…).

 

В свою очередь, само тестирование вовсе нельзя считать завершенной и безупречной процедурой, не нуждающейся в улучшении и обогащении новыми элементами и идеями. Для более надежного моделирования профиля успешности по отдельным темам требуется расширение банка заданий (примерно до 1000 заданий)  и удлинение сеанса тестирования до 90 заданий (к примеру, в западных сертификационных тестовых экзаменах психологи выполняют до 300 заданий в течение одного сеанса, продолжающего до 4 часов). Также имеется необходимость моделирования так называемых кейс-тестов - для диагностики навыков практического применения знаний при решении прикладных задач.
Литература

 

            Аванесов В. С. Научные основы тестового контроля знаний. – М.: Исследовательский центр проблем качества подготовки специалистов, 1994. – 135с

            Аванесов В.С. Композиция тестовых заданий: Учебная книга для преподавателей вузов, учителей школ, аспирантов и студентов педвузов. М., 1996. - 191 с.

Болотов В.А., Шмелев А.Г. Развитие инструментальных технологий контроля качества образования: стандарты профессионализма и парадоксы роста. - Высшее образование сегодня. 2005, №4, с. 16-21.

Болотов В.А., Шаулин В.Н., Шмелев А.Г. Единый экзамен и качество образования.-  В сб.  «Единый государственный экзамен. Научные основы, методология и практика организации эксперимента».  Под ред. В.А.Болотова. – М: Логос, 2002, стр. 9-32.

Клайн П.  Справочное руководство по конструированию тестов. - Киев: ПАН Ltd, 1994. - 288 c.

Майоров А.Н. Теория и практика создания тестов для системы образования. - М: Интеллект-центр, 2001.- 295 с.

Челышкова М.Б., Шмелев А.Г. Шкалирование  результатов Единого экзамена: проблемы и перспективы. - Вопросы образования, 2004, с. 168-186.

     Чумаков А.А.  Методика конструирования тестов профессиональных достижений с использованием интернет-технологий. Автореферат кандидатской диссертации.  - М.: МГУ, 2007.

Чумаков А.А., Шмелев А.Г. Опыт компьютеризированного тестового контроля знаний у студентов-психологов. - Тезисы Всероссийской конференции «Прикладная психология как ресурс социально-экономического развития современной России». – Москва: МГУ, 17-19 ноября 2005.

Шмелев А.Г. Опыт применения компьютерного тестирования знаний при обучении студентов психологов. -  Вестник Моск. Ун-та.  Психология, 2002, №4

Шмелев А.Г., Ларионов А.Г., Серебряков А.Г.  Телетестинг – инновационная аттестационная технология. - Тезисы конференции «Развивающаяся психология – основа гуманизации образования». Т.2 – Москва: 19-21.03.1998, стр. 126-127.

Шмелев А.Г., Чумаков А.А., Ларионов А.Г., Серебряков А.Г. Методические рекомендации по разработке и внедрению системы оценки качества обучения по инновационным образовательным программам.-  М: Изд-во Моск. ун-та, 2008, 63 стр.


 

Приложение 1. Инструкция авторам тестовых заданий.

 

            «Вам предлагается принять участие в одном из направлений, активно реализуемом в настоящее время на факультете психологии МГУ им. М.В. Ломоносова, в рамках инновационного гранта по модернизации образования – разработка банка тестовых заданий по курсу общей психологии для предэкзаменационного тестирования выпускников. Одним из наиболее существенных требований к инновационным программам является требование к автору (ответственному преподавателю) курса спланировать определенную систему контроля знаний и успеваемости, отвечающую современным требованиям.

 

При разработке тестовых заданий Вам необходимо ориентироваться на Федеральный компонент государственного стандарта высшего образования и программу курса «Общей психологии» для госэкзамена факультета психологии МГУ им. М.В. Ломоносова. При разработке содержания и формы проверочных заданий необходимо учитывать особенности курса психологии и требования к его усвоению, соотнесенные с целями обучения.

 

При составлении своего блока заданий мы предлагаем Вам руководствоваться следующими рекомендациями:

 

1)                 Разработка заданий ведется по 6 разделам курса общей психологии:

 

·                    введение в общую психологию и история психологии,

·                    психология ощущения и восприятия,

·                    психология внимания и памяти,

·                    психология мышления и речи,

·                    психология мотивации и эмоций,

·                    психология личности и индивидуальных различий.

 

 

2)                 Минимальная численность набора заданий, который должен предоставить один автор, - 24 (по 4 на каждый раздел).  В случае трудности охвата каких-то разделов, допустимо создание до 8 заданий по одному из разделов (тематических блоков), но крайне желательно, охватить не менее 4 разделов.

 

3)                 На данном этапе работ требуются задания ТОЛЬКО закрытого типа с выбором одного ответа из четырех возможных.

 

4)                 Форма представления заданий. Для удобства и оперативности обработки Ваших материалов рекомендуем использовать текстовые редакторы (например, MS Word или Блокнот). Задания следует оформлять следующим образом: номер вопроса (со значком номера перед цифровой информацией!), на следующей строке текст вопроса, затем на каждой строке варианты ответа, так что каждый ответ должен обозначаться символом «тире» в начале каждой строки, тогда как правильный –символом * в начале строки. Пример оформления вопроса приводится ниже (номер вопроса п/п, перечень ответов, обозначение правильного ответа):

 

№1

Текст вопроса

- ответ 1

- ответ 2

- ответ 3

* - ответ 4

 

5)                 Ссылки на литературные источники и авторство. При формулировании вопроса и вариантов ответа не должно возникать неоднозначных ситуаций, порождающих различные трактовки в зависимости от выбранной концепции. Например, должна быть прописана явная отсылка к источнику: не теория внимания вообще, а теория внимания в работах Рибо (всегда, как минимум, отсылка к автору, а можно и к книге автора). В противном случае почти всегда найдется автор другой «классической книги», который думал по-другому. Так обстоит реально дело в психологии – еще не вполне стандартизованной системе знаний.

 

6) Типология вопросов. Пи разработке заданий  проще всего использовать классификацию вопросов с помощью естественных их обозначений, основанных на вопросительных местоимениях естественного языка: Что? Кто? Где? Когда? Как? Сколько? Зачем? Почему?  Куда? и т.п., включая менее очевидные сложные вопросы: Как называется? В каком порядке? Чем отличается? Как создается?

 

Таким образом, следует создавать задания, которые сравнительно равномерно будут представлять примерно 12 типов, полученных путем комбинаторики двух оснований классификации заданий:

 

По трудности:

 

-              трудные – менее 40% правильных ответов

-              средние – от 40% до 70%

-              легкие – более 70%

 

По логико-семантическому (методологическому) статусу:

 

-              А) Фактологические (Кто? Что? Где? Когда?)

-              В) Терминологические (Как называется?)

-              С) Логико-теоретические (Как объяснить? Как предсказать?)

-              D) Методические (Как воспроизвести, проверить, сделать?)

 

7) При формулировании вариантов ответа следует избегать возможности применения тактик угадывания правильного ответа, которые являются артефактами самих формулировок ответов. Такие ответы обычно имеют существенные (явные) отличия от остальных вариантов (дистракторов):

 

·                    самый длинный ответ;

·                    содержит «самые умные» слова;

·                    содержит термины, встречающиеся в самом вопросе;

·                    нечто среднее между явно абсурдными крайностями;

·                    имеет подсказку из содержания другого вопроса;

·                    нечто развернутое на фоне сверхкратких формальных дистракторов.

 

Одним из вариантов борьбы с тактиками случайного угадывания правильного ответа может послужить создание дистракторов, запутывающих студентов, прибегающих к угадыванию. Такие дистракторы могут:

 

·                    содержать ключевые слова (на уровне словесной рифмы с условием вопроса);

·                    содержать пафосные суждения;

·                    содержать длинный перечень логических условий, при котором выполняется основное суждение;

 

8) На последнем этапе работы Ваши задания будут проходить экспертизу со стороны других авторов, которая будет проходить с использованием как минимум 4-х вопросов:

 

- проверка правильности ответа;

- оценка трудности задания;

- оценка качества задания и вариантов ответа;

- тематическая отнесенность к соответствующему разделу курса общей психологи.


 

Приложение 2. Инструкция эксперту для оценки и отбора тестовых заданий

 

«Вам предлагается принять участие в проекте по созданию компьютерного банка тестовых заданий по психологии (КБТЗ).


Для этого просим Вас принять участие в экспертизе тестовых заданий, подготовленных авторами, по следующим разделам (частный случай):

 

·                     Введение в психологию

·                     История психологии

·                     Возникновение и эволюция психики


Вам предстоит оценить вопросы каждого из тематических блоков курса общей психологии. Вам будут предъявляться задания с вариантами ответа, а затем пункты для оценивания этого задания (ниже после каждого вопроса). Во-первых, просим Вас указать, каков правильных ответ на вопрос теста. Вполне возможно, что Ваш ответ будет не совпадать с авторским и при этом будет точнее его. Мнение автора (авторский ключ) учитывается как мнение одного из возможных экспертов – не более того.

На втором шаге надо оценить по 5-балльной шкале трудность данного задания, где оценка "1 - явно ниже средней трудности" соответствует минимальной трудности задания, а оценка "5 - явно выше средней трудности" - максимальной.

Так же просим Вас оценить качество заданий по 5-балльной шкале. Если задание Вас удовлетворяет, претензий к нему Вы не имеете, то Вам необходимо поставить оценку "3 - среднее качество". Если же, по Вашему мнению, задание является некачественным (например, содержит несколько или ни одного правильного ответа либо неточности в формулировке самого вопроса или в вариантах ответа), то в таком случае Вам следует оценить его качество оценкой "1 - качество явно ниже среднего" или "2 - качество ниже среднего", в зависимости от степени Вашей неудовлетворенности. Аналогичным образом Вы можете отметить удачные, на Ваш взгляд, задания, поставив им оценку "4 - качество выше среднего" или "5 - качество явно выше среднего". Самой высокой оценки заслуживают задания, которые одновременно соответствуют следующим критериям:

1) Посвящены фундаментальному вопросу, который образует ядро знаний по данной дисциплине.

2) Являются оригинальными не только по внешней формулировке, но и по использованной логико-семантической структуре (требуют выполнения логический операций в поле данной предметной дисциплины).


3) Требуют преодоления определенных стереотипов, заложенных в отвлекающих (ложных) ответах-дистракторах.

 

При этом высококачественные тестовые задания вовсе не обязательно должны быть трудными, они могут быть и легкими.

 

Опрос можно проходить анонимно. Для этого в поле идентификатора Вы можете ввести набор символов, который будет понятен только Вам.


 

Приложение 3. Образец легких тестовых вопросов с «удивительными» ошибками.

 

Текст вопроса и вариантов ответа

% студентов, выбравших каждый из вариантов ответа

1

Сознание в интроспективной психологии определялось как:

 

 

функция деятельности

4

 

высшая форма отражения мира

15

 

совокупность явлений, данных в переживании только субъекту

83  *

 

не подлежащая изучению реальность

0

 

 

 

2

К свойствам аффектов НЕ относится:

 

 

накопление

6

 

навязчивость

12

 

торможение сознательного контроля

3

 

когнитивная сложность

82  *

 

 

 

3

Эффект, полученный в экспериментальном исследовании Б.В.Зейгарник, заключается в том, что:

 

 

люди проявляют более сильную тенденцию к спонтанному воспоминанию о тех действиях, которые им удалось завершить

5

 

люди проявляют более сильную тенденцию к спонтанному воспоминанию о тех действиях, которые привели к хорошему результату

5

 

люди проявляют более сильную тенденцию к спонтанному воспоминанию о тех действиях, которые им не удалось завершить

86  *

 

люди имеют тенденцию запоминать все, что они делают

0

 


 

ПРИЛОЖЕНИЕ 4.

 

Выборочные результаты опросов об отношении к тестовому экзамену студентов и преподавателей.

 

Вопрос 1:  Ваша общая оценка предэкзаменационного тестирования перед госэкзаменом по общей психологии: 

Ответ 1:  отрицательная

(6/46)

13%

Ответ 2:  скорее отрицательная

(8/46)

17%

Ответ 3:  противоречивая

(17/46)

37%

Ответ 4:  скорее положительная

(10/46)

22%

Ответ 5:  положительная

(5/46)

11%

Вопрос 4:  Довольны ли Вы своими личными результатами по тесту?: 

Ответ 1:  нет

(11/46)

24%

Ответ 2:  скорее нет

(3/46)

7%

Ответ 3:  ни нет, ни да

(13/46)

28%

Ответ 4:  скорее да

(9/46)

20%

Ответ 5:  да

(9/46)

20%

Рис.5а. Диаграмма частотности ответов студентов в 2007 г.

 

Вопрос 1:  Ваша общая оценка экзаменационного тестирования перед госэкзаменом:: 

Ответ 1:  отрицательная

(3/40)

8%

Ответ 2:  скорее отрицательная

(7/40)

18%

Ответ 3:  противоречивая

(14/40)

35%

Ответ 4:  скорее положительная

(11/40)

28%

Ответ 5:  положительная

(5/40)

13%

Вопрос 4:  Довольны ли Вы своими личными результатами по тесту общей психологии?: 

Ответ 1:  нет

(3/40)

8%

Ответ 2:  скорее нет

(8/40)

20%

Ответ 3:  ни нет, ни да

(6/40)

15%

Ответ 4:  скорее да

(12/40)

30%

Ответ 5:  да

(8/40)

20%

Рис.5а. Диаграмма частотности ответов студентов в 2008 г.

 

 

 

Вопрос 1:  Ваша общая оценка экзаменационного тестирования перед госэкзаменом: 

Ответ 1:  отрицательная

(2/25)

8%

Ответ 2:  скорее отрицательная

(1/25)

4%

Ответ 3:  противоречивая

(6/25)

24%

Ответ 4:  скорее положительная

(8/25)

32%

Ответ 5:  положительная

(7/25)

28%

Вопрос 4:  Довольны ли Вы своими личными результатами по тесту общей психологии? 

Ответ 1:  нет

(3/25)

12%

Ответ 2:  скорее нет

(8/25)

32%

Ответ 3:  ни нет, ни да

(3/25)

12%

Ответ 4:  скорее да

(6/25)

24%

Ответ 5:  да

(5/25)

20%

Рис.5а. Диаграмма частотности ответов студентов в 2009 г.

 

Вопрос 1:  Ваша общая оценка проекта предэкзаменационного тестирования перед госэкзаменом по общей психологии:: 

Ответ 1:  отрицательная

(0/15)

0%

Ответ 2:  скорее отрицательная

(1/15)

7%

Ответ 3:  противоречивая

(1/15)

7%

Ответ 4:  скорее положительная

(10/15)

67%

Ответ 5:  положительная

(3/15)

20%

Вопрос 7:  Как Вы оцениваете степень совпадения ваших впечатлений от ответов экзаменуемых на устном экзамене и величиной тестовых баллов на предварительном тестировании?: 

Ответ 1:  низкое совпадение, фактически отсутствует

(0/15)

0%

Ответ 2:  скорее низкое

(0/15)

0%

Ответ 3:  противоречивая оценка

(3/15)

20%

Ответ 4:  скорее высокое совпадение

(7/15)

47%

Ответ 5:  высокое совпадение

(3/15)

20%

Ответ 6:  не участвовал(а) в приеме экзаменов

(2/15)

13%

Рис.5а. Диаграмма частотности ответов преподавателей  в 2007 г.

 

 

 

 

Вопрос 1:  Следует ли показывать баллы по тесту преподавателям на устном госэкзамене (так же, как он видит зачетку студента)?: 

Ответ 1:  Да

(23/32)

72%

Ответ 2:  Не знаю

(2/32)

6%

Ответ 3:  Нет

(7/32)

22%

Вопрос 2:  Следует ли добиваться от "двоечников по тесту" (отвечавших на уровне случайного угадывания) пересдачи теста?: 

Ответ 1:  Да

(23/32)

72%

Ответ 2:  Не знаю

(7/32)

22%

Ответ 3:  Нет

(2/32)

6%

Рис.5а. Диаграмма частотности ответов преподавателей  в 2008 г.

 

 

 

 

Вопрос 2:  Ваша общая оценка проекта включения тестовых испытаний в состав госэкзамена по психологии: 

Ответ 1:  отрицательная

(1/24)

4%

Ответ 2:  скорее отрицательная

(1/24)

4%

Ответ 3:  противоречивая

(1/24)

4%

Ответ 4:  скорее положительная

(7/24)

29%

Ответ 5:  положительная

(12/24)

50%

Ответ 6:  не участвовал(а), не знаком

(1/24)

4%

Вопрос 4:  Как Вы оцениваете степень совпадения Ваших впечатлений от ответов экзаменуемых на устном этапе экзамена и величиной тестовых баллов на тестировании? 

Ответ 1:  низкое совпадение, фактически отсутствует

(0/24)

0%

Ответ 2:  скорее низкое

(0/24)

0%

Ответ 3:  противоречивая оценка

(1/24)

4%

Ответ 4:  скорее высокое совпадение

(6/24)

25%

Ответ 5:  высокое совпадение

(2/24)

8%

Ответ 6:  не участвовал(а) в приеме экзаменов

(11/24)

46%

Ответ 7:  не интересовался(лась) в ходе экзамена тестовыми баллами студента

(1/24)

4%

Рис.5а. Диаграмма частотности ответов преподавателей  в 2009 г.

 



[1] Настоящая статья написана в октябре 2009 года и знаменует завершение определенного этапа – этапа освоения и внедрения тестовых компьютеризированных технологий в рамках госэкзаменов на факультете психологии МГУ. После этого факультет психологии МГУ уже двинулся по пути новых инноваций – по пути внедрения письменного экзамена в структуру госэкзаменов. Но об этом целесообразно писать уже в отдельной новой статье. – Примечание авторов.

[2] Данные работы осуществлялись с использованием системы Интернет-сервисов  для сбора и анализа экспенртных оценок на сайте www.ht-line.ru, разработанном компанией ЗАО «Лаборатория «Гуманитарные технологии» и  любезно предоставленных факультету психологии МГУ.

[3] Напомним, что достоверностью называется такое свойство теста, которое обеспечивает защиту процедуры от преднамеренных и непреднамеренных искажений. Перемешивание заданий, выбранных случайным образом из банка, обеспечило в нашем проекте защиту от применения грубых шпаргалок  в формате «номер вопроса - номер ответа»,

[4] О том, что такое коэффициент дискриминативности, и другие характеристики тестовых заданий, в настоящее время на русском языке уже вышла вполне доступная литература (Аванесов, 1996; Клайн, 1994; Майоров, 2001).

[5]  Блочная рандомизация -  это подход, при котором варианты формируются путем случайной выборки заданий из банка  с заданным числом заданий в тематических блоках.

[6] В данном анализе не учтены результаты студентов спецотделения в 2008-2009 гг. Их средние показали тестовых баллов оказались сопоставимы с показателями остальных студентов (лишь на 2 сырых балла ниже), но сумма оценок за все годы обучения складывалась из меньшего количества показателей.

0 комментариев
Написание комментария требует предварительной регистрации на сайте

Войти с помощью:

Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Комментариев пока нет, будьте первым
Хотите подобрать тест для оценки?

В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.

Оставьте заявку на бесплатную консультацию специалиста!

Перейти в каталог тестов