07.10.2009
Время чтения: 3 минуты
Что такое согласованность судей и что приводит к ее снижению
Редакция Ht.ru, А. Г. Шмелев
09 ноября, 2007
Коллеги!
Этот материал будет прежде всего любопытен участникам игры "Угадай рейтинг" на материале телешоу "Ледниковый период"! Пока это 36 человек, выполнивших голосование по 16 парам и трем критериям оценки - за технику, артистизм и прогресс.
Мы еще далеки от того, чтобы подводить черту и публиковать сам получившийся рейтинг пар. Будем это делать, когда получим не менее 100 "судей".
Но... уже сейчас заметны интересные различия в степени согласованности между судьями по разным критериям и парам (объектам оценки). Эти различия иллюстрируют, с одной стороны, откуда берется разнобой в работе любого жюри, а с другой стороны - иллюстрируют возможности новой, наукоемкой технологии сбора и анализа экспертных оценок с помощью нашего сервиса "Интернет-шкалирование".
После подключения каждого нового участника игры (судьи) наша система автоматически пересчитывает все данные о том, по каким критериям и парам достигнуты не только определенные средние рейтинги, но и уровни согласованности самих судей. То есть, не только участники телешоу являются в данном случае объектом компьютерного тестирования, но и ... сами судьи.
Рассмотрим, что получилось с критериями, Надо сказать, что вообще на материале этого шоу мы пока имеем более высокую согласованность, чем в некоторых других экспертных играх, которые мы проводили на нашем сайте (по модели "Угадай ключ к тесту"). Но именно по критерию "артистизм" согласованность телезрителей оказалось выше, чем по двум другим. И это вполне естественно: ведь в данном случае наше "жюри" состоит из непрофессионалов в фигурном катании, оно не может согласованно оценивать тонкости различий в технике катания, а вот при оценке внешнего впечатления - "артистизма" - согласованность выше. Таким образом, мы устанавливаем, на что "годиться" сформировавшееся жюри. Точно также мы можем измерить при формировании корпоративных моделей компетенций, по каким критериям - компетенциям внутри компании достигнуто более высокое взаимопонимание, а по каким - низкое, так что этим критерием-компетенцией фактически еще нельзя пользоваться - надо доучивать самих внутренних экспертов (руководителей компании, сотрудников HR-департамента и т.п.).
А что же наблюдается с объектами оценивания - в данном случае с парами исполнителей в рамках телепроекта "Ледниковый период"?
Получился очень интересный результат. Пары фигуристов довольно четко разбились на 2 категории:
1) Те, кто стабильно получает довольно высокие оценки, крайне редко попадает в номинацию, вызывает широкое и бесспорное признание. ПО этим парам согласованность между нашими судьями очень высокая - в районе 0,9! Этот уровень характерен для профессионального судейства.
2) Но... есть другая категория пар-исполнителей. Это либо уже выбывшие из проекта пары, либо выступающие нестабильно. По ним согласованность наших судей-любителей очень низка. Дело доходит до 0,3. Это означает, что в судействе согласия нет! И сами судьи неточны. Откуда же берутся разногласия. А дело в том, что тут вмешиваются личные симпатии-антипатии. Тот, кто симпатизирует той или иной нестабильной (или просто слабенькой) парочке, тот дает завышенные оценки. Этот случай ярко иллюстрирует закономерность, которую нужно учесть при организации в компаниях "внутреннего ассессмента" - системы оценки персонала своими силами. Наша система позволяет автоматически выявить те случаи, когда между судьями есть согласие и их оценки можно считать надежными, и те случаи, когда согласия нет и оценки надежными считать, строго говоря, нельзя! - Без отсева каких-то необъективных судей или без доучивания (если после отсева останется слишком мало судей).
Хотелось бы все-таки услышать мнения участников игры по поводу самой использованной ими технологии.
Из приведенного ниже текущего рейтинга судей видно, что если исключить из состава жюри судей с баллом согласованности ниже 0,76, то восемь судей "уйдут" и в формировании рейтинга фигуристов будут участвовать не 36 судей, а 28 судей. После этого само собой вырастут все показатели согласованности и по критериям, и по фигуристам.
А.Г.Шмелев
--------------------------------------------------------------------------------
HUMAN TECHNOLOGIES. ЛК Шкалирование
--------------------------------------------------------------------------------
Согласованность "судей" по трем критериям:
============================================
Техника - 0,76
Артистизм - 0,83
Прогресс - 0,74
Согласованность по "судей" по объектам (парам):
================================================
1. Чулпан Хаматова и Роман Костомаров (0.9)
2. Алиса Гребенщикова и Алексей Тихонов (0.93)
3. Татьяна Навка и Вилле Хаапасало (0.89)
4. Маргарита Дробязко и Александр Дьяченко (0.93)
5. Ирина Лобачева и Дмитрий Марьянов (0.91)
10. Мария Петрова и Михаил Галустян (0.86)
11. Елена Леонова и Григорий Сиятвинда (0.89)
6. Лариса Вербицкая и Повилас Ванагас (0.63)
7. Анна Семенович и Алексей Макаров и (0.75)
8. Анастасия Волочкова и Антон Сихарулидзе (0.47)
9. Виктория Дайнеко и Алексей Ягудин (0.44)
12. Албена Денкова и Игорь Верник (0.5)
13. Александра Савельева и Сергей Сахновский (0.3)
14. Ольга Кабо и Максим Маринин (0.54)
15. Татьяна Тотьмянина и Никита Малинин (0.34)
16. Анастасия Мыскина и Андрей Хвалько (0.71)
Текущий рейтинг согласованности судей:
=========================================================
Согласованность (средняя = 0.772) :
1. fluke 0.941
2. lina 0.917
3. butik 0.917
4. Катюш 0.896
5. Малена 0.889
6. Катенька 0.88
7. G&A 0.86
8. MapuHa 0.858
9. Nikozia 0.854
10. Jevgenija 0.853
11. mara 0.846
12. Еша 0.839
13. Geralt 0.829
14. honney 0.821
15. mokka 0.82
16. tamy 0.81
17. Гузель 0.808
18. katrin 0.807
19. alta 0.804
20. yanula 0.803
21. Петров 0.8
22. ЛиСиЧкА 007 0.773
23. QWE 0.773
24. Manana 0.765
25. irra 0.748
26. Jeryty 0.742
27. kirik_pups 0.738
28. minion 0.721
29. Дара 0.694
30. ALENA 0.686
31. Allegria 0.666
32. Maria 0.644
33. mzh 0.595
34. Lul"ka 0.567
35. Олёна 0.559
36. macha 0.281
0 комментариев
Написание комментария требует предварительной регистрации на сайте
Комментариев пока нет, будьте первым
Хотите подобрать тест для оценки?
В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.
Оставьте заявку на бесплатную консультацию специалиста!