07.10.2009 Время чтения: 3 минуты

Что такое согласованность судей и что приводит к ее снижению

Редакция Ht.ru, А. Г. Шмелёв
09 ноября, 2007

Коллеги!

Этот материал будет прежде всего любопытен участникам игры "Угадай рейтинг" на материале телешоу "Ледниковый период"! Пока это 36 человек, выполнивших голосование по 16 парам и трем критериям оценки - за технику, артистизм и прогресс.

Мы еще далеки от того, чтобы подводить черту и публиковать сам получившийся рейтинг пар. Будем это делать, когда получим не менее 100 "судей".

Но... уже сейчас заметны интересные различия в степени согласованности между судьями по разным критериям и парам (объектам оценки). Эти различия иллюстрируют, с одной стороны, откуда берется разнобой в работе любого жюри, а с другой стороны - иллюстрируют возможности новой, наукоемкой технологии сбора и анализа экспертных оценок с помощью нашего сервиса "Интернет-шкалирование".

После подключения каждого нового участника игры (судьи) наша система автоматически пересчитывает все данные о том, по каким критериям и парам достигнуты не только определенные средние рейтинги, но и уровни согласованности самих судей. То есть, не только участники телешоу являются в данном случае объектом компьютерного тестирования, но и ... сами судьи.

Рассмотрим, что получилось с критериями, Надо сказать, что вообще на материале этого шоу мы пока имеем более высокую согласованность, чем в некоторых других экспертных играх, которые мы проводили на нашем сайте (по модели "Угадай ключ к тесту"). Но именно по критерию "артистизм" согласованность телезрителей оказалось выше, чем по двум другим. И это вполне естественно: ведь в данном случае наше "жюри" состоит из непрофессионалов в фигурном катании, оно не может согласованно оценивать тонкости различий в технике катания, а вот при оценке внешнего впечатления - "артистизма" - согласованность выше. Таким образом, мы устанавливаем, на что "годиться" сформировавшееся жюри. Точно также мы можем измерить при формировании корпоративных моделей компетенций, по каким критериям - компетенциям внутри компании достигнуто более высокое взаимопонимание, а по каким - низкое, так что этим критерием-компетенцией фактически еще нельзя пользоваться - надо доучивать самих внутренних экспертов (руководителей компании, сотрудников HR-департамента и т.п.).

А что же наблюдается с объектами оценивания - в данном случае с парами исполнителей в рамках телепроекта "Ледниковый период"?

Получился очень интересный результат. Пары фигуристов довольно четко разбились на 2 категории:

1) Те, кто стабильно получает довольно высокие оценки, крайне редко попадает в номинацию, вызывает широкое и бесспорное признание. ПО этим парам согласованность между нашими судьями очень высокая - в районе 0,9! Этот уровень характерен для профессионального судейства.

2) Но... есть другая категория пар-исполнителей. Это либо уже выбывшие из проекта пары, либо выступающие нестабильно. По ним согласованность наших судей-любителей очень низка. Дело доходит до 0,3. Это означает, что в судействе согласия нет! И сами судьи неточны. Откуда же берутся разногласия. А дело в том, что тут вмешиваются личные симпатии-антипатии. Тот, кто симпатизирует той или иной нестабильной (или просто слабенькой) парочке, тот дает завышенные оценки. Этот случай ярко иллюстрирует закономерность, которую нужно учесть при организации в компаниях "внутреннего ассессмента" - системы оценки персонала своими силами. Наша система позволяет автоматически выявить те случаи, когда между судьями есть согласие и их оценки можно считать надежными, и те случаи, когда согласия нет и оценки надежными считать, строго говоря, нельзя! - Без отсева каких-то необъективных судей или без доучивания (если после отсева останется слишком мало судей).

Хотелось бы все-таки услышать мнения участников игры по поводу самой использованной ими технологии.

Из приведенного ниже текущего рейтинга судей видно, что если исключить из состава жюри судей с баллом согласованности ниже 0,76, то восемь судей "уйдут" и в формировании рейтинга фигуристов будут участвовать не 36 судей, а 28 судей. После этого само собой вырастут все показатели согласованности и по критериям, и по фигуристам.

А.Г.Шмелёв

--------------------------------------------------------------------------------

HUMAN TECHNOLOGIES. ЛК Шкалирование

--------------------------------------------------------------------------------

Согласованность "судей" по трем критериям:

============================================

Техника - 0,76

Артистизм - 0,83

Прогресс - 0,74

Согласованность по "судей" по объектам (парам):

================================================

1. Чулпан Хаматова и Роман Костомаров (0.9)

2. Алиса Гребенщикова и Алексей Тихонов (0.93)

3. Татьяна Навка и Вилле Хаапасало (0.89)

4. Маргарита Дробязко и Александр Дьяченко (0.93)

5. Ирина Лобачева и Дмитрий Марьянов (0.91)

10. Мария Петрова и Михаил Галустян (0.86)

11. Елена Леонова и Григорий Сиятвинда (0.89)

6. Лариса Вербицкая и Повилас Ванагас (0.63)

7. Анна Семенович и Алексей Макаров и (0.75)

8. Анастасия Волочкова и Антон Сихарулидзе (0.47)

9. Виктория Дайнеко и Алексей Ягудин (0.44)

12. Албена Денкова и Игорь Верник (0.5)

13. Александра Савельева и Сергей Сахновский (0.3)

14. Ольга Кабо и Максим Маринин (0.54)

15. Татьяна Тотьмянина и Никита Малинин (0.34)

16. Анастасия Мыскина и Андрей Хвалько (0.71)

Текущий рейтинг согласованности судей:

=========================================================

Согласованность (средняя = 0.772) :

1. fluke 0.941

2. lina 0.917

3. butik 0.917

4. Катюш 0.896

5. Малена 0.889

6. Катенька 0.88

7. G&A 0.86

8. MapuHa 0.858

9. Nikozia 0.854

10. Jevgenija 0.853

11. mara 0.846

12. Еша 0.839

13. Geralt 0.829

14. honney 0.821

15. mokka 0.82

16. tamy 0.81

17. Гузель 0.808

18. katrin 0.807

19. alta 0.804

20. yanula 0.803

21. Петров 0.8

22. ЛиСиЧкА 007 0.773

23. QWE 0.773

24. Manana 0.765

25. irra 0.748

26. Jeryty 0.742

27. kirik_pups 0.738

28. minion 0.721

29. Дара 0.694

30. ALENA 0.686

31. Allegria 0.666

32. Maria 0.644

33. mzh 0.595

34. Lul"ka 0.567

35. Олёна 0.559

36. macha 0.281

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите ctrl+enter.

0 комментариев

Написание комментария требует предварительной регистрации на сайте

Продолжая, вы даёте согласие на обработку персональных данных

Комментариев пока нет, будьте первым

Хотите подобрать тест для оценки?

В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.

Оставьте заявку на бесплатную консультацию специалиста!

Перейти в каталог тестов

Что такое согласованность судей и что приводит к ее снижению

Войти с помощью: