Александра Чаусова
Александра Чаусова
Специалист отдела исследований и разработок
12.12.2023 Время чтения: 15 минут

Валидность методов оценки персонала: три важных мета-анализа

Валидность методов оценки персонала: три важных мета-анализа

Содержание:


Что лучше предсказывает эффективность отбора: результат испытательного срока, Центр оценки, тесты интеллекта или оценка организованности? Ответ лежит в показателях валидности разных методов оценки персонала.

Каждый провайдер показывает валидность своих инструментов на базе собственных исследований. Мета-анализ объединяет в себе много разных исследований, — даёт «среднюю температуру по больнице», помогая понять, например, какова валидность тестов интеллекта в целом, по сравнению с другими методами.

В сфере оценки персонала периодически появляются новые мета-анализы, которые дополняют или корректируют результаты прежних. В статье я проанализирую три больших мета-анализа и попробую ответить на вопрос, на какие методы оценки лучше опираться работодателю при отборе сотрудников.

Schmidt & Hunter, 1998: классический мета-анализ

Статья Шмидта и Хантера — самый известный мета-анализ показателей валидности методов оценки, в котором собраны данные за 85 лет. Статью цитировали тысячи раз в разных исследованиях и если вы видите какие-то цифры по валидности методов отбора, то, скорее всего, они взяты из этой статьи.

Сам мета-анализ, по сути, обзор других проведённых исследований, в том числе и самих авторов. Нюанс в том, что Шмидт и Хантер не просто собрали в одну табличку уже существующие цифры, а применили к ним некоторые поправки. Именно к этим поправкам появятся вопросы, которые будут основанием для пересмотра полученных значений.

Матчасть

Почему вообще к цифрам нужны какие-то поправки? Дело в том, что измерение критериальной валидности — это измерение корреляции, связи между двумя показателями. Значения корреляции могут быть занижены из-за ненадёжности инструмента, маленькой или ограниченной выборки. 

В результате значения получаются низкими не потому, что в реальности связь между показателями слабая, а из-за проблем в измерении. Поправки, по идее, должны приближать вычисленное значение корреляции к некоему истинному значению.

Данные валидности методов оценки персонала. Источник: Schmidt & Hunter, 1998

Процедура отбора Валидность Валидность при использовании с тестом интеллекта
Задания, имитирующие рабочую деятельность 0,54 0,63
Структурированное интервью 0,51 0,63
Тесты интеллекта 0,51
Оценка коллег 0,49 0,58
Тесты профессиональных знаний 0,48 0,58
Поведенческая оценка опыта и обучения 0,45 0,58
Испытательный срок/стажировка 0,44 0,58
Тесты благонадёжности 0,41 0,65
Неструктурированное интервью 0,38 0,55
Центр оценки (ассессмент-центр) 0,37 0,53
Биографический опросник 0,35 0,52
Добросовестность 0,31 0,60
Проверка рекомендаций 0,26 0,57
Опыт работы 0,18 0,54
Балльная оценка опыта и обучения 0,11 0,52
Длительность обучения 0,10 0,52
Интересы 0,10 0,52
Графология 0,02 0,51
Возраст -0,01 0,51

Schmidt & Hunter, 1998. Топ-5 методов оценки:

  1. Задания, имитирующие рабочую деятельность;
  2. Тесты интеллекта;
  3. Структурированное интервью;
  4. Оценка коллег;
  5. Тесты профессиональных знаний.

С одной стороны, проделанный анализ не может не вызывать определённое восхищение и уважение. С другой, возникает вопрос — насколько это исследование, опубликованное 25 лет назад, актуально сейчас? 

Schmidt, Oh & Shaffer, 2016: немного странное обновление классического мета-анализа

Не только я посчитала, что данные 1998-го года уже неактуальны. Шмидт (его соавтор Джон Хантер умер в 2002) задумал обновить своё исследование, применить новые подходы к поправкам и пополнить его более свежими цифрами.

Проблема в том, что это исследование ещё не опубликовано. На сайте Университета Балтимора доступно препринтное издание, а сама статья с 2020 года находится на этапе рецензий и правок в крупном психологическом журнале «Barrett». В 2021 году Шмидт умер, и попытки опубликовать статью продолжаются без него, однако сами данные доступны.

На мой взгляд, из-за использования новых статистических методов для вычисления поправки к корреляции полученные значения валидности в этом исследовании — неправдоподобно высокие.

Матчасть

Для критериальной валидности редко указываются рекомендуемые значения, т.к. критерий, с которым измеряют корреляцию, всегда разный. Однако, например, в Российском стандарте тестирования персонала (п.4.5.4) корреляции от 0,35 до 0,5 считаются сильными, а выше этого — очень сильными, если не настораживающими. 

По этой причине полученный авторами показатель в 0,65 для когнитивных тестов вызывает у меня большой скепсис. Ну а цифра в 0,78 для сочетания тестов интеллекта и тестов благонадёжности выглядит просто фантастической.

Данные валидности методов оценки персонала. Источник: Schmidt, Oh & Shaffer, 2016

Процедура отбора Валидность Валидность при использовании с тестом интеллекта
Тесты интеллекта 0,65
Структурированное интервью 0,58 0,76
Неструктурированное интервью 0,58 0,73
Оценка коллег 0,49 0,65
Тесты профессиональных знаний 0,48 0,65
Тесты благонадёжности 0,46 0,78
Интервью по телефону (структурированное) 0,46 0,70
Поведенческая оценка опыта и обучения 0,45 0,65
Испытательный срок/стажировка 0,44 0,65
Центр оценки (ассессмент-центр) 0,36 0,66
Биографический опросник 0,35 0,68
Средний балл успеваемости 0,34 0,66
Задания, имитирующие рабочую деятельность 0,33 0,65
Эмоциональный интеллект (как личностная черта) 0,32 0,68
Интересы 0,31 0,71
Запрос отзыва с прошлых мест работы 0,26 0,69
Кейс-тесты (знания, «как правильно поступить») 0,26 0,66
Кейс-тесты (поведение, «как бы вы поступили») 0,26 0,65
Эмоциональный интеллект (способность) 0,23 0,65
Добросовестность 0,22 0,70
Соответствие личности должности (Person-Job Fit) 0,18 0,66
Опыт работы 0,16 0,68
Соответствие личности организации (Person-Organization Fit) 0,13 0,67
Эмоциональная стабильность 0,12 0,65
Балльная оценка опыта и обучения 0,11 0,66
Длительность обучения 0,10 0,65
Экстраверсия 0,09 0,65
Доброжелательность 0,08 0,65
Открытость опыту 0,04 0,68
Графология 0,02 0,65
Возраст 0,00 0,65

Schmidt, Oh & Shaffer, 2016. Топ-5 методов оценки:

  1. Тесты интеллекта;
  2. Структурированное и неструктурированное интервью;
  3. Оценка коллег;
  4. Тесты профессиональных знаний;
  5. Тесты благонадёжности и структурированное интервью по телефону.

Sackett et al., 2022: новый мета-анализ

Некоторые исследователи также посчитали, что полученные значения в этих двух мета-анализах являются неоправданно большими. В 2022 году вышла новая статья, в которой авторы пересмотрели значения валидности, полученные Шмидтом и Хантером в 1998-м, — все значения в новом исследовании получились более низкими. Основной вывод этой статьи: методы отбора полезны, но не настолько валидны, как мы это себе представляли.

Почему же у авторов этого исследования получились другие цифры? Помните, выше мы говорили о поправках, которые применяли Шмидт и Хантер? Давайте подробнее поговорим про одну из них — поправку на ограничение диапазона (range restriction).

Представьте, что мы хотим измерить корреляцию между успеваемостью и баллами ЕГЭ у школьников. Если мы возьмём для этого только хорошистов и отличников (т.е. ограничим диапазон выборки), то это корреляция будет сильно меньше, чем если бы такого ограничения не было. То же самое происходит с исследованиями валидности различных методов отбора.

В некоторых исследованиях валидности интересующий специалистов показатель сначала замеряется у всех кандидатов, а потом эффективность работы меряется позже, после найма. Получается, он измеряется только у тех кандидатов, которые прошли отбор и оказались лучшими (в т.ч. по этому показателю), ровно как в случае со школьниками. Так можно ли по этим ограниченным данным сделать выводы об истинной корреляции?

Матчасть

Проблема не новая, и формула для корректировки этого явления была предложена довольно давно, и даже не одна, но все не так просто. Дело в том, что параметр, с помощью которого необходимо скорректировать значение корреляции — стандартное отклонение полной выборки — зачастую неизвестен. 

Этот показатель либо пытаются считать какими-то обходными путями, либо его берут из той части исследований, для которой он известен, и затем применяют ко всем исследованиям, попавшим в мета-анализ. В обоих случаях оценки валидности получаются некорректными, чаще всего в сторону их неоправданного увеличения.

Все эти проблемы Сакет с коллегами подробно разбирают и критикуют. В качестве альтернативы они предлагают индивидуально рассматривать каждое исследование, которое вошло в мета-анализ, и отдельно по каждому принимать решение об использовании поправок, а также не применять их, если для этого нет надёжного обоснования.

С этими соображениями авторы пересчитывают данные исследования Шмидта и Хантера от 1998 года и добавляют, где возможно, новые исследования. В итоге у них получились более низкие значения валидности для всех методов, и, как результат, в топ-5 вошли другие методики.

В 2023 году авторы написали вторую статью с ответами на вопросы к первой. В свежей статье они дополнительно пересчитали некоторые показатели с учётом новых данных. В таблице привожу данные статей за 2022 и 2023 годы.

Данные валидности методов оценки персонала. Источник: Sackett et al., 2022, Sackett et al., 2023

Процедура отбора Валидность (2022) Валидность (2023)
Структурированное интервью 0,42
Тесты профессиональных знаний 0,40
Биографический опросник (эмпирически подобранные критерии) 0,38
Задания, имитирующие рабочую деятельность 0,33
Тесты интеллекта 0,31 0,23
Тесты благонадёжности 0,31
Эмоциональный интеллект (как личностная черта) 0,30
Центр оценки (ассессмент-центр) 0,29 0,33
Кейс-тесты (знания, «как правильно поступить») 0,26
Кейс-тесты (поведение, «как бы вы поступили») 0,26
Добросовестность (в контексте работы) 0,25
Интересы 0,24
Эмоциональная стабильность (в контексте работы) 0,23
Эмоциональный интеллект (способность) 0,22
Биографический опросник (рационально подобранные критерии) 0,22
Экстраверсия (в контексте работы) 0,21
Добросовестность 0,19
Неструктурированное интервью 0,19
Доброжелательность (в контексте работы) 0,19
Открытость опыту (в контексте работы) 0,12
Экстраверсия 0,10
Доброжелательность 0,10
Эмоциональная стабильность 0,09
Опыт работы 0,07
Открытость опыту 0,05

Sackett et al., 2022. Топ-5 методов оценки:

  1. Структурированное интервью;
  2. Тесты профессиональных знаний;
  3. Биографические тесты (эмпирически подобранные критерии);
  4. Задания, имитирующие рабочую деятельность;
  5. Тесты интеллекта.

Sackett et al., 2023. Топ-5 методов:

  1. Структурированное интервью;
  2. Тесты профессиональных знаний;
  3. Биографические тесты (эмпирически подобранные критерии);
  4. Задания, имитирующие рабочую деятельность, ассессмент-центры;
  5. Тесты на благонадёжность.

Мне лично очень симпатичен новый мета-анализ, т.к. в нём крайне подробно описывается, каким образом у авторов получились эти цифры, почему в одних местах они решили корректировать значения, а в других — нет.

Критика

Относительно низкие значения валидности, например, тестов интеллекта, получались не только у Сакета и соавторов, да и расчёты Шмидта и Хантера они начали критиковать далеко не первыми. Ещё в 1989 году исследователи Хартиган и Вигдор критиковали поправки, которые использовали Шмидт и Хантер.

Это случилось до того, как был опубликован большой мета-анализ 1998 года, но после проведённого исследования валидности IQ для отбора, значения которого использовались в мета-анализе. Эти цифры продолжили подвергать сомнению и позже. Например, в 2015 году вышла статья, авторы которой также подвергли критике представление, что IQ хорошо предсказывает эффективность работы. 

Сравнение трёх мета-анализов: выводы

Собрав всю информацию воедино, мы можем взглянуть на данные из трёх мета-анализов вместе. В таблице вы увидите значения валидности всех процедур оценки в разных статьях.

Сравнение валидности из трёх мета-анализов. Значения в таблице отсортированы по убыванию значений критерия валидности у мета-анализа Schmidt & Hunter (1998).

Процедура отбора Валидность в мета-анализах
Schmidt & Hunter (1998) Schmidt, Oh & Shaffer (2016) Sackett et al. (2022) Sackett et al. (2023)
Задания, имитирующие рабочую деятельность 0,54 0,33 0,33 0,33
Тесты интеллекта 0,51 0,65 0,31 0,23
Структурированное интервью 0,51 0,58 0,42 0,42
Оценка коллег 0,49 0,49
Тесты профессиональных знаний 0,48 0,48 0,40 0,40
Поведенческая оценка опыта и обучения 0,45 0,45
Испытательный срок/стажировка 0,44 0,44
Тесты благонадёжности 0,41 0,46 0,31 0,31
Неструктурированное интервью 0,38 0,58 0,19 0,19
Центр оценки (ассессмент-центр) 0,37 0,36 0,29 0,33
Биографический опросник (эмпирически подобранные критерии) 0,35 0,35 0,38 0,38
Добросовестность 0,31 0,22 0,19 0,19
Запрос отзыва с прошлых мест работы 0,26 0,26
Опыт работы 0,18 0,16 0,07 0,07
Балльная оценка опыта и обучения 0,11 0,11
Интересы 0,10 0,31 0,24 0,24
Длительность обучения 0,10 0,10
Графология 0,02 0,02
Возраст -0,01 0,00
Эмоциональный интеллект (способность) 0,23 0,22 0,22
Доброжелательность (в контексте работы) 0,19 0,19
Доброжелательность 0,08 0,10 0,10
Добросовестность (в контексте работы) 0,25 0,25
Эмоциональная стабильность (в контексте работы) 0,23 0,23
Эмоциональная стабильность 0,12 0,09 0,09
Экстраверсия (в контексте работы) 0,21 0,21
Экстраверсия 0,09 0,10 0,10
Средний балл успеваемости 0,34
Открытость опыту (в контексте работы) 0,12 0,12
Открытость опыту 0,04 0,05 0,05
Соответствие личности должности (Person-Job Fit) 0,18
Соответствие личности организации (Person-Organization Fit) 0,13
Эмоциональный интеллект (как личностная черта) 0,32 0,30 0,30
Интервью по телефону (структурированное) 0,46
Биографический опросник (рационально подобранные критерии) 0,22 0,22
Кейс-тесты (поведение, «как бы вы поступили») 0,26 0,26 0,29
Кейс-тесты (знания, «как правильно поступить») 0,26 0,26 0,29


Так какой же вывод из всего этого можно сделать и на какие методы отбора лучше опираться?
Точно можно сказать, что те методы, которые неоднократно занимали первые позиции, дадут более полезные результаты, чем стаж, длительность обучения и измерение отдельных черт личности. Вот эти методы:

  1. Структурированное интервью.
  2. Тесты профессиональных знаний.
  3. Оценка коллег.
  4. Задания, имитирующие рабочую деятельность.
  5. Тесты интеллекта.
  6. Биографические тесты.
  7. Центр оценки (ассессмент-центр).
  8. Тесты на благонадёжность.

Сравнение трёх мета-анализов: интерактивный график

На графике отображена та же информация, но в более наглядном виде. Длина столбца соответствует коэффициенту валидности: чем длиннее столбец, тем выше это значение. 

На графике есть возможность выбирать статью, результаты которой вы хотите посмотреть, и настраивать сортировку.

Перейти к графику

Литература

  • Российский стандарт тестирования персонала (временная версия, созданная для широкого обсуждения в 2015 году). Организационная психология, 5(2), 67-138. Батурин Н.А., Вучетич Е.В., Костромина С.Н., Кукаркин Б.А., Куприянов Е.А., Лурье Е.В., Митина О.В., Науменко А.С., Орел Е.А., Полетаева Ю.С., Попов А.Ю., Потапкин А.А., Симоненко С.И., Синицына Ю.Д. & Шмелев А.Г. (2015).
  • Barrett, P. (2022). Predicting Job Performance. Cognadev.
  • Hartigan, J. A. & Wigdor, A. K. (1989). Fairness in employment testing: Validity generalization, minority issues, and the General Aptitude Test Battery. National Research Council.
  • Richardson, K & Norgate, S.H. (2015). Does IQ Really Predict Job Performance?, Applied Developmental Science, 19:3, 153-169.
  • Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040.
  • Sackett, P., Zhang, C., Berry, C., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology, 16(3), 283-300.
  • Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological bulletin, 124(2), 262.
  • Schmidt, F. L., Oh, I. S., & Shaffer, J. A. (2016). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 100 years.
Дарья Черткова
Дарья Черткова
Редактор
0 комментариев
Написание комментария требует предварительной регистрации на сайте

Войти с помощью:

Войти как пользователь
Вы можете войти на сайт, если вы зарегистрированы на одном из этих сервисов:
Ничего не найдено
Хотите подобрать тест для оценки?

В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.

Оставьте заявку на бесплатную консультацию специалиста!

Перейти в каталог тестов