Валидность методов оценки персонала: три важных мета-анализа
Содержание:
- Schmidt & Hunter, 1998: классический мета-анализ
- Schmidt, Oh & Shaffer, 2016: немного странное обновление классического мета-анализа
- Sackett et al., 2022: новый мета-анализ
- Сравнение трёх мета-анализов: выводы
- Литература
Что лучше предсказывает эффективность отбора: результат испытательного срока, Центр оценки, тесты интеллекта или оценка организованности? Ответ лежит в показателях валидности разных методов оценки персонала.
Каждый провайдер показывает валидность своих инструментов на базе собственных исследований. Мета-анализ объединяет в себе много разных исследований, — даёт «среднюю температуру по больнице», помогая понять, например, какова валидность тестов интеллекта в целом, по сравнению с другими методами.
В сфере оценки персонала периодически появляются новые мета-анализы, которые дополняют или корректируют результаты прежних. В статье я проанализирую три больших мета-анализа и попробую ответить на вопрос, на какие методы оценки лучше опираться работодателю при отборе сотрудников.
Schmidt & Hunter, 1998: классический мета-анализ
Статья Шмидта и Хантера — самый известный мета-анализ показателей валидности методов оценки, в котором собраны данные за 85 лет. Статью цитировали тысячи раз в разных исследованиях и если вы видите какие-то цифры по валидности методов отбора, то, скорее всего, они взяты из этой статьи.
Сам мета-анализ, по сути, обзор других проведённых исследований, в том числе и самих авторов. Нюанс в том, что Шмидт и Хантер не просто собрали в одну табличку уже существующие цифры, а применили к ним некоторые поправки. Именно к этим поправкам появятся вопросы, которые будут основанием для пересмотра полученных значений.
Матчасть
Почему вообще к цифрам нужны какие-то поправки? Дело в том, что измерение критериальной валидности — это измерение корреляции, связи между двумя показателями. Значения корреляции могут быть занижены из-за ненадёжности инструмента, маленькой или ограниченной выборки.
В результате значения получаются низкими не потому, что в реальности связь между показателями слабая, а из-за проблем в измерении. Поправки, по идее, должны приближать вычисленное значение корреляции к некоему истинному значению.
Процедура отбора | Валидность | Валидность при использовании с тестом интеллекта |
Задания, имитирующие рабочую деятельность | 0,54 | 0,63 |
Структурированное интервью | 0,51 | 0,63 |
Тесты интеллекта | 0,51 | – |
Оценка коллег | 0,49 | 0,58 |
Тесты профессиональных знаний | 0,48 | 0,58 |
Поведенческая оценка опыта и обучения | 0,45 | 0,58 |
Испытательный срок/стажировка | 0,44 | 0,58 |
Тесты благонадёжности | 0,41 | 0,65 |
Неструктурированное интервью | 0,38 | 0,55 |
Центр оценки (ассессмент-центр) | 0,37 | 0,53 |
Биографический опросник | 0,35 | 0,52 |
Добросовестность | 0,31 | 0,60 |
Проверка рекомендаций | 0,26 | 0,57 |
Опыт работы | 0,18 | 0,54 |
Балльная оценка опыта и обучения | 0,11 | 0,52 |
Длительность обучения | 0,10 | 0,52 |
Интересы | 0,10 | 0,52 |
Графология | 0,02 | 0,51 |
Возраст | -0,01 | 0,51 |
Schmidt & Hunter, 1998. Топ-5 методов оценки:
- Задания, имитирующие рабочую деятельность;
- Тесты интеллекта;
- Структурированное интервью;
- Оценка коллег;
- Тесты профессиональных знаний.
С одной стороны, проделанный анализ не может не вызывать определённое восхищение и уважение. С другой, возникает вопрос — насколько это исследование, опубликованное 25 лет назад, актуально сейчас?
Schmidt, Oh & Shaffer, 2016: немного странное обновление классического мета-анализа
Не только я посчитала, что данные 1998-го года уже неактуальны. Шмидт (его соавтор Джон Хантер умер в 2002) задумал обновить своё исследование, применить новые подходы к поправкам и пополнить его более свежими цифрами.
Проблема в том, что это исследование ещё не опубликовано. На сайте Университета Балтимора доступно препринтное издание, а сама статья с 2020 года находится на этапе рецензий и правок в крупном психологическом журнале «Barrett». В 2021 году Шмидт умер, и попытки опубликовать статью продолжаются без него, однако сами данные доступны.
На мой взгляд, из-за использования новых статистических методов для вычисления поправки к корреляции полученные значения валидности в этом исследовании — неправдоподобно высокие.
Матчасть
Для критериальной валидности редко указываются рекомендуемые значения, т.к. критерий, с которым измеряют корреляцию, всегда разный. Однако, например, в Российском стандарте тестирования персонала (п.4.5.4) корреляции от 0,35 до 0,5 считаются сильными, а выше этого — очень сильными, если не настораживающими.
По этой причине полученный авторами показатель в 0,65 для когнитивных тестов вызывает у меня большой скепсис. Ну а цифра в 0,78 для сочетания тестов интеллекта и тестов благонадёжности выглядит просто фантастической.
Процедура отбора | Валидность | Валидность при использовании с тестом интеллекта |
Тесты интеллекта | 0,65 | – |
Структурированное интервью | 0,58 | 0,76 |
Неструктурированное интервью | 0,58 | 0,73 |
Оценка коллег | 0,49 | 0,65 |
Тесты профессиональных знаний | 0,48 | 0,65 |
Тесты благонадёжности | 0,46 | 0,78 |
Интервью по телефону (структурированное) | 0,46 | 0,70 |
Поведенческая оценка опыта и обучения | 0,45 | 0,65 |
Испытательный срок/стажировка | 0,44 | 0,65 |
Центр оценки (ассессмент-центр) | 0,36 | 0,66 |
Биографический опросник | 0,35 | 0,68 |
Средний балл успеваемости | 0,34 | 0,66 |
Задания, имитирующие рабочую деятельность | 0,33 | 0,65 |
Эмоциональный интеллект (как личностная черта) | 0,32 | 0,68 |
Интересы | 0,31 | 0,71 |
Запрос отзыва с прошлых мест работы | 0,26 | 0,69 |
Кейс-тесты (знания, «как правильно поступить») | 0,26 | 0,66 |
Кейс-тесты (поведение, «как бы вы поступили») | 0,26 | 0,65 |
Эмоциональный интеллект (способность) | 0,23 | 0,65 |
Добросовестность | 0,22 | 0,70 |
Соответствие личности должности (Person-Job Fit) | 0,18 | 0,66 |
Опыт работы | 0,16 | 0,68 |
Соответствие личности организации (Person-Organization Fit) | 0,13 | 0,67 |
Эмоциональная стабильность | 0,12 | 0,65 |
Балльная оценка опыта и обучения | 0,11 | 0,66 |
Длительность обучения | 0,10 | 0,65 |
Экстраверсия | 0,09 | 0,65 |
Доброжелательность | 0,08 | 0,65 |
Открытость опыту | 0,04 | 0,68 |
Графология | 0,02 | 0,65 |
Возраст | 0,00 | 0,65 |
Schmidt, Oh & Shaffer, 2016. Топ-5 методов оценки:
- Тесты интеллекта;
- Структурированное и неструктурированное интервью;
- Оценка коллег;
- Тесты профессиональных знаний;
- Тесты благонадёжности и структурированное интервью по телефону.
Sackett et al., 2022: новый мета-анализ
Некоторые исследователи также посчитали, что полученные значения в этих двух мета-анализах являются неоправданно большими. В 2022 году вышла новая статья, в которой авторы пересмотрели значения валидности, полученные Шмидтом и Хантером в 1998-м, — все значения в новом исследовании получились более низкими. Основной вывод этой статьи: методы отбора полезны, но не настолько валидны, как мы это себе представляли.
Почему же у авторов этого исследования получились другие цифры? Помните, выше мы говорили о поправках, которые применяли Шмидт и Хантер? Давайте подробнее поговорим про одну из них — поправку на ограничение диапазона (range restriction).
Представьте, что мы хотим измерить корреляцию между успеваемостью и баллами ЕГЭ у школьников. Если мы возьмём для этого только хорошистов и отличников (т.е. ограничим диапазон выборки), то это корреляция будет сильно меньше, чем если бы такого ограничения не было. То же самое происходит с исследованиями валидности различных методов отбора.
В некоторых исследованиях валидности интересующий специалистов показатель сначала замеряется у всех кандидатов, а потом эффективность работы меряется позже, после найма. Получается, он измеряется только у тех кандидатов, которые прошли отбор и оказались лучшими (в т.ч. по этому показателю), ровно как в случае со школьниками. Так можно ли по этим ограниченным данным сделать выводы об истинной корреляции?
Матчасть
Проблема не новая, и формула для корректировки этого явления была предложена довольно давно, и даже не одна, но все не так просто. Дело в том, что параметр, с помощью которого необходимо скорректировать значение корреляции — стандартное отклонение полной выборки — зачастую неизвестен.
Этот показатель либо пытаются считать какими-то обходными путями, либо его берут из той части исследований, для которой он известен, и затем применяют ко всем исследованиям, попавшим в мета-анализ. В обоих случаях оценки валидности получаются некорректными, чаще всего в сторону их неоправданного увеличения.
Все эти проблемы Сакет с коллегами подробно разбирают и критикуют. В качестве альтернативы они предлагают индивидуально рассматривать каждое исследование, которое вошло в мета-анализ, и отдельно по каждому принимать решение об использовании поправок, а также не применять их, если для этого нет надёжного обоснования.
С этими соображениями авторы пересчитывают данные исследования Шмидта и Хантера от 1998 года и добавляют, где возможно, новые исследования. В итоге у них получились более низкие значения валидности для всех методов, и, как результат, в топ-5 вошли другие методики.
В 2023 году авторы написали вторую статью с ответами на вопросы к первой. В свежей статье они дополнительно пересчитали некоторые показатели с учётом новых данных. В таблице привожу данные статей за 2022 и 2023 годы.
Процедура отбора | Валидность (2022) | Валидность (2023) |
Структурированное интервью | 0,42 | |
Тесты профессиональных знаний | 0,40 | |
Биографический опросник (эмпирически подобранные критерии) | 0,38 | |
Задания, имитирующие рабочую деятельность | 0,33 | |
Тесты интеллекта | 0,31 | 0,23 |
Тесты благонадёжности | 0,31 | |
Эмоциональный интеллект (как личностная черта) | 0,30 | |
Центр оценки (ассессмент-центр) | 0,29 | 0,33 |
Кейс-тесты (знания, «как правильно поступить») | 0,26 | |
Кейс-тесты (поведение, «как бы вы поступили») | 0,26 | |
Добросовестность (в контексте работы) | 0,25 | |
Интересы | 0,24 | |
Эмоциональная стабильность (в контексте работы) | 0,23 | |
Эмоциональный интеллект (способность) | 0,22 | |
Биографический опросник (рационально подобранные критерии) | 0,22 | |
Экстраверсия (в контексте работы) | 0,21 | |
Добросовестность | 0,19 | |
Неструктурированное интервью | 0,19 | |
Доброжелательность (в контексте работы) | 0,19 | |
Открытость опыту (в контексте работы) | 0,12 | |
Экстраверсия | 0,10 | |
Доброжелательность | 0,10 | |
Эмоциональная стабильность | 0,09 | |
Опыт работы | 0,07 | |
Открытость опыту | 0,05 |
Sackett et al., 2022. Топ-5 методов оценки:
- Структурированное интервью;
- Тесты профессиональных знаний;
- Биографические тесты (эмпирически подобранные критерии);
- Задания, имитирующие рабочую деятельность;
- Тесты интеллекта.
Sackett et al., 2023. Топ-5 методов:
- Структурированное интервью;
- Тесты профессиональных знаний;
- Биографические тесты (эмпирически подобранные критерии);
- Задания, имитирующие рабочую деятельность, ассессмент-центры;
- Тесты на благонадёжность.
Мне лично очень симпатичен новый мета-анализ, т.к. в нём крайне подробно описывается, каким образом у авторов получились эти цифры, почему в одних местах они решили корректировать значения, а в других — нет.
Критика
Относительно низкие значения валидности, например, тестов интеллекта, получались не только у Сакета и соавторов, да и расчёты Шмидта и Хантера они начали критиковать далеко не первыми. Ещё в 1989 году исследователи Хартиган и Вигдор критиковали поправки, которые использовали Шмидт и Хантер.
Это случилось до того, как был опубликован большой мета-анализ 1998 года, но после проведённого исследования валидности IQ для отбора, значения которого использовались в мета-анализе. Эти цифры продолжили подвергать сомнению и позже. Например, в 2015 году вышла статья, авторы которой также подвергли критике представление, что IQ хорошо предсказывает эффективность работы.
Сравнение трёх мета-анализов: выводы
Собрав всю информацию воедино, мы можем взглянуть на данные из трёх мета-анализов вместе. В таблице вы увидите значения валидности всех процедур оценки в разных статьях.
Процедура отбора | Валидность в мета-анализах | ||||
Schmidt & Hunter (1998) | Schmidt, Oh & Shaffer (2016) | Sackett et al. (2022) | Sackett et al. (2023) | ||
Задания, имитирующие рабочую деятельность | 0,54 | 0,33 | 0,33 | 0,33 | |
Тесты интеллекта | 0,51 | 0,65 | 0,31 | 0,23 | |
Структурированное интервью | 0,51 | 0,58 | 0,42 | 0,42 | |
Оценка коллег | 0,49 | 0,49 | |||
Тесты профессиональных знаний | 0,48 | 0,48 | 0,40 | 0,40 | |
Поведенческая оценка опыта и обучения | 0,45 | 0,45 | |||
Испытательный срок/стажировка | 0,44 | 0,44 | |||
Тесты благонадёжности | 0,41 | 0,46 | 0,31 | 0,31 | |
Неструктурированное интервью | 0,38 | 0,58 | 0,19 | 0,19 | |
Центр оценки (ассессмент-центр) | 0,37 | 0,36 | 0,29 | 0,33 | |
Биографический опросник (эмпирически подобранные критерии) | 0,35 | 0,35 | 0,38 | 0,38 | |
Добросовестность | 0,31 | 0,22 | 0,19 | 0,19 | |
Запрос отзыва с прошлых мест работы | 0,26 | 0,26 | |||
Опыт работы | 0,18 | 0,16 | 0,07 | 0,07 | |
Балльная оценка опыта и обучения | 0,11 | 0,11 | |||
Интересы | 0,10 | 0,31 | 0,24 | 0,24 | |
Длительность обучения | 0,10 | 0,10 | |||
Графология | 0,02 | 0,02 | |||
Возраст | -0,01 | 0,00 | |||
Эмоциональный интеллект (способность) | 0,23 | 0,22 | 0,22 | ||
Доброжелательность (в контексте работы) | 0,19 | 0,19 | |||
Доброжелательность | 0,08 | 0,10 | 0,10 | ||
Добросовестность (в контексте работы) | 0,25 | 0,25 | |||
Эмоциональная стабильность (в контексте работы) | 0,23 | 0,23 | |||
Эмоциональная стабильность | 0,12 | 0,09 | 0,09 | ||
Экстраверсия (в контексте работы) | 0,21 | 0,21 | |||
Экстраверсия | 0,09 | 0,10 | 0,10 | ||
Средний балл успеваемости | 0,34 | ||||
Открытость опыту (в контексте работы) | 0,12 | 0,12 | |||
Открытость опыту | 0,04 | 0,05 | 0,05 | ||
Соответствие личности должности (Person-Job Fit) | 0,18 | ||||
Соответствие личности организации (Person-Organization Fit) | 0,13 | ||||
Эмоциональный интеллект (как личностная черта) | 0,32 | 0,30 | 0,30 | ||
Интервью по телефону (структурированное) | 0,46 | ||||
Биографический опросник (рационально подобранные критерии) | 0,22 | 0,22 | |||
Кейс-тесты (поведение, «как бы вы поступили») | 0,26 | 0,26 | 0,29 | ||
Кейс-тесты (знания, «как правильно поступить») | 0,26 | 0,26 | 0,29 |
Так какой же вывод из всего этого можно сделать и на какие методы отбора лучше опираться? Точно можно сказать, что те методы, которые неоднократно занимали первые позиции, дадут более полезные результаты, чем стаж, длительность обучения и измерение отдельных черт личности. Вот эти методы:
- Структурированное интервью.
- Тесты профессиональных знаний.
- Оценка коллег.
- Задания, имитирующие рабочую деятельность.
- Тесты интеллекта.
- Биографические тесты.
- Центр оценки (ассессмент-центр).
- Тесты на благонадёжность.
Сравнение трёх мета-анализов: интерактивный график
На графике отображена та же информация, но в более наглядном виде. Длина столбца соответствует коэффициенту валидности: чем длиннее столбец, тем выше это значение.
На графике есть возможность выбирать статью, результаты которой вы хотите посмотреть, и настраивать сортировку.
Литература
- Российский стандарт тестирования персонала (временная версия, созданная для широкого обсуждения в 2015 году). Организационная психология, 5(2), 67-138. Батурин Н.А., Вучетич Е.В., Костромина С.Н., Кукаркин Б.А., Куприянов Е.А., Лурье Е.В., Митина О.В., Науменко А.С., Орел Е.А., Полетаева Ю.С., Попов А.Ю., Потапкин А.А., Симоненко С.И., Синицына Ю.Д. & Шмелев А.Г. (2015).
- Barrett, P. (2022). Predicting Job Performance. Cognadev.
- Hartigan, J. A. & Wigdor, A. K. (1989). Fairness in employment testing: Validity generalization, minority issues, and the General Aptitude Test Battery. National Research Council.
- Richardson, K & Norgate, S.H. (2015). Does IQ Really Predict Job Performance?, Applied Developmental Science, 19:3, 153-169.
- Sackett, P. R., Zhang, C., Berry, C. M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection: Addressing systematic overcorrection for restriction of range. Journal of Applied Psychology, 107(11), 2040.
- Sackett, P., Zhang, C., Berry, C., & Lievens, F. (2023). Revisiting the design of selection systems in light of new findings regarding the validity of widely used predictors. Industrial and Organizational Psychology, 16(3), 283-300.
- Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological bulletin, 124(2), 262.
- Schmidt, F. L., Oh, I. S., & Shaffer, J. A. (2016). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 100 years.
Похожие статьи
В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.
Оставьте заявку на бесплатную консультацию специалиста!