12.12.2013 Время чтения: 5 минут

Валидность теста (или история о том, что нужно читать написанное мелким шрифтом)

Евгений Лурье, LiveJournal.com.

Итак, коллеги, нам надо поздравить друг друга с появлением просто замечательного блоггера на тему "оценка персонала" - Евгения Лурье. Все его предыдущие статьи на эту тему следует считать просто разминкой перед этой блестящей статьей. А эта статья - это настоящий Вызов. Это вызов нашей обычной умственной лени, когда мы хотим совершить поверхностный выбор товара (инструмента), опираясь лишь на "магию слов".

Вот прослышали модное слово ВАЛИДНОСТЬ (теперь, слава Богу, все более модное слово) и ищем его упоминание в связи с тестом. Ага, есть упоминание! И число приличное - больше 0,5. Ну и слава Богу! - Можно брать. Это как в случае с лекарствами: "Производитель подтверждает, что данный новый лекарственный препарат прошел испытания". Понятно, что если Вы больной (или испытуемый, что в отношении к тестам примерно тоже самое), то Вам и не надо вчитываться и вдумываться глубже - "ну есть приличная валидность" ("ну прошел испытания препарат"), значит, можно "испытываться по тесту" (значит, "можно принимать лекарства").

Но если Вы не испытуемый, а тестирующий (не больной, а врач), то ВЫ ОБЯЗАНЫ вдумываться и вчитываться глубже. Ибо, увы, ту же самую окаянную ВАЛИДНОСТЬ можно измерить десятками разных способов и половина из этих способов будет в случае данного теста совсем не корректной. К сожалению, слишком редко даже известные западные производители вполне честно реализуют исследование валидности своих собственных инструментов.

Самый достоверный источник в наше время - независимые проверки валидности (когда не сам производитель организует испытания продукта, а какая-то не зависимая от него комиссия). Первое, в чем абсолютно прав Евгений (браво, Женя): ВАЛИДНОСТЬ надобно проверять не ТАМ (за бугром), а ЗДЕСЬ - на российской выборке и на наших людях. Ибо после перевода любой психометрической методики - это уже ДРУГАЯ МЕТОДИКА. А на фоне этого требования все остальные - тоже важные, но уже более мелкие. Впрочем, "дьявол валидности" прячется именно в в этих мелочах. Об этом подробнее читайте в блестящей статье.

Главный редактор ht.ru А.Г.Шмелев*

*автор упомянутой Евгением статьи "Каша из топора", написанной когда-то в надежде на "да прорастет хотя бы одна разумная мысль хотя бы в одной голове одного российского психолога-тестолога..." И, вот оно свершается на глазах: мысли прорастают и озвучиваются новыми нашими людьми - вполне достойными профи в этой сложной области).

У меня есть давний интерес к российскому рынку психодиагностики/психометрики. В свое время даже обзорную статью по сабжу подготовил, по-моему она до сих пор не потеряла актуальность.

Сегодня хочу поделиться одним интересным наблюдением, иллюстрирующим текущее состояние рынка. Сразу предупреждаю: (1) я буду ёрничать; (2) всё изложенное ниже моё ИМХО как частного лица, интересующегося темой.

Итак, в России продолжают появляться крупные и мелкие международные игроки. И это здорово! Некоторое время назад состоялось второе пришествие британского Saville Consulting, которого в России теперь представляет Formatta. И производитель, и дистрибьютор очень искусно ведут бизнес, в том числе нажимая на самую больную точку всех оценочных технологий - на валидность. Настал наконец-то такой момент, когда вокруг этого можно попробовать выстроить пиар (и это тоже клёво!).

Питер Сэвилл умеет делать качественный продукт, тут ничего не скажешь. В анамнезе у него вся продуктовая линейка SHL (версии до 2000 года). И с маркетингом у него тоже всегда было ОК. Тот же SHL, будучи публичной компанией, кормит акционеров бутербродами с икрой, давно и стабильно.

Теперь собственно к сабжу - к их продукту Wave и его фантастической валидности 0,57, которую обещает производитель (пруфф). Wave - это в сущности отличный апгрейд и аналог счловского OPQ. Есть своя универсальная модель компетенций, к этой модели компетенций привязан опросник. Сама модель и опросник во многом повторяют "Большую восьмерку" SHL.

Итак, валидность 0,57 - это очень круто. Особенно для опросника, где валидность выше 0,3 очень большая и необычная редкость. Это какбэ наводит на мысль почитать про тему подробнее.

На сайте российского дистрибьютора инфы нет, поэтому идем к Сэвиллу и ищем тех.отчеты по Wave (они обязательно должны быть, это общеевропейский стандарт EFPA). После возни с регистрацией находим нужный документ и читаем. Мануал к тесту внушительный, несколько томов. Видно, что работало много людей и работали они долго. Данных набрали очень много, хотя количество не всегда переходит в качество. Не вдаваясь в подробности, опишу несколько ключевых выводов по прочтении:

Технического мануала для русскоязычной версии нет (или он не доступен). Из этого можно сделать вывод, что адаптация российской версии пока в процессе (правда коммерческое использование тоже в процессе)
Исследование валидности к опроснику имеется. То самое, в котором получилось 0,57. Но дальше следим за руками.
Проводилось исследование с помощью британской версии опросника и на британской выборке (300 чел.)
Делалось буквально следующее: взяли группу в 300 человек, дали им много опросников (Большую пятерку, Кетелла, OPQ, Wave и др.). Затем дали руководителям этих людей заполнить экспертный опросник, в котором надо было оценить людей по параметрам из модели Wave (!). Затем посчитали среднюю корреляцию между шкалами опросников и параметрами этого экспертного опросника. Для Wave она оказалась самой высокой. Это корреляция 0.57 - та самая цифра, которую они приводят как валидность.

Соответственно, к прочитанному возникает несколько комментариев:

То, что это самая высокая корреляция, не очень удивительно, учитывая, что оценка руководителями проводилась по модели Wave и опросник построен по модели Wave, а другие опросники не построены по модели Wave )))
Это корреляция, скорректированная на ненадежность. Есть такая сугубо статистическая процедура: смотрим, что будет с валидностью, если предположим, что надежность у опросника 1. Такой надежности не бывает - это просто попытка посмотреть, как бы всё смотрелось в "чистом виде". Традиционно во всех публикациях используется обычная корреляция, а не скорректированная. А обычные корреляции (без этой статистической поправки) у Saville вполне даже обычные для опросников - в районе 0.2 - 0.3.
Вся инфа о валидности основана на одном исследовании, в котором участвовали 300 человек. Все остальные огромные выборки, которые приводятся в тех.отчете, участвовали только в уточнении норм, но не в исследовании валидности.
Данное исследование было проведено в 2008 году в Британии, то есть данные несвежие и никакого отношения не имеют к российской версии опросника. А, как известно, перевод опросника - это как перевод поэзии, нужно сделать фактически новый опросник. Свежесть исследований также важна, потому что опросники чувствительны к изменениям в социуме (см. отличный комментарий по этому поводу в статье Шмелева "Каша из топора").

Вывод: нажатие на "болевые точки" пока что выглядят немножко как развод не очень просвещенной и ленивой до информации публики. Важно и нужно выстраивать пиар оценочных технологий вокруг их качества, но сначала нужно немножко разобраться с этим самым качеством. Что оно такое и как его измерить? И публике объяснить. А то получается как в анекдоте про Петьку с Василий Иванычем про приборы и "17".

Получается, что рынок уже готов потреблять инфу про валидность (и это гуд), но что это такое конкретно, пока ни для кого не имеет значения... Магия цифр, и всё на мази. Нужно с этим что-то делать.

Я искренне надеюсь, что у ребят хватит смелости и денег провести российский ресерч. Это правда сложная задача, особенно в отношении опросников. Но до этого времени я бы порекомендовал несколько поубавить пыл и подписать, что это 0,57 означает (ну или вообще убрать это до поры).

P.S. Друзья, требуйте от производителя:

1. Исследования качества их инструментов.

2. Проведенные на российских выборках с помощью российских инструментов.

3. Свежие и честные данные о валидности и надежности.

4. Тех.мануал, в котором подробно описано всё про п. 1-3.

5. Ну и рекомендую ожидать от производителя критичности и скромности в отношении своих методик - психологи пока еще только учатся делать качественные продукты.

UPD1 (декабрь): на сайте владельца российской франшизы появились три магические звездочки рядом с блоком про надежность и валидность (ссылка). Что эти звёздочки означают, пока загадка - пояснения к ним отсутствуют. Будем надеяться, что пояснение скоро появятся.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите ctrl+enter.

0 комментариев

Написание комментария требует предварительной регистрации на сайте

Продолжая, вы даёте согласие на обработку персональных данных

Комментариев пока нет, будьте первым

Хотите подобрать тест для оценки?

В нашем арсенале более 30 тестов оценки личностных, мотивационных особенностей, IQ, управленческого потенциала, рискованного поведения, самопознания и др.

Оставьте заявку на бесплатную консультацию специалиста!

Перейти в каталог тестов

Валидность теста (или история о том, что нужно читать написанное мелким шрифтом)

Войти с помощью: