3.4. Модели оценки результатов тестирования

ПРАКТИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ НАДЕЖНОСТИ ТЕСТОВ

На практике разработано несколько способов определения надёжности теста. Но чаще всего используются только три:

Повторное тестирование;
Параллельное тестирование;
Метод раздельного коррелирования.

Повторное тестирование – это наиболее простой способ определения надежности теста. Представляет из себя двукратное по меньшей мере использование одного и того же теста в той же группе респондентов. Результаты обоих опросов коррелируются. При этом возможны три случая.

Полное совпадение результатов опроса говорит о надёжности теста в смысле воспроизводимости результатов и стабильности измерения: баллы и места респондентов совпали. Коррелирование первого опроса со вторым дает величину корреляции, равную единице, что позволяет говорить о полной надёжности теста. В практике такой случай, можно сказать, не встречается.
Результаты первого и второго измерений почти не совпадают, но видно в целом картина существенно не меняется: по-прежнему те, кто имел высокие баллы в первом измерении, получили примерно такие же баллы во втором, что опять-таки указывает на воспроизводимость, устойчивость, стабильность результатов, а следовательно, и на определённую надежность теста. В таких случаях коэффициент корреляции принимает достаточно высокие значения, что указывает на вполне приемлемую надёжность теста.
Плохая воспроизводимость результатов предыдущего тестирования, что говорит о нестабильности, неустойчивости измерений. Коррелирование баллов дает низкое значение коэффициентов, что свидетельствует о практическом отсутствии надёжности.

	I	II	I	II	I	II
1	12	12	12	11	12	15
2	15	15	15	13	15	8
3	11	11	11	11	11	5
4	7	7	7	5	7	10
5	4	4	4	8	4	6

Метод повторного тестирования имеет достоинства и недостатки. Достоинство заключается в сравнительной простоте его использования, ясности основных посылок, лежащих в определении надежности, простоте расчетов. К недостаткам можно отнести неопределенность в выборе временного интервала между первым и вторым опросами. Этот интервал может колебаться от нескольких минут до нескольких дней, месяцев. Естественно, что при этом по-разному проявляют себя такие факторы, как запоминание или, наоборот, забывание в разные временные интервалы, влияние опыта, полученного в первом опросе на второй, влияние общения и бесед респондентов после первого опроса. Результаты этого метода можно и нужно контролировать другими методами. Первый метод контроля – это визуальный осмотр матрицы данных двух измерений с целью определения, изменились результаты измерения во втором опросе или нет. Если явного изменения нет, то данные проверяются статистическими методами. Несмотря на высокую корреляцию, нельзя говорить о воспроизводимости результатов. В небольшой группе можно сравнивать ранги респондентов, и если они в основном не изменились, то есть основания думать о надежности измерений, но только в смысле стабильности, ибо здесь возможен тренд – стойкое увеличение (уменьшение) тестового балла от опроса к опросу. Еще один метод контроля – расчет дисперсий тестовых баллов первого и второго опросов и проверка достоверности их различий. В случае обнаружения статистически значимых различий дисперсий говорить об устойчивости, стабильности, воспроизводимость результатов, а ,следовательно, и о надежности не приходиться, даже если коррелирование дает некоторые обнадёживающие результаты.

Параллельное тестирование. Данный метод определения надежности применим только тогда, когда имеются параллельные формы. Одной и той же группе респондентов дается вначале одна форма теста, затем после некоторого перерыва – другая. Коррелирование тестовых баллов, полученных респондентами в обоих опросах, дает величину коэффициента корреляции, которая и принимается за значение коэффициента надежности, а точнее, - коэффициента эквивалентности измерения. Разница в результате двух проверок принимается за ошибочный компонент измерения, и дисперсия этой разницы есть как раз величина . Разумеется, увеличение временного интервала в тестировании вызывает определенные изменения у респондентов. Поэтому параллельные формы тестов даются им подряд или через совсем небольшой промежуток времени – такой, который не вызывает заметных изменений в их ответах. Получаемый в этих случаях коэффициент надежности обычно называется коэффициентом эквивалентности. Если между предъявлением обоих форм имеется значительный временной интервал, то в этом случае коэффициент надежности называется коэффициентом эквивалентности и стабильности.

В его основе метода раздельного коррелирования лежит допущение о параллельности не только отдельных форм, но и частей внутри одной формы теста. Вопрос сводится к выбору способа разделения теста на две части, т.к. в зависимости от способа деления меняются и значения коэффициента. Наиболее распространенная процедура разделения теста – это сведение в одну часть результатов респондентов в нечетных номерах высказываний и в другую – четных. Суммирование баллов в этих половинах теста дает два суммарных вектора, корреляция между которыми и служит коэффициентом надежности теста. Более точное название этого показателя – коэффициент внутренней состоятельности (надежности) теста. Преимущества данного метода перед другими в том, что он позволяет найти оценку надежности при однократном предъявлении теста. Таким образом определяется надежность двух половин теста. Для того, чтоб определить надежность теста в целом, используют формулу Спирмана – Брауна[1]:

	I	II	I	II	I	II
1	12	12	12	11	12	15
2	15	15	15	13	15	8
3	11	11	11	11	11	5
4	7	7	7	5	7	10
5	4	4	4	8	4	6

	I	II	I	II	I	II
1	12	12	12	11	12	15
2	15	15	15	13	15	8
3	11	11	11	11	11	5
4	7	7	7	5	7	10
5	4	4	4	8	4	6

	I	II	I	II	I	II
1	12	12	12	11	12	15
2	15	15	15	13	15	8
3	11	11	11	11	11	5
4	7	7	7	5	7	10
5	4	4	4	8	4	6