Тема 3. Основы современных технологий диагностики качества знаний
На практике разработано несколько способов определения надёжности теста. Но чаще всего используются только три:
Повторное тестирование;
Параллельное тестирование;
Метод раздельного коррелирования.
Повторное тестирование – это наиболее простой способ определения надежности теста. Представляет из себя двукратное по меньшей мере использование одного и того же теста в той же группе респондентов. Результаты обоих опросов коррелируются. При этом возможны три случая.
Полное совпадение результатов опроса говорит о надёжности теста в смысле воспроизводимости результатов и стабильности измерения: баллы и места респондентов совпали. Коррелирование первого опроса со вторым дает величину корреляции, равную единице, что позволяет говорить о полной надёжности теста. В практике такой случай, можно сказать, не встречается.
Результаты первого и второго измерений почти не совпадают, но видно в целом картина существенно не меняется: по-прежнему те, кто имел высокие баллы в первом измерении, получили примерно такие же баллы во втором, что опять-таки указывает на воспроизводимость, устойчивость, стабильность результатов, а следовательно, и на определённую надежность теста. В таких случаях коэффициент корреляции принимает достаточно высокие значения, что указывает на вполне приемлемую надёжность теста.
Плохая воспроизводимость результатов предыдущего тестирования, что говорит о нестабильности, неустойчивости измерений. Коррелирование баллов дает низкое значение коэффициентов, что свидетельствует о практическом отсутствии надёжности.
|
I |
II |
I |
II |
I |
II |
1 |
12 |
12 |
12 |
11 |
12 |
15 |
2 |
15 |
15 |
15 |
13 |
15 |
8 |
3 |
11 |
11 |
11 |
11 |
11 |
5 |
4 |
7 |
7 |
7 |
5 |
7 |
10 |
5 |
4 |
4 |
4 |
8 |
4 |
6 |
Метод повторного тестирования имеет достоинства и недостатки. Достоинство заключается в сравнительной простоте его использования, ясности основных посылок, лежащих в определении надежности, простоте расчетов. К недостаткам можно отнести неопределенность в выборе временного интервала между первым и вторым опросами. Этот интервал может колебаться от нескольких минут до нескольких дней, месяцев. Естественно, что при этом по-разному проявляют себя такие факторы, как запоминание или, наоборот, забывание в разные временные интервалы, влияние опыта, полученного в первом опросе на второй, влияние общения и бесед респондентов после первого опроса. Результаты этого метода можно и нужно контролировать другими методами. Первый метод контроля – это визуальный осмотр матрицы данных двух измерений с целью определения, изменились результаты измерения во втором опросе или нет. Если явного изменения нет, то данные проверяются статистическими методами. Несмотря на высокую корреляцию, нельзя говорить о воспроизводимости результатов. В небольшой группе можно сравнивать ранги респондентов, и если они в основном не изменились, то есть основания думать о надежности измерений, но только в смысле стабильности, ибо здесь возможен тренд – стойкое увеличение (уменьшение) тестового балла от опроса к опросу. Еще один метод контроля – расчет дисперсий тестовых баллов первого и второго опросов и проверка достоверности их различий. В случае обнаружения статистически значимых различий дисперсий говорить об устойчивости, стабильности, воспроизводимость результатов, а ,следовательно, и о надежности не приходиться, даже если коррелирование дает некоторые обнадёживающие результаты.
Параллельное тестирование. Данный метод
определения надежности применим только тогда, когда имеются
параллельные формы. Одной и той же группе респондентов дается вначале
одна форма теста, затем после некоторого перерыва – другая.
Коррелирование тестовых баллов, полученных респондентами в обоих
опросах, дает величину коэффициента корреляции, которая и принимается
за значение коэффициента надежности, а точнее, - коэффициента
эквивалентности измерения. Разница в результате двух проверок
принимается за ошибочный компонент измерения, и дисперсия этой
разницы есть как раз величина
.
Разумеется, увеличение временного интервала в тестировании вызывает
определенные изменения у респондентов. Поэтому параллельные формы
тестов даются им подряд или через совсем небольшой промежуток времени
– такой, который не вызывает заметных изменений в их ответах.
Получаемый в этих случаях коэффициент надежности обычно называется
коэффициентом эквивалентности. Если между предъявлением обоих форм
имеется значительный временной интервал, то в этом случае коэффициент
надежности называется коэффициентом эквивалентности и стабильности.
В его основе метода раздельного коррелирования лежит допущение о параллельности не только отдельных форм, но и частей внутри одной формы теста. Вопрос сводится к выбору способа разделения теста на две части, т.к. в зависимости от способа деления меняются и значения коэффициента. Наиболее распространенная процедура разделения теста – это сведение в одну часть результатов респондентов в нечетных номерах высказываний и в другую – четных. Суммирование баллов в этих половинах теста дает два суммарных вектора, корреляция между которыми и служит коэффициентом надежности теста. Более точное название этого показателя – коэффициент внутренней состоятельности (надежности) теста. Преимущества данного метода перед другими в том, что он позволяет найти оценку надежности при однократном предъявлении теста. Таким образом определяется надежность двух половин теста. Для того, чтоб определить надежность теста в целом, используют формулу Спирмана – Брауна[1]:
.