Тема 3. Основы современных технологий диагностики качества знаний


3.1. Тестирование как метод контроля качества знаний
3.2. Компьютерное тестирование: возможности и особенности
3.3. Использование компьютерных тестирующих программ для проведения промежуточного и итогового контроля
3.4. Модели оценки результатов тестирования
3.4.1 Модели и методы проведения контроля
3.4.2 Надежность и валидность тестов
3.4.3 Практические методы оценки надежности тестов
3.4.4 Матричная алгебра в практической работе с тестами
3.4.5 Точечные оценки

3.4. Модели оценки результатов тестирования

ПРАКТИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ НАДЕЖНОСТИ ТЕСТОВ

    На практике разработано несколько способов определения надёжности теста. Но чаще всего используются только три:

  1. Повторное тестирование;

  2. Параллельное тестирование;

  3. Метод раздельного коррелирования.

Повторное тестирование – это наиболее простой способ определения надежности теста. Представляет из себя двукратное по меньшей мере использование одного и того же теста в той же группе респондентов. Результаты обоих опросов коррелируются. При этом возможны три случая.

 


I

II

I

II

I

II

1

12

12

12

11

12

15

2

15

15

15

13

15

8

3

11

11

11

11

11

5

4

7

7

7

5

7

10

5

4

4

4

8

4

6

 

Метод повторного тестирования имеет достоинства и недостатки. Достоинство заключается в сравнительной простоте его использования, ясности основных посылок, лежащих в определении надежности, простоте расчетов. К недостаткам можно отнести неопределенность в выборе временного интервала между первым и вторым опросами. Этот интервал может колебаться от нескольких минут до нескольких дней, месяцев. Естественно, что при этом по-разному проявляют себя такие факторы, как запоминание или, наоборот, забывание в разные временные интервалы, влияние опыта, полученного в первом опросе на второй, влияние общения и бесед респондентов после первого опроса. Результаты этого метода можно и нужно контролировать другими методами. Первый метод контроля – это визуальный осмотр матрицы данных двух измерений с целью определения, изменились результаты измерения во втором опросе или нет. Если явного изменения нет, то данные проверяются статистическими методами. Несмотря на высокую корреляцию, нельзя говорить о воспроизводимости результатов. В небольшой группе можно сравнивать ранги респондентов, и если они в основном не изменились, то есть основания думать о надежности измерений, но только в смысле стабильности, ибо здесь возможен тренд – стойкое увеличение (уменьшение) тестового балла от опроса к опросу. Еще один метод контроля – расчет дисперсий тестовых баллов первого и второго опросов и проверка достоверности их различий. В случае обнаружения статистически значимых различий дисперсий говорить об устойчивости, стабильности, воспроизводимость результатов, а ,следовательно, и о надежности не приходиться, даже если коррелирование дает некоторые обнадёживающие результаты.

Параллельное тестирование. Данный метод определения надежности применим только тогда, когда имеются параллельные формы. Одной и той же группе респондентов дается вначале одна форма теста, затем после некоторого перерыва – другая. Коррелирование тестовых баллов, полученных респондентами в обоих опросах, дает величину коэффициента корреляции, которая и принимается за значение коэффициента надежности, а точнее, - коэффициента эквивалентности измерения. Разница в результате двух проверок принимается за ошибочный компонент измерения, и дисперсия этой разницы есть как раз величина . Разумеется, увеличение временного интервала в тестировании вызывает определенные изменения у респондентов. Поэтому параллельные формы тестов даются им подряд или через совсем небольшой промежуток времени – такой, который не вызывает заметных изменений в их ответах. Получаемый в этих случаях коэффициент надежности обычно называется коэффициентом эквивалентности. Если между предъявлением обоих форм имеется значительный временной интервал, то в этом случае коэффициент надежности называется коэффициентом эквивалентности и стабильности.

В его основе метода раздельного коррелирования лежит допущение о параллельности не только отдельных форм, но и частей внутри одной формы теста. Вопрос сводится к выбору способа разделения теста на две части, т.к. в зависимости от способа деления меняются и значения коэффициента. Наиболее распространенная процедура разделения теста – это сведение в одну часть результатов респондентов в нечетных номерах высказываний и в другую – четных. Суммирование баллов в этих половинах теста дает два суммарных вектора, корреляция между которыми и служит коэффициентом надежности теста. Более точное название этого показателя – коэффициент внутренней состоятельности (надежности) теста. Преимущества данного метода перед другими в том, что он позволяет найти оценку надежности при однократном предъявлении теста. Таким образом определяется надежность двух половин теста. Для того, чтоб определить надежность теста в целом, используют формулу Спирмана – Брауна[1]:

.


К началу текста