Мои заметки по науке о данных

08.09.2021

Эти заметки основаны на заметках курса PSU STATS 504.

Двусторонняя таблица частот - это таблица частот для двух категориальных переменных. Обычно вы составляете двустороннюю таблицу, чтобы проверить, отличаются ли значения частоты в одной категориальной переменной от другой категориальной переменной, используя критерий независимости хи-квадрат. Если существует значительная разница (т. Е. Переменные связаны), опишите взаимосвязь с помощью анализа остатков, расчетов показателей связи (разница в пропорциях, относительного риска или отношения шансов) и тестов разделения.

Вот три тематических исследования, которые иллюстрируют эти концепции. Первый - это простой стол 2х2. Второй - это таблица 3x2, которая расширяет некоторые концепции. Третий - таблица 2x4, в которой один множитель является порядковым .

Исследование 1: «Витамин С» 2х2 табл. Изучение двойным слепым методом исследовали , может ли предотвращает витамин C простуду на образце п = 279 человек. В этом исследовании есть две категориальные переменные, каждая с двумя уровнями, двухсторонняя таблица 2x2.

Исследование 2: «Курение» 3х2 табл. Анализ классифицирует n = 5375 старшеклассников по их курению и курению их родителей.

Исследование 3: Порядковая таблица «ИБС». Исследование классифицировано n = 1329 пациентов по уровню холестерина и был ли у них диагностирована ишемическая болезнь сердца (ИБС).

2.3.1 Тест независимости хи-квадрат

Тест независимости хи-квадратпроверяет, подсчитываются ли наблюдаемые совместные частоты \ (O_ \) отличаются от ожидаемых значений частоты \ (E_ \) в рамках модели независимости (модель независимых объясняющих переменных, \ (\ pi_ = \ pi_ \ пи _ \). \ (H_0 \) равно \ (O_ = E_ \).

Есть две возможные статистические данные для этого теста: Пирсона \ (X ^ 2 \) (с поправкой на непрерывность \ (X ^ 2 \)) и отклонение \ (G ^ 2 \). Поскольку \ (n \ rightarrow \ infty \) их выборочные распределения приближаются к \ (\ chi_ ^ 2 \) со степенями свободы (df), равными насыщенной модели df \ (I \ times J - 1 \) минус модель независимости df \ ((I - 1) + (J - 1) \), которую вы может алгебраически решить относительно \ (df = (I - 1) (J - 1) \).

Статистика согласия Пирсона

где \ (O_ \) - наблюдаемое количество, а \ (E_ \) - произведение предельных вероятностей строки и столбца. Для исследования витамина С \ (X ^ 2 \) равно

и статистика отклонения

\ (X ^ 2 \) и \ (G ^ 2 \) увеличиваются при несоответствии между насыщенными пропорциями модели \ (p_ \) и пропорции модели независимости \ (\ pi_ \).

Степени свободы

Соответствующие p-значения:

Функция chisq.test () по умолчанию применяет исправление непрерывности Йетса для исправления ситуаций с небольшим количеством ячеек. Коррекция непрерывности Йетса вычитает 0,5 из \ (O_ - E_ \) различия. Установите правильный = FALSE, чтобы подавить Yates.

Поправка Йейтса дает более консервативные значения p.

Эти p-значения являются свидетельством отказа от модели независимости.

Вот тест хи-квадрат, примененный к данным CHD. Напомним, что этот набор данных имеет размер 4x2, поэтому степени свободы равны \ ((4-1) (2-1) = 3 \). Коррекция непрерывности Йетса не применяется к данным, отличным от 2x2, поэтому правильный = c (TRUE, FALSE) не действует в chisq.test ().

Значение p очень низкое, поэтому отвергните нулевую гипотезу независимости. Это показывает, что существует взаимосвязь между холестерином и ИБС. Теперь вы должны описать эту взаимосвязь, оценив (i) остатки, (ii) меры ассоциации и (iii) разделение хи-квадрат.

2.3.2 Анализ остатков

Если критерий независимости хи-квадрат отклоняет \ (H_0 \) идентичных частотных распределений, следующим шагом является определение того, какие ячейки могут быть причиной отсутствия соответствия. Остатки Пирсона в двусторонней таблице равны

где \ (X ^ 2 = \ sum >\). \ (R_ \) значения имеют нормальное распределение со средним 0, но с неравной дисперсией. Стандартизирована Pearson остаточная для двухсторонней таблицы

и \ (r_ \) Значения делают имеют \ (\ сим - N (0, 1) \) распределения. \(р_ ^ 2>4 \) - признак неподходящей формы. Объект chissq.test () включает остатки, соответствующие ручному вычислению.

Он также включает stdres, которые соответствуют стандартизированным ручным вычислениям. ( ну, нет, но я не знаю, в чем моя ошибка. )

Вот квадраты остатков Пирсона для данных CHD. Возведенные в квадрат остатки Пирсона для CHD 0–199, 200–219 и 260+ больше 4 и, похоже, являются причиной отсутствия независимости.

2.3.3 Разница в пропорциях

Мера разницы в пропорциях - это разность вероятностей характеристики \ (Z \), обусловленная двумя группами \ (Y = 1 \) и \ (Y = 2 \): \ (\ delta = \ pi_ - \ pi_ \). В социальных науках и эпидемиологии \ (\ pi_ \) и \ (\ pi_ \) иногда называют значениями «риска». Точечная оценка для \ (\ delta \) равна \ (r = p_ - p_ \).

Согласно методу нормальной аппроксимации, выборочное распределение разницы в долях населения имеет нормальное распределение с центром в \ (d \) с дисперсией \ (Var (\ delta) \). Точечная оценка для \ (Var (\ delta) \) равна \ (Var (d) \).

В примере с кислотой витамина C \ (\ delta \) - это разница в условных частотах строк.

Разница составляет

Вот как prop.test () без поправки на непрерывность вычисляет доверительный интервал.

Метод нормальной аппроксимации применяется, когда выполняются условия центральной предельной теоремы:

  • выборка составляется независимо (случайная выборка без замены из \ (n
  • есть не менее \ (n_i p_i>= 5 \) успехов и \ (n_i (1 - p_i)>= 5 \) неудач для каждой группы,
  • размеры выборки равны \ (>= 30 \), и
  • вероятность успеха для каждой группы не является экстремальной, \ ((0.2, 0.8) \).

Тест \ (H_0: d = \ delta_0 \) для некоторой гипотетической совокупности \ (\ delta \) (обычно 0) со статистикой теста

аппроксимирует \ (se _ \), где \ (p \) - объединенная пропорция

Нулевая гипотеза \ (H_0: \ delta_0 = 0 \) эквивалентна утверждению, что две переменные независимы, \ (\ pi_ = \ pi_ \), поэтому вы также можете использовать \ (\ chi ^ 2 \) или \ (G ^ 2 \) тест на независимость в 2 × 2. Это то, что делает prop.test (). Квадрат z-статистики алгебраически равен \ (\ chi ^ 2 \). Двусторонний тест, сравнивающий \ (Z \) с \ (N (0, 1) \), идентичен сравнению \ (\ chi ^ 2 \) с распределением хи-квадрат с df = 1. Сравните \ ( Z ^ 2 \) на вывод prop.test ().

Разницу в пропорциях легко интерпретировать, но когда \ (Z = 1 \) - редкое событие, индивидуальные вероятности \ (\ pi_ \) и \ (\ pi_ \) равны и маленький, и \ (\ delta \) почти равен нулю, даже если эффект сильный.

В исследовании CHD две из условных вероятностей CHD в четырех группах холестерина схожи: 0–199 (0,038) и 200–219 (0,031).

Является ли разница в этих пропорциях статистически значимой? Вы можете проверить это с помощью теста на разницу пропорций или теста chisq.

Вы можете попробовать другие попарные тесты, чтобы установить, какие уровни отличаются от других.

2.3.4 Относительный риск

Мера относительного риска - это отношение вероятностей характеристики \ (Z \), обусловленных двумя группами \ (Y = 1 \) и \ (Y = 2 \): \ (\ rho = \ pi_ / \ пи_ \). В социальных науках и эпидемиологии \ (\ rho \) иногда называют «относительным риском». Точечная оценка для \ (\ rho \) равна \ (r = p_ / p_ \).

Поскольку \ (\ rho \) неотрицательно, нормальное приближение для \ (\ log \ rho \) имеет менее искаженное распределение, чем \ (\ rho \). Приблизительная дисперсия \ (\ log \ rho \) равна

и оценивается

В примере с витамином С с кислотой \ (r \) - это отношение условных частот строк.

Разница составляет

Таким образом, на уровне 0,05 вы можете отказаться от модели независимости. Люди, принимающие витамин С, в два раза реже заболевают простудой.

В исследовании CHD вы можете суммировать взаимосвязь между CHD и уровнем холестерина с помощью набора из трех относительных рисков, используя 0-199 в качестве исходного уровня:

  • 200–219 против 0–199,
  • 220–259 против 0–199, и
  • 260+ против 0–199.

2.3.5 Соотношение шансов

Отношение шансов - наиболее часто используемый показатель ассоциации. Это также естественный параметр для многих лог-линейных и логистических моделей. Шансы - это соотношение вероятностей «успеха» и «неудачи». Когда обусловлено переменной, отношение шансов равно

и оценивается по частотам отсчетов

Логарифмическое отношение шансов имеет лучшее нормальное приближение, чем отношение шансов, поэтому определите доверительный интервал на логарифмической шкале.

В примере с витамином С вероятность простуды после приема таблетки плацебо составляет \ (0,22 / 0,78 = 0,28 \), а вероятность простуды после приема витамина С составляет \ (0,12 / 0,88 = 0,14 \).

Вероятность простуды при приеме витамина С в \ (0,14 / 0,28 = 0,49 \) раз больше, чем вероятность простуды при приеме плацебо.

Помните о следующих свойствах отношения шансов.

Вы можете преобразовать набор шансов в вероятности, решив \ (\ pi / (1 - \ pi) \) для \ (\ pi = odds / (1 + odds) \).

Если две переменные независимы, то условные вероятности \ (\ pi_ \) и \ (\ pi_ \) будут равны, и, следовательно, отношение шансов будет равно 1.

Если \ (\ pi_ >\ pi_ \), то отношение шансов будет \ (1

Если \ (\ pi_ \), то отношение шансов будет \ (0

примерное отношение шансов будет равно \ (0 \) или \ (\ infty \), если есть \ (n_ = 0 \). Если у вас есть пустые ячейки, добавьте 1/2 к каждому количеству ячеек.

2.3.6 Разбиение хи-квадрат

Помимо рассмотрения остатков или показателей ассоциации, еще один способ описать эффекты - это сформировать последовательность меньших таблиц путем объединения или сворачивания строк и / или столбцов осмысленным образом.

Что касается исследования курения, вы можете спросить, будет ли ученик курить с большей вероятностью, если курит один из родителей. Сверните первые две строки (1 родитель курит, оба родителя курят) и запустите тест хи-квадрат.

Расчетная вероятность того, что студент курит, если курит хотя бы один из родителей, составляет 1,58 (X ^ 2 = 27,3, p = 0.

Или вы можете спросить, есть ли среди учеников хотя бы один курящий родитель разница между теми, у кого один курящий родитель, и теми, у кого есть два курящих родителя. Ответьте на это, выполнив тест хи-квадрат для первых двух строк таблицы данных, отбросив строку, в которой ни один из родителей не курит.

Расчетная вероятность того, что студент курит, если оба родителя курят по сравнению с одним из родителей, составляет 1,27 (X ^ 2 = 9, p = 0.

2.3.7 Корреляция

При порядковой классификации между уровнями характеристик может существовать линейный тренд. Измерьте линейную связь с коэффициентом корреляции Пирсона или его непараметрическими альтернативами, коэффициентом корреляции Спирмена и тау Кендалла.

В исследовании CHD четыре уровня холестерина (0–199, 200–219, 220–259 и 260+) можно рассматривать как порядковые данные. Также можно рассматривать наличие болезни сердца как порядковую. Корреляция Пирсона,

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!