Глава 5 Анализ данных после множественного вменения

08.09.2021

После выполнения множественного вменения следующие шаги заключаются в применении статистических тестов в каждом вмененном наборе данных и объединении результатов для получения итоговых оценок. В SPSS и R эти шаги в основном являются частью одного и того же шага анализа. В SPSS pooling результаты статистических тестов можно получить, перейдя к знакомым параметрам статистических тестов в разделе «Анализ». В R многие процедуры объединения доступны как часть пакета мышей. Однако для некоторых специальных статистических тестов необходимо установить другие пакеты. Как получить объединенные результаты статистических тестов в SPSS и R - тема этой главы.

Для примеров данных в этой главе мы используем три вмененных набора данных, чтобы выходные таблицы оставались удобочитаемыми. Примеры легко обобщаются на большее количество вмененных наборов данных.

5.1 Анализ данных в SPSS

5.1.1 Значок специального объединения

Чтобы получить объединенные результаты анализа, вмененные значения должны быть помечены желтым цветом. Затем SPSS распознает набор данных как «вмененный» набор данных и может генерировать результаты объединенного анализа. Если SPSS не распознает набор данных как набор с множественными вмененными данными, данные будут обрабатываться как один большой набор данных.

Когда маркировка вменения включена, перед процедурами статистического тестирования в меню анализа отображается специальный значок. Этот значок показывает, будет ли получен объединенный результат после использования множественного вменения ((Рисунок 5.1)).

Рисунок 5.1: Значок множественного вменения.

Этот значок отображается в меню анализа в SPSS (рисунок 5.2)).

Рисунок 5.2: Набор данных распознается как импутированный набор данных (отображается специальный значок).

SPSS предоставляет два уровня объединения, которые называются комбинацией наивного и одномерного. Комбинация Naïve показывает только объединенный параметр (если есть). Одномерная комбинация показывает объединенный параметр, его стандартную ошибку, статистику теста, эффективные степени свободы, p-значение, доверительный интервал и объединенную диагностику (доля отсутствующей информации, относительная эффективность, относительное увеличение дисперсии), если они доступны. Хотя специальный значок в SPSS, указывающий на то, что набор данных распознается как набор данных с несколькими вмененными данными, появляется для многих процедур статистического анализа, не всегда ясно, какие процедуры действительно обеспечивают сводную оценку, которая содержит объединенную оценку, соответствующие доверительные интервалы и p-значение. .Поэтому рекомендуется посетить справочный указатель в SPSS, чтобы узнать, какая объединенная информация предоставляется SPSS перед применением MI.

5.2 Объединение статистических тестов

5.2.1 Средства объединения и стандартные отклонения в SPSS

Объединение означает, что вы просто используете

На рисунке 5.3 показано, что в строке «Объединенный» объединены средние значения переменной Tampascale. Стандартные отклонения не объединяются автоматически в SPSS. Среднее значение стандартных отклонений можно рассчитать путем вычисления среднего значения стандартных отклонений.

Рисунок 5.3: Объединение результатов описательной статистики.

5.2.2 Средства объединения и стандартные отклонения в R

Чтобы объединить средние и стандартные отклонения, вы используете функцию with на мышах.

5.2.3 Объединение коэффициентов корреляции

Когда нельзя предположить нормальное распределение оценок параметров, как, например, для коэффициентов корреляции, преобразование Z Фишера должно быть выполнено перед объединением (см. Часть VII, Глава 11). Это автоматически делается в SPSS и R.

5.2.3.1 Объединение коэффициентов корреляции в SPSS

Объединенный коэффициент корреляции Пирсона между, например, шкалой Тампа и переменными возраста может быть извлечен с помощью

Затем перенесите переменные Tampa scale и Age в окно переменных и нажмите OK. Объединенные результаты показаны на (Рисунок 5.4) в строке с названием Pooled. Объединенная корреляция составляет 0,255, а уровень значимости - 0,002. Эти корреляции вычисляются с использованием преобразования Z Фишера перед объединением, а после объединения они подвергаются обратному преобразованию.

Рисунок 5.4: Корреляция Пирсона между переменной Тампаскейла и возрастом.

5.2.3.2 Объединение коэффициентов корреляции в R

Вы можете использовать функцию micombine.cor в пакете miceadds для получения объединенных коэффициентов корреляции.

Результат функции micombine.cor отображается в столбцах: r: Объединенный коэффициент корреляции Пирсона. rse: стандартная ошибка объединенной корреляции. fisher_r: преобразованный объединенный r fisher_rse: стандартная ошибка преобразованного объединенного r fmi: часть отсутствующей информации. t: значение T. p: P-значение. lower95 и upper95: 95% нижний и верхний доверительные интервалы.

5.2.4 Объединенный независимый T-тест

5.2.4.1 Объединение независимых T-тестов в SPSS

Чтобы получить объединенный результат t-теста для оценки разницы в средних значениях шкалы Тампа между пациентами с лучевой терапией на ногу и без нее, перейдите к:

Анализировать ->Сравнить средние ->T-критерий для независимых выборок

Перенесите переменную Tampa Scale в окно Test Variable (s), а переменную Radiation - в окно Grouping Variable. Затем нажмите «Определить группы» и определите группу 1 как «1» и группу 2 как «0». Затем нажмите «Продолжить» и «ОК». Появится следующая таблица выходных данных, Рисунок 5.5.

Рисунок 5.5: T-тест для различия средних значений тампаскалей между пациентами с облучением в ноге и без него, применяемым в нескольких вмененных наборах данных.

Рисунок 5.6: bT-тест на разницу средних значений тампаскалей между пациентами с облучением в ноге и без него, применяемым в нескольких вмененных наборах данных.

Результат в исходном наборе данных (включая пропущенные значения) представлен в строке, обозначенной номером Imputation_ 0. Результаты в каждом наборе условно вычисленных данных показаны в строках, начинающихся с номеров от 1 до 3. В последней строке, обозначенной как « Объединенные »представлены сводные оценки средних различий, стандартных ошибок, p-значений и 95% доверительного интервала. Для этих расчетов используются Правила Рубина. Подробный пример расчетов можно найти в Части VII, Главе 9.

5.2.4.2 Объединение независимых Т-тестов в R с мышами

Сам пакет мышей не имеет опции объединенного t-теста. Вместо этого необходимо провести линейный регрессионный анализ. Линейный регрессионный анализ с непрерывной переменной результата и независимой дихотомической переменной является той же процедурой, что и независимый t-критерий. Используйте для этого процедуру lm на мышах с независимой переменной Radiation и зависимой переменной Tampascale.

Мы видим в выходных данных под est и se те же значения, что и в SPSS (рисунок 5.4), объединенное значение 1,97 и 0,92 для средней разницы и стандартной ошибки соответственно.

Под столбцом df в R вы видите, что dfs для средних различий в переменной Tampascale намного меньше, чем на (рис. 5.4) выше. Это связано с разными формулами, используемыми для расчета df. SPSS использует старую версию, а мы - скорректированную (см. Часть VII, Глава 9, для получения дополнительной информации о различных способах вычисления df между SPSS и R).

5.2.4.3 Объединение независимых T-тестов в R с mi.t.test

вы также можете использовать функцию mi.t.test в пакете MKmisc. Обратите внимание, что функция mi.t.test использует настройку параметра var.equal = TRUE, когда предполагаются равные отклонения, и var.equal = FALSE, когда равные отклонения не предполагаются (настройка по умолчанию var.equal = FALSE).

С помощью функции mi.t.test также можно проводить однократный и парный t-критерий.

5.2.5 Объединение тестов хи-квадрат

5.2.5.1 Объединение тестов хи-квадрат в SPSS

Объединение значений хи-квадрат в результате теста хи-квадрат недоступно в SPSS. Отсутствие отчетности по тесту хи-квадрат показано на (рис. 5.7), где связь между переменной шкалы Тампа как категориальной переменной (с категориями 0 = низкий страх перед движением, 1 = средний страх перед движением и 2 - это высокий страх перед движением) и Радиация в ноге. Тест хи-квадрат представлен в исходном наборе данных и в каждом вмененном наборе данных, но объединенное значение хи-квадрат и объединенное значение p отсутствуют. Это примечательно, потому что, когда вы выбираете «Описательная статистика» ->«Перекрестные таблицы» для проведения теста хи-квадрат, отображается специальный значок множественного вменения. Это показатель того, что вы получите объединенные результаты, но в данном случае это не так.

Рисунок 5.7: Тест хи-квадрат в 5 вмененном наборе данных для проверки взаимосвязи между переменной Tampascale и радиацией, где объединенная оценка отсутствует.

5.2.5.2 Объединение тестов хи-квадрат в R

Процедуры объединения значений хи-квадрат доступны в пакете miceadds. Функции объединения основаны на формулах, которые можно найти у Маршалла (Маршалл и др. (2009)) и Эндерса (Эндерс (2010)), и они называются статистикой D2.

Чтобы объединить значения хи-квадрат в примере SPSS, вы используете:

Функция micombine.chisquare также имеет параметр, который называется «версия». Значение по умолчанию version = 1 относится к правильной формуле, как в Enders (Enders (2010)), тогда как version = 0 использует неправильную формулу, как напечатано в Allison (Allison (2002)).

5.2.6 Объединение дисперсионного анализа (ANOVA)

5.2.6.1 Объединение дисперсионного анализа (ANOVA) в SPSS

Объединение статистики дисперсионного анализа (ANOVA) недоступно в SPSS. На рисунке 5.8 таблица показана в результате дисперсионного анализа после множественного вменения. Из рисунка видно, что объединенные результаты отсутствуют.

Рисунок 5.8: ANOVA в SPSS без объединенного результата.

5.2.6.2 Объединение дисперсионного анализа (ANOVA) в R

Объединенная процедура ANOVA использует ту же функцию, что и процедура для получения объединенного значения хи-квадрат, потому что Chi и F-значение связаны. Самый простой способ получить значение p для дисперсионного анализа - использовать функцию mi.anova в пакете miceadds. В этой функции может быть определена формула на основе регрессии для получения p-значения.

Чтобы сравнить средства функции между тремя группами переменных Tampascale, вы используете:

Объединенные значения F и p представлены в столбцах F value и Pr (>F) соответственно.

5.2.7 Объединение регрессионных моделей

5.2.7.1 Объединение моделей линейной регрессии в SPSS

Для объединения результатов линейного регрессионного анализа используются правила Рубина. Чтобы изучить взаимосвязь между переменными Tampascale (независимыми) и Function (зависимыми), перейдите по ссылке:

Перенесите переменную Function в поле Dependent, а масштабную переменную Tampa в поле Independent (s). Чтобы получить объединенные 95% доверительные интервалы, перейдите в раздел «Статистика» и выберите параметр «Доверительные интервалы». Затем нажмите «Продолжить» и «ОК».

Рисунок 5.9: Связь между тампаскейлом и функцией, оцененная с помощью линейной регрессии в SPSS.

Информация об оценках параметров, то есть коэффициентах регрессии, стандартных ошибках, t-значениях, p-значениях и доверительном интервале, представлена ​​в строке Pooled. Кроме того, предоставляется информация о доле отсутствующей информации, относительной дисперсии увеличения и относительной эффективности.

5.2.7.2 Объединение моделей линейной регрессии в R

Объединенный линейный регрессионный анализ может быть произведен с использованием функций with и pool в пакете мышей.

Объединенная процедура показывает: est: объединенный коэффициент регрессии. se: Стандартная ошибка объединенного коэффициента регрессии. t: значение T. df: степени свободы. Pr (>| t |): P-значение. lo 95 и hi 95: 95% нижний и верхний доверительные интервалы. nmis: количество пропущенных наблюдений. fmi: доля недостающей информации. Лямбда: доля отклонения, связанного с отсутствием данных.

5.2.7.3 Объединение моделей логистической регрессии в SPSS

Чтобы изучить взаимосвязь между переменными Function (независимая переменная) и Radiation in the Leg (зависимая переменная), нам нужна логистическая регрессия. Эту процедуру можно выполнить в SPSS через

Перенесите переменную Radiation в Leg в зависимый блок и переменную Function в окно Covariates. Чтобы получить объединенные 95% доверительные интервалы, перейдите в Параметры и выберите параметр ДИ для exp (B). Затем нажмите «Продолжить» и «ОК».

Рисунок 5.10: Логистическая регрессия в SPSS.

информация представлена ​​в строке под названием Pooled об оценках параметров, то есть о коэффициентах регрессии (B), стандартных ошибках (SE), p-значениях (Sig.), отношении шансов (Exp (B) и 95% доверительных интервалах вокруг ИЛИ (95% ДИ для EXP (B). Кроме того, предоставляется информация о доле недостающей информации, относительной дисперсии увеличения и относительной эффективности. Для объединенного коэффициента и стандартной ошибки используются правила Рубина (RR).

5.2.7.4 Объединение моделей логистической регрессии в R

Вы можете использовать пакет мышей для получения объединенных результатов после логистической регрессии. В сочетании с функцией пула вы должны использовать следующий код R.

Результатами объединенной процедуры являются: est: объединенный коэффициент регрессии. se: Стандартная ошибка объединенного коэффициента регрессии. t: значение T. df: степени свободы. Pr (>| t |): P-значение. lo 95 и hi 95: 95% нижний и верхний доверительные интервалы. nmis: количество пропущенных наблюдений. fmi: доля недостающей информации. Лямбда: доля отклонения, связанного с отсутствием данных.

Под строкой со сводкой R-кода (pool (fit)) представлены объединенные оценки. Чтобы извлечь OR и соответствующие 95% доверительные интервалы, вы должны применить следующий код:

Другой способ получения объединенных оценок модели логистической регрессии - использование функции micombine в пакете mitools.

Однако объединенное p-значение по-прежнему отсутствует. Вы можете получить объединенные p-значения из функции mi.inference в пакете NORM.

Значение p в пакете NORM равно значению p в SPSS. Это означает, что пакет NORM также использует старый метод для вычисления степеней свободы.

5.2.8 Объединение регрессионных моделей Кокса

Одной из наиболее часто используемых статистических моделей данных о выживаемости является регрессионная модель Кокса. Имея данные о выживаемости, у вас есть два показателя результата: переменная состояния и переменная времени до события. В качестве руководства все переменные основного анализа, включая переменную результата, должны быть частью модели вменения. Лучший способ включить переменную результата в регрессионную модель Кокса - это не использовать саму переменную Time, а использовать совокупный риск для времени выживания. Это значение должно быть включено в модель вменения вместе с переменной статуса и вспомогательными переменными.

5.2.8.1 Объединение моделей регрессии Кокса в SPSS

Кумулятивное значение опасности можно легко рассчитать в SPSS, используя меню «Выживание», а затем выберите для

Рисунок 5.11: Варианты выживания в SPSS.

Затем выберите «Сохранить», и откроется следующее окно.

Рисунок 5.12: Меню «Сохранить» в разделе «Регрессия Кокса».

Здесь вы можете выбрать функцию опасности. Затем нажмите «Продолжить» и «ОК». Мы добавим в набор данных новую переменную, которая называется HZA_1. Эта кумулятивная переменная риска может быть включена в модель вменения для вменения недостающих данных в переменную боли.

Чтобы получить объединенный результат модели регрессии Кокса, которую вы используете:

Перенесите переменную времени выживания в поле «Время», переменную события в поле «Состояние» и независимую переменную «Боль» в окно «Ковариаты». Чтобы получить объединенные 95% доверительные интервалы, перейдите в Параметры и выберите параметр ДИ для exp (B). Затем нажмите «Продолжить» и «ОК».

Рисунок 5.13: Объединенная модель регрессии Кокса, оцененная в SPSS.

Эта процедура обеспечивает объединенное значение для коэффициента регрессии, стандартной ошибки, значения p (0,000589), отношения рисков и соответствующих 95% доверительных интервалов, а также предоставляет информацию о доле отсутствующей информации, относительном увеличении дисперсии и относительной эффективности.

5.2.8.2 Объединение моделей регрессии Кокса в R

Для этой процедуры мы можем использовать функцию пула, доступную в пакете mice.

Мы начинаем с использования функции мышей для вменения недостающих данных в переменную Pain, сначала вычисляя совокупные значения опасности. После этого мы настраиваем predictorMatrix так, чтобы переменная Time не использовалась для прогнозирования отсутствующих значений (вместо этого мы используем функцию кумулятивного риска) в переменной Pain, и впоследствии вмененные наборы данных будут объединены для получения сводной оценки. Обратите внимание, что вам также необходимо активировать выживание пакета, прежде чем вы сможете запускать функцию coxph в R.

Результатами объединенной процедуры являются: est: объединенный коэффициент регрессии. se: Стандартная ошибка объединенного коэффициента регрессии. t: значение T. df: степени свободы. Pr (>| t |): P-значение. lo 95 и hi 95: 95% нижний и верхний доверительные интервалы. nmis: количество пропущенных наблюдений. fmi: доля недостающей информации. Лямбда: доля отклонения, связанного с отсутствием данных.

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!