Тестирование и оценка модификации эффекта-меры с поправкой на модель с использованием маржинальных структурных моделей и данных комплексных обследований

08.09.2021

Недавно было показано, как оценивать скорректированные с учетом модели риски, различия рисков и соотношения рисков на основе комплексных данных обследований, основанных на усреднении рисков и SUDAAN (Research Triangle Institute, Research Triangle Park, North Carolina). Авторы представляют альтернативный подход, основанный на маргинальных структурных моделях (МСМ) и SAS (SAS Institute, Inc., Кэри, Северная Каролина). Авторы оценивают параметры МСМ с помощью обратных весов, которые являются произведением 2 членов. Первый член - это вес опроса, который корректирует выборку для представления нестандартной совокупности. Второй член - это вес, обратный вероятности воздействия, который стандартизирует совокупность с целью внесения поправки на искажение; он должен быть оценен с использованием весов обследования.Авторы показывают, как использовать оценки параметров МСМ и контрасты для проверки и оценки модификации меры воздействия; Предоставляется код SAS. Они также объясняют, как программировать предыдущий подход к усреднению рисков в SAS. Эти 2 метода применяются и сравниваются с использованием данных обследования системы наблюдения за поведенческими факторами риска Флориды 2007 года для оценки изменения эффекта в зависимости от возраста разницы в риске стоимостных барьеров для оказания медицинской помощи между людьми с инвалидностью и людьми без инвалидности.Эти 2 метода применяются и сравниваются с использованием данных обследования системы наблюдения за поведенческими факторами риска Флориды 2007 года для оценки изменения эффекта в зависимости от возраста разницы в риске стоимостных барьеров для оказания медицинской помощи между людьми с инвалидностью и людьми без инвалидности.Эти 2 метода применяются и сравниваются с использованием данных обследования системы наблюдения за поведенческими факторами риска во Флориде 2007 года для оценки изменения эффекта в зависимости от возраста разницы в риске стоимостных барьеров для оказания медицинской помощи между людьми с инвалидностью и людьми без инвалидности.

Недавно наши коллеги из Управления по вопросам инвалидности и здоровья Флориды провели исследование людей с ограниченными возможностями (ЛОВЗ), используя популяционную выборку (1). Они стремились документально подтвердить, что разница в риске стоимостных барьеров для оказания медицинской помощи между инвалидами и людьми без инвалидности была больше для молодых людей, чем для пожилых людей. Они также хотели скорректировать риски для искажающих факторов, таких как раса / этническая принадлежность, доход, образование и пол. Их цель состояла в том, чтобы продемонстрировать политикам, что меры, направленные на молодых людей с ограниченными возможностями, очень необходимы и рентабельны. В качестве аргумента в пользу экономической эффективности полезно использовать разницу в рисках. Например, даже если относительный риск был постоянным для возрастных групп (как это было в предварительном анализе),большая разница в рисках у молодых людей может означать (если причинная интерпретация результатов верна), что вмешательство с целью помочь группе молодых людей с инвалидностью может принести пользу большему количеству людей в целом, чем вмешательство для группы пожилых людей с инвалидностью такого же размера.

Оценить и проверить неоднородность грубых различий рисков с использованием сложных данных обследования относительно просто. Например, можно использовать SAS PROC SURVEYREG (SAS Institute, Inc., Кэри, Северная Каролина), как мы объясним ниже. Корректировка различий в рисках для искажения требует менее очевидного подхода. Стандартизация на основе моделей (например, см. Главу 21 в Modern Epidemiology(2)) представляет собой естественный подход к этой проблеме. Как описано в учебнике (2), аналитик может выбирать между 1) использованием модели подверженности с последующим взвешиванием обратной вероятности и 2) использованием модели результатов с последующим усреднением риска. Однако в учебнике не объясняется, как реализовать подходы со сложными данными обследований. Сато и Мацуяма (3) связали первый подход с маргинальными структурными моделями (4) в контексте простой случайной выборки. Недавно Bieler et al. (5) объяснил, как реализовать второй подход для сложных данных обследования с использованием SUDAAN (Институт Исследовательского треугольника, Парк Исследовательского треугольника, Северная Каролина); более подробную информацию можно найти в Анализе медицинских обследований.(6). Наша основная цель в данной статье - объяснить 1) как расширить первый подход для сложных данных обследования и 2) как запрограммировать оба подхода в SAS. Мы рассматриваем не только стандартизацию разницы рисков, но и стандартизацию относительного риска и отношения шансов.

И для моделирования воздействия, и для моделирования результатов мы используем логистическую регрессию, потому что логит-ссылка сохраняет масштаб двоичного результата и двоичного воздействия. Для модели результата результат регрессирует на воздействии, модификаторе и влияющих факторах, в то время как для модели воздействия воздействие регрессируют на модификаторе и влияющих факторах. Подходы к усложняющей корректировке, основанные на других, нелогистических регрессионных моделях, которые не включают сложные данные обследований и не обязательно включают стандартизацию, см. В Spiegelman and Hertzmark (7), Zou (8) и Greenland (9), а также в справочных материалах. в нем. При использовании выборки на основе совокупности аналитик обычно должен учитывать сложную многоступенчатую выборку при оценке параметров и доверительных интервалов, а также при проверке гипотез (см. Примеры в Brogan (10)).Мы объясним, как это сделать с помощью SAS.

Ниже мы объясняем распространение на данные комплексного обследования двух подходов к стандартизации рисков на основе моделей, на которых основана стандартизация разницы рисков, относительного риска и отношения шансов. Затем мы представляем имитационное исследование, чтобы продемонстрировать обоснованность подходов. Затем мы представляем анализ нашего мотивирующего примера с использованием данных исследования системы наблюдения за поведенческими факторами риска (BRFSS) (11, 12) Флориды за 2007 год. В заключение мы проведем краткое обсуждение.

ПОДХОД, ОСНОВАННЫЙ НА МОДЕЛИРОВАНИИ ВОЗДЕЙСТВИЯ

Сначала мы определяем нашу цель оценки, стандартизованный риск, применительно к интересующей нас популяции, например, в штате Флорида в 2007 году. Пусть Y i , i = 1,…, N будет двоичным результатом, а именно наличием или отсутствие стоимостного барьера на пути к здравоохранению. Аналогично, пусть X i представляет собой интересующее двоичное воздействие, здесь статус инвалидности; M i - модификатор эффекта, возрастная категория; и Z i быть p-мерный вектор искажающих факторов, таких как раса / этническая принадлежность, доход, образование и пол. Другими словами, наша цель - это среднее значение условного риска исхода с учетом воздействия, модификатора и искажающего фактора, где среднее значение берется по отношению к распределению совокупности искажающего фактора в зависимости от модификатора. В статистических обозначениях это можно записать как E Z | M = m E ( Y | X = x , M = m , Z ), которая является функцией x и m . Внутреннее ожидание представляет собой условный риск, функцию неслучайных значений xи m, а также случайная величина Z , тогда как внешнее математическое ожидание усредняет эту функцию относительно условного распределения Z при M = m . Обратите внимание на тонкое различие между нашей целью и приблизительной оценкой риска E ( Y | X = x , M = m ) = E Z | M = m , X = x E ( Y | X = x , M = m, Z ), в котором внешнее математическое ожидание является средним по отношению к условному распределению Z, заданному как M = m, так и X = x .

Подход, основанный на моделировании экспозиции, использует тождество E Z | M = m E ( Y | X = x , M = m , Z ) = EW ( X , M , Z ) ( Y | X = x , M = m ), где последнее ожидание относится к средневзвешенному населению Y внутри страты, определяемой X = x и M = m, используя веса W ( X , M , Z ) = P ( X | M ) / P ( X | M , Z ). Поскольку при построении весов нельзя делить на ноль, подход моделирования воздействия может использоваться только тогда, когда P ( X | M , Z ) отделено от нуля. При допущениях причинно-следственного моделирования средневзвешенная численность населения эквивалентна насыщенной маргинальной структурной модели E ( Y x | M = m ), гдеY x обозначает потенциальный результат X = x . В частности, следует предположить, что набор Y x для всех лиц и значений x существует и четко определен (например, что потенциальный результат для одного человека не зависит от воздействия, реализованного другими людьми), и, кроме того, что Z является достаточным набором факторов, влияющих на оценку параметров модели предельной структуры (т. е. потенциальные результаты не зависят от X при заданных Z и M. (См. Робинс и др. (4), Вандервил (13) и Чиба и др. (14) для получения более подробной информации.) Для исследователей, которые хотят только стандартизировать оценки, а не оценивать причинно-следственные связи, теоретически возможна связь с маргинальными структурными моделями. интересно, но практически неважно.

Основная трудность в оценке EW ( X , M , Z ) ( Y | X = x , M = m ) связана с необходимостью моделировать W ( X , M , Z ) = P ( X | M ) / P ( X | M , Z), который, в свою очередь, включает 2 модели вероятности воздействия. Модель числителя зависит только от модификатора, тогда как модель знаменателя зависит от модификатора и смешивающего фактора. Вес W ( X , M , Z ), очевидно, напрямую связан с весом обратной вероятности 1 / P ( X | M , Z ); последнего веса достаточно для оценки предельного ожидания структурной модели E ( Y x | M = m ), потому что только данные от лиц, однородных по X и M(и, следовательно, для тех, для кого P ( X | M ) постоянно) будут усреднены.

Для многомерного Z , как в нашем примере с 4 категориями для расы / этнической принадлежности ( Z 1 ), 5 категориями для дохода ( Z 2 ), 4 категориями для образования ( Z 3 ) и 2 категориями для пола ( Z 4 ), обычно необходимо использовать ненасыщенную модель для P ( X | M , Z ). Мы используем модель логистической регрессии в виде logit ( P ( X = 1 | M , Z )) = M α 0 + Z 1 α 1 + Z2 α 2 + Z 3 α 3 + Z 4 α 4 , в котором ковариаты M и Z 1 ,…, Z 4 являются горизонтальными векторами, а параметры α 0 ,…, α 4 являются вертикальными векторами. Важно отметить, что это модель для совокупности, а не для выборки. Из-за сложной структуры обследования выборка подвержена смещению выборки. Следовательно, чтобы оценить α 0 ,…, α 4 , мы должны использовать веса обзора. Мы делаем это с помощью SAS PROC SURVEYLOGISTIC. Мы также можем вычислить P ( X| M ) с использованием аналогичной регрессии, а затем, наконец, мы вычисляем вес W ( X , M , Z). Однако заметьте, что 1 / P ( X | M , Z ) будет достаточно.

Вес W ( X , M , Z ) эффективно стандартизировать население для корректировки путая с Z и M . Если бы у нас была простая случайная выборка из совокупности, этих весов было бы достаточно для проведения стандартизации на основе моделей. Однако перед нами сложный многоступенчатый образец. Следовательно, после первого взвешивания выборки для представления совокупности мы должны затем повторно взвесить взвешенную выборку, чтобы стандартизировать наше представление совокупности. Пусть S i обозначает вес обзора для индивидуума i , и пусть W i обозначает W ( X i ,M i , Z i ) вычислено для индивидуума i . Тогда объединенный вес, который корректируется с учетом смещения выбора и искажения, будет просто S i × W i .

Теперь мы можем оценить нашу цель E Z | M = m E ( Y | X = x , M = m , Z ) с помощью процедуры, которая оценивает пропорции с использованием данных опроса. Например, можно использовать SAS PROC SURVEYFREQ или SAS PROC SURVEYREG с весом, равным S i × W i.и использование переменных первичной стратификации и первичной кластеризации в операторе страты и кластера. Нас также интересуют различия в рисках, относительные риски, отношения шансов и тесты на однородность. Для оценки и тестирования однородности различий в рисках мы можем использовать PROC SURVEYREG с данными BRFSS Флориды за 2007 год, как показано в Приложении 1.

Поскольку PROC SURVEYREG использует линеаризацию Тейлора (т. Е. Дельта-метод) для оценки изменчивости выборки, его можно использовать с двоичными исходами для получения правильных асимптотических доверительных интервалов и проверки гипотез о различиях рисков, когда утверждение модели правильно указано (или насыщено, как в нашем использовании) и когда известны веса. При оценке весов, как в нашем примере, доверительные интервалы и тесты гипотез будут асимптотически консервативными (например, 95% доверительные интервалы будут иметь охват чуть больше 95%), как описано Robins et al. (4). В нашем примере мы оценили веса («комбинированный вес»), как показано в Приложении 2.

Тест на неоднородность является стандартным выводом SAS PROC SURVEYREG; это «тест эффектов модели» для срока инвалидности age_3level *, который имеет 2 df. Поскольку знаменатель степеней свободы для нашего примера очень велик, из-за большого размера выборки BRFSS Флориды 2007 года, этот F- тест фактически является критерием хи-квадрат 2-df.

Для отношения шансов аналогичный анализ можно провести с помощью SAS PROC SURVEYLOGISTIC. Что касается относительного риска, к сожалению, в SAS еще нет процедуры обзора лог-линейных моделей. Вместо этого можно использовать SAS PROC GENMOD, игнорируя стратификацию обследования при оценке изменчивости выборки; это консервативный подход, поскольку изменчивость будет переоценена.

В качестве альтернативы можно использовать PROC SURVEYREG или PROC SURVEYLOGISTIC в сочетании с PROC IML для вычисления относительных рисков и доверительных интервалов и для проведения теста на однородность на основе параметрического моделирования начальной загрузки, как в статье Гренландии (15). Вкратце, вычисляются оценки параметров и асимптотическая ковариационная матрица с использованием насыщенной модели, такой как приведенная выше в PROC SURVEYREG. Один использует оценки параметров для построения журнала относительных рисков (в нашем примере назовем их θ 1 , θ 2 и θ 3для 3-х возрастных групп). Затем используется матрица асимптотической ковариации для моделирования членов случайной ошибки; они добавляются к исходным оценкам параметров для формирования смоделированных оценок параметров начальной загрузки. Для каждой оценки параметра начальной загрузки вычисляется относительный риск в журнале. Затем вычисляется ковариационная матрица бутстраповской выборки для подходящего набора контрастов логарифмических относительных рисков (для нашего примера у нас будет 2 контраста: один для среднего возрастного диапазона по сравнению с младшим возрастным диапазоном и один для старшего возрастного диапазона по сравнению с младший возрастной диапазон). Пусть в нашем примере контрасты равны c 1 и c 2 (например, θ 2 - θ 1 и θ 3 - θ 1), И пусть ковариационная матрица будет V . Затем примерно хи-квадрат тест статистики с степеней свободы равно числу линейно независимых контрастов (2 в нашем примере) задается, например, ( C 1 C 2 ) V -1 ( C 1 C 2 ) Т . Доверительные интервалы для относительных рисков журнала или разностей относительных рисков журнала основаны на нормальную аппроксимации и соответствующие компонентах V . Код SAS можно получить у авторов по запросу.

Также возможен непараметрический бутстрап с повторной выборкой первичных единиц выборки в первичных стратах. Используя этот подход, можно было бы повторно оценить веса для каждой выборки начальной загрузки и, таким образом, получить доверительные интервалы и тесты гипотез, которые верны, когда веса оценены, а не известны. Этот подход также возможен в SAS, но программирование было бы более трудным, потому что нельзя было полагаться на стандартный макрос SAS для непараметрического бутстрапа (который не имеет возможности повторной выборки внутри страт).

ПОДХОД, ОСНОВАННЫЙ НА МОДЕЛИРОВАНИИ РЕЗУЛЬТАТОВ

где обзорные веса S i используются для обеспечения того, чтобы стандартное распределение Z | M = mотражает население в целом, а не отобранное население. Это метод, запрограммированный в SUDAAN Билером и др. (5) и более подробно объяснены Корном и Граубардом (6). Наша цель оценки, контрасты функций этой цели, доверительные интервалы и тесты гипотез могут быть запрограммированы в SAS PROC IML с использованием того же подхода, который описан выше, на основе моделирования, что и в статье о Гренландии (15). Вкратце, оценки параметров и их асимптотическая ковариационная матрица вычисляются с использованием PROC SURVEYLOGISTIC, как только что описано; затем начальные репликации вычисляются, как указано выше. Для каждой реплики начальной загрузки вычисляются выражение 1 и функции выражения 1. Доверительные интервалы и проверки гипотез можно запрограммировать, как описано выше. Код SAS можно получить у авторов по запросу.

МОДЕЛИРОВАНИЕ ИССЛЕДОВАНИЯ

Чтобы проиллюстрировать обоснованность двух подходов, мы провели имитационное исследование с использованием SAS. В нашем исследовании моделирования M является модификатором бинарного эффекта с P ( M = 1) = 0,4. Мы рассматриваем единственный конфаундер Z, распределенный как N (0,1). Модель воздействия на население - это logit ( P ( X = 1 | M , Z )) = 0,5 - 1 × M + 1 × Z + 0,5 × M × Z , а модель исходов для населения - это logit ( P ( Y = 1 | X , M , Z)) = -0,5 + 1 × Х - 0,5 × М + 1 × Х × М + 0,5 × Z .

Чтобы получить истинные значения интересующих параметров, которые представляют собой стандартизированные популяционные различия риска на каждом уровне M , мы должны усреднить популяционную модель результатов по распределению Z внутри M ; мы использовали интеграцию методом Монте-Карло для моделируемой популяции размером 100 000 человек.

Сложная выборка обследования моделировалась следующим образом. Первоначально из моделей популяции была отобрана выборка размером 3500 для M , Z , X и Y соответственно. Если Y = X , то наблюдение сохранялось с вероятностью 0,5, и ему был присвоен вес опроса S = 2. В противном случае наблюдение сохранялось с вероятностью 1 и ему был присвоен вес опроса S = 1. Мы смоделировали 500 таких сложных выборок обследования и применил по 2 подхода к каждому. Средний размер комплексных выборок опроса составил 2 267 человек.

В таблице 1 представлены результаты. Оба подхода точно оценивают истинную разницу рисков на каждом уровне модификатора эффекта. Кроме того, доверительные интервалы 95% имеют правильный охват. Мы подозреваем, что если бы наша симуляция была больше 500, подходы были бы еще более сопоставимыми; однако из-за начальной загрузки, необходимой для подхода к моделированию результатов, наше моделирование было очень требовательным к компьютеру, и поэтому мы ограничили размер до 500.

Таблица 1.

Результаты имитационного исследования, сравнивающего 2 подхода (моделирование воздействия и моделирование результатов) к оценке стандартизированной разницы в рисках для населения

Модификатор эффектаИстинная разница в рискахРасчетная разница рисков95% вероятность охвата доверительного интервала,%
Моделирование экспозицииМоделирование результатовМоделирование экспозицииМоделирование результатов
M = 10,4410,4390,44194,095,4
M = 00,2320,2300,23195,095,6

ПРИМЕР

Затем мы применяем 2 подхода к стандартизации на основе моделей к мотивирующему примеру, в котором основной целью оценки является стандартизованный риск стоимостного барьера для здравоохранения как функция статуса инвалидности в каждой из 3 возрастных групп. Каждая стандартизация вносит поправку на смешение из-за расы / этнической принадлежности, дохода, образования и пола с использованием либо подхода моделирования воздействия, либо подхода моделирования результатов. Мы используем данные исследования BRFSS Survey во Флориде 2007 г. (11, 12). Участники были оценены как имеющие барьер затрат на медицинское обслуживание, если они сообщили, что не могли посетить врача в прошлом году из-за затрат. Инвалидность определялась в соответствии с определением, используемым Центрами по контролю и профилактике заболеваний,когда человек был признан инвалидом, если он или она сообщили о наличии ограничений или использовании специального оборудования (16). Раса / этническая принадлежность были разделены на 4 группы: неиспаноязычные белые; неиспаноязычный черный; не латиноамериканец другой расы или многорасовый неиспаноязычный; и латиноамериканец любой расы. Годовой доход домохозяйства был разделен на 5 групп: менее 20 000 долларов США, 20 000–24 999 долларов США, 25 000–34 999 долларов США, 35 000–49 000 долларов США и 50 000 долларов США и более. Образование было разделено на 4 группы: младше средней школы, окончание средней школы или эквивалентное образование, некоторый колледж и степень колледжа или выше. Мы исключили участников, у которых отсутствовали данные по любой из этих переменных. В нашу окончательную выборку вошли 31 590 участников.не латиноамериканец другой расы или многорасовый неиспаноязычный; и латиноамериканец любой расы. Годовой доход домохозяйства был разделен на 5 групп: менее 20 000 долларов США, 20 000–24 999 долларов США, 25 000–34 999 долларов США, 35 000–49 000 долларов США и 50 000 долларов США и более. Образование было разделено на 4 группы: меньше, чем средняя школа, окончание средней школы или эквивалент, некоторый колледж и степень колледжа или выше. Мы исключили участников, у которых отсутствовали данные по любой из этих переменных. В нашу окончательную выборку вошли 31 590 участников.не латиноамериканец другой расы или многорасовый неиспаноязычный; и латиноамериканец любой расы. Годовой доход домохозяйства был разделен на 5 групп: менее 20 000 долларов США, 20 000–24 999 долларов США, 25 000–34 999 долларов США, 35 000–49 000 долларов США и 50 000 долларов США и более. Образование было разделено на 4 группы: младше средней школы, окончание средней школы или эквивалентное образование, некоторый колледж и степень колледжа или выше. Мы исключили участников, у которых отсутствовали данные по любой из этих переменных. В нашу окончательную выборку вошли 31 590 участников.Мы исключили участников, у которых отсутствовали данные по любой из этих переменных. В нашу окончательную выборку вошли 31 590 участников.Мы исключили участников, у которых отсутствовали данные по любой из этих переменных. В нашу окончательную выборку вошли 31 590 участников.

В таблице 2 представлены оценки общих рисков и различий рисков внутри возрастных категорий, полученные с использованием SAS PROC SURVEYREG и исходных весов обследования. Различия в рисках явно неоднородны, со значением P менее 0,001.

Таблица 2.

Тестирование и оценка изменения меры воздействия по возрасту общей разницы рисков для влияния лиц с инвалидностью на барьеры для затрат на медицинское обслуживание, с использованием линейной регрессии для данных комплексного обследования, Обследование системы наблюдения за поведенческими факторами риска во Флориде, 2007 г.

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!