Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
В недавно опубликованном исследовании в медицинском журнале The Lancet говорится: весной более чем 100 государственных медицинских баз данных США были изменены без публичных уведомлений. Почти в половине файлов обнаружились изменения формулировок, однако официальные журналы изменений остались пусты. Авторы предупреждают: такие незаметные правки могут ударить по качеству исследований и подорвать доверие к официальной статистике.
Учёные провели анализ правительственных каталогов открытых данных США за период с 20 января по 25 марта 2025 года. Были проанализированы данные Центров по контролю и профилактике заболеваний (CDC), Министерства здравоохранения и Министерства по делам ветеранов. Авторы загрузили все записи с изменённой датой, исключили дубликаты и файлы, обновляющиеся ежемесячно, оставив 232 набора данных. Для каждого набрали архивную копию «до» и «после» (чаще всего - с помощью Wayback Machine). Все расхождения в тексте фиксировались с помощью текстового редактора. Оценивали только словесные формулировки, числа не проверяли. После этого исследовали, указывались ли изменения в публичной истории изменений на страницах наборов данных.
Пример: в наборе данных по использованию медицинских услуг среди ветеранов, который не трогали два года, 5 марта 2025 года заголовок колонки “Gender” (гендер) сменился на “Sex” (пол). То же произошло в названии файла и кратком описании. Дата обновления — новая, журнал изменений пуст.
Из 232 файлов 114 (49%) получили, по мнению авторов, существенные изменения формулировок. Из них 106 заменили “gender” на “sex”, четыре изменили “social determinants of health” (социальные детерминанты здоровья) на “non-medical factors” (немедицинские факторы), ещё один — “socio-economic status” на “socio-economic characteristics”, а в одном клиническом исследовании выражение «gender diverse» переписали как «включают мужчин и женщин».
В 89 случаях изменения затронули определяющие данные элементы (имена колонок, категории), в остальных — описания или теги. Только 25 из 114 (менее одной седьмой) изменений были зафиксированы официально.
По времени изменений: 4 — в конце января, 30 — в феврале, 82 — в первой части марта, что говорит о резком ускорении процесса.
Эти государственные данные — основа для многих проектов в области психологии, социологии и здравоохранения. Пример — Behavioral Risk Factor Surveillance System, ежегодно собирающая информацию о привычках и здоровье по всем штатам. Исследования смертности от сердечно-сосудистых заболеваний используют данные CDC, чтобы находить связи с социальной средой и стрессом. Опросы по питанию важны для изучения ожирения у детей. Специалисты по психическому здоровью ветеранов ориентируются на базы Министерства по делам ветеранов для оценки рисков и доступа к помощи.
В итоге: если, скажем, в вопросе анкеты “gender” меняется на “sex”, сравнивать прежние и новые данные становится проблематично. Даже одна незадекларированная правка мешает воспроизвести результаты, нарушить модели и напрочь запутать поиск трендов.
Здесь важны и сами различия: “gender” — социальная идентичность, а “sex” — биологический пол, и для многих респондентов, например трансгендерных людей, этот выбор критичен. Без уточнения, как именно менялся вопрос, становится невозможно понять, связано ли, скажем, изменение соотношения мужчин и женщин с реальными переменами или с подкорректированными формулировками. Могут страдать и решения по ресурсам, и медицинские стандарты.
Авторы видят возможную политическую подоплёку: в начале февраля Белый дом поручил органам власти удалить материалы, которые можно трактовать как продвижение «гендерной идеологии», этот термин используют и на уровне отдельных штатов. Со стороны правительственных ведомств никто не подтвердил, что именно из-за этого редактировались данные, но совпадения по времени и выбору терминов очевидны. Если цель была — «унификация», то закон об открытых данных явно нарушен.
Исследование признаёт ограничения: из-за скромных архивов сравнить с более ранними периодами не удалось, а различия вносились вручную на глаз, что субъективно. Числовые данные не анализировались — возможно, цифры правили тоже.
Для защиты качества данных авторам советуют: архивировать свои копии на сторонних серверах, сравнивать файлы с сохранёнными версиями, использовать международные репозитории — например, Europe PubMed Central. Но главное — внедрять обязательную прозрачность истории изменений на уровне ведомств, чтобы каждый мог видеть что, когда и почему правилось.
Исследование подготовили Janet Freilich и Aaron S. Kesselheim.
Изменения в медицинских базах данных США — увлекательная хрестоматия того, как государственная бюрократия мастерски растворяет прозрачность. Официальные логи пусты, хотя почти половина файлов подверглась 'стилистическому тюнингу' слов — всего за пару месяцев. Неуловимые корректировки: «gender» вдруг стал «sex», и никто не расскажет, почему и зачем. Это отличный пример, как простая замена слова в колонке способна превратить анкетное чудо в статистический кошмар. Перевоплощение выглядит почти художественно: январь — несколько изменений, весна — обвал. Масштаб не только бюрократический, но и идеологический — директива Белого дома не где-то там, а прямиком на страницах старых добрых CSV. Прелесть ситуации — ни одно ведомство не признаётся, все журналы пусты. Какой простор для фантазий и заодно головной боли для тех, кто пытается что-то воспроизвести или — не дай бог — строить аналитику последних лет. Совет прост: качайте, архивируйте, перепроверяйте. Проверочное ремесло сейчас — не опция, а спасательный круг для всех, кто ещё верит в старую науку, а не новую стилистику бланков.