Протестующий с ноутбуком сидит на перекрытой дороге в районе Адмиралтейства в Гонконге рано утром 8 октября 2014 года. (Ed Jones/AFP via Getty Images)

Пропаганда из государственных СМИ Китая используется для обучения ИИ

При запросах на китайском языке ChatGPT, Claude и Gemini, чаще выдавали ответы, соответствующие официальной позиции Пекина
Обновлено: 24.05.2026 17:28
Согласно новому исследованию, контент китайских государственных СМИ глубоко интегрирован в наборы данных, используемые для обучения основных систем искусственного интеллекта (ИИ), и может косвенно влиять на то, как некоторые модели реагируют на политически чувствительные вопросы.

Исследование, опубликованное в научном журнале Nature 13 мая, показало, что в обучающих наборах данных для больших языковых моделей содержатся большие объёмы материалов китайских государственных СМИ, в том числе информационного агентства «Синьхуа» и газеты «Жэньминь жибао».

Согласно результатам исследования, при запросах на китайском языке на темы, связанные с политической системой Китая или деликатными внутриполитическими вопросами, несколько ведущих систем ИИ, в том числе ChatGPT, Claude и Gemini, чаще выдавали ответы, которые в целом соответствовали официальной позиции Коммунистической партии Китая.

Исследование показало, что ответы на те же вопросы на английском языке часто отличались по тону и акцентам.

Исследователи подчеркнули, что не обнаружили признаков взлома или прямого манипулирования системами ИИ. По их мнению, эффект, скорее всего, обусловлен структурой самих обучающих данных.

Поскольку китайские государственные СМИ публикуют большие объёмы контента, доступного в свободном доступе, широко распространяемого и имеющего единый формат, их легче собирать с помощью веб-краулеров, используемых в конвейерах обучения ИИ.

В отличие от них, независимые новостные организации чаще всего взимают плату за доступ к контенту, соблюдают авторские права или блокируют автоматизированный сбор данных, что ограничивает их присутствие в обучающих наборах данных.

Эта асимметрия, как предполагает исследование, может непреднамеренно привести к тому, что нарративы, поддерживаемые государством, будут оказывать большее влияние на системы машинного обучения, использующие открытые интернет-данные.

Как обучающие данные могут влиять на поведение модели

Исследователи, проанализировавшие большой набор данных на китайском языке с открытым доступом под названием CulturaX, обнаружили, что он содержит около 189 млн документов. В этом наборе данных контент китайских государственных СМИ представлен в гораздо большем объёме, чем в китайской Википедии.

Анализ также показал, что в политически заряжённых контекстах — в том числе при упоминании Коммунистической партии Китая или китайского руководства — значительная часть соответствующих материалов в наборе данных приходилась на контент государственных СМИ.

Исследователи протестировали несколько моделей ИИ, используя сопоставимые запросы на китайском и английском языках, и обнаружили заметные различия. В некоторых случаях ответы на китайском языке чаще содержали официальную терминологию или отражали нарративы, широко используемые в политическом дискурсе Пекина. Ответы на английском языке, напротив, были более нейтральными или разнообразными по формулировкам.

В отличие от традиционных медиаканалов, таких как телевидение или газеты, системы ИИ генерируют синтезированные ответы, которые могут казаться нейтральными, даже если они отражают закономерности, заложенные в обучающие данные.

В ходе исследования также был проведён анализ ситуации в десятках стран, который показал, что в регионах с меньшей свободой прессы результаты работы ИИ, обученного на данных на местном языке, с большей вероятностью отражают позицию государства.

В подготовке этого материала участвовал Сунь Чен.

__________

Чтобы оперативно и удобно получать все наши публикации, подпишитесь на канал Epoch Times Russia в Telegram

«Почему человечество – это общество заблуждения» – статья  Ли Хунчжи, основателя Фалуньгун
КУЛЬТУРА
ЗДОРОВЬЕ
ТРАДИЦИОННАЯ КУЛЬТУРА