Как был устроен процесс: ученые взяли 14 популярных LLM, являющихся яркими представителями своих стран. ChatGPT, Claude, Gemini от США, DeepSeek и Qwen от Китая, Mistral из Франции, а также другие модели, в том числе из Израиля и России. Далее искусственный интеллект опросили по двум группам вопросов. Первая часть касалась известных персон (от Иосифа Сталина до Хантера Байдена), вторая — актуальных проблем современности (от изменения климата до гендерного равенства). Учитывая, что все системы многоязычны, вопросы задавались на разных языках. Ответы, в свою очередь, также поделили на две категории: жесткий отказ в духе «я не могу ответить на ваш вопрос», либо мягкий — когда объективность ответа или полнота выдаваемой информации ставились под сомнение.
Самая очевидная разница, на которую еще до проведения исследования обратили внимание пользователи DeepSeek, — это зависимость ответа от выбранного языка. На русском модель еще недавно легко рассказывала про чувствительные события на площади Тяньаньмэнь, но уже сегодня выдает отказ. Так и в других моделях результат мог быть разным в зависимости от языка.