Нобелевскую премию по химии этого года получили работы, которые на самом деле представляют собой смесь биологии и компьютерных наук. Речь идет о решениях по предсказанию структуры белка по последовательности и по конструированию белков с заданной структурой de novo.
Белки — важнейшие молекулы живых систем, их основные исполнители. ДНК содержит информацию о том, что нужно сделать, РНК необходима для синтеза белков, но всю основную работу в клетке выполняют именно белки: это и ферменты, и структурные элементы, и все остальное. Поэтому нам очень важно понимать, как именно они сворачиваются в сложные структуры, необходимые для выполнения всех этих функций. Это знание поможет исправлять поломки, подбирать лекарства, которые бы взаимодействовали с теми или иными белками, и создавать новые белки с нужными нам функциями.
Предсказание структуры белка по его последовательности — сложная и нетривиальная задача. Простая математика показывает, что небольшой белок из 100 аминокислот может сворачиваться в 10^47 возможных форм. Это настолько астрономически большая цифра (по расчетам, звезд во Вселенной намного меньше), что ни за какое разумное время подобрать правильную форму простым перебором невозможно.
С другой стороны, мы знаем, что белки не перебирают все возможные формы, пока не найдут нужную, а сразу сворачиваются правильно. Более того, если мы денатурируем белок, то есть заставим его развернуться, а потом ренатурируем (обратный процесс), то чаще всего он вернется в ту же форму, которую имел до денатурации. Значит, есть какие-то предпочтительные виды сворачивания, которые зависят от последовательности аминокислот.
В отсутствие вычислительных методов определять структуру белка ученым приходилось делать это экспериментально. Долгое время единственной методикой, позволявшей выяснить форму белка с необходимой точностью, был рентгеноструктурный анализ.
Ученые выращивают кристаллы белка и пропускают через них рентгеновские лучи. По картине рассеивания лучей можно при помощи разных вычислений понять, как выглядит наш белок в 3D.
Это сложный, дорогой и трудоемкий метод, к тому же работающий не для всех белков. Относительно недавно появился второй метод — криоэлектронная микроскопия, но и он, как любой другой экспериментальный метод, требует много времени и усилий. Из-за того, что определять структуры белков было так сложно, за годы работы мы выяснили структуры чуть больше 15 тысяч белков, то есть очень-очень мало.
Работы нынешних нобелевских лауреатов позволили наконец уйти от эксперимента и научиться определять последовательности и структуры белков in silico, то есть на компьютере. Одна половина премии досталась Джону Джамперу и Демису Хассабису из DeepMind, которая когда-то была независимой компанией, но теперь является частью Google. Разработанная ими нейросеть AlphaFold2, используя данные о последовательностях и структурах уже разрешенных экспериментально белков, научилась вычислять наиболее вероятную структуру белков, для которых экспериментальных данных нет. Делает она это не тупым перебором, а определяя наиболее вероятные структуры на основе тех закономерностей, которые вытащила из обучающей выборки последовательностей и структур. Звучит просто, но на деле процесс очень сложный: модель много раз прогоняет разные варианты, постепенно подбирая оптимальный.
Точность предсказания AlphaFold2, представленного в 2020 году, составляет около 90%, что уже вполне сравнимо с точностью экспериментальных данных. Особенно если мы имеем дело c не очень сложными, относительно небольшими глобулярными мономерными белками. Кроме того, DeepMind при помощи AlphaFold2 расшифровала и выложила в открытый доступ 200 миллионов последовательностей белков, которые у нас были в разных базах. Это гигантский вклад в работу ученых — без AlphaFold2 мы бы никогда не узнали структуру абсолютного большинства этих белков.
Не все согласны, что награда за создание AlphaFold2 оправданна. Скептики утверждают, что премия выдана немного авансом, сравнивая ее с нобелевской премией мира Бараку Обаме. В качестве аргументов приводятся соображения, что AlphaFold2 нередко ошибается и не может предсказать, какова будет структура белка, когда он связан с каким-то лигандом. А именно это нам нужно для создания лекарств. AlphaFold2 действительно с этим справляется плохо, но она и не должна: в ее обучающей выборке не было данных об изменении структуры после связывания с лигандом. Но вот следующая версия нейросети, AlphaFold3, по утверждениям разработчиков, как раз это и умеет. Но это коммерческая нейросеть, и несколько крупных фармкомпаний уже используют ее.
Что касается возражений про ошибки, то, разумеется, это не абсолютно совершенный инструмент, но и рентгеноструктурный анализ или криоЭМ также не дают 100%-но точный результат. И уж точно никакой другой известный нам метод предсказания не позволял определить 200 млн структур за короткое время.
Вторая часть премии досталась Дэвиду Бейкеру за разработку сервиса Rosetta. Он решает проблему связи структур и функции белка с обратной стороны. То есть позволяет предсказать, какой должна быть последовательность у белка, чтобы он выполнял те функции, которые мы для него придумали, — например, чтобы он узнавал некую заданную молекулу (скажем, загрязняющих веществ) и связывался с ней.
Rosetta умеет конструировать такие белки, составляя их как конструктор из блоков с определенной структурой. Что самое важное, она неплохо предсказывает, как будут уложены кусочки белка между такими базовыми блоками.
Именно такие кусочки и составляют активный центр белка, который отвечает за нужную нам функцию.
Пока Rosetta позволяет конструировать не очень сложные белки, но это уже большой шаг вперед. Кроме того, после синтеза в базовую версию белка можно вносить случайные мутации и отбирать те версии, которые работают чуть лучше исходной. Если повторить процесс много раз (точно так же, как делают селекционеры, создавая новый сорт), можно добиться существенного улучшения и получить белок, идеально отвечающий заданным функциям.