ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ BILSTM И АЛГОРИТМА САМОВНИМАНИЯ
DOI:
https://doi.org/10.32014/2023.2518-1726.204Ключевые слова:
двунаправленная LSTM, самовнимание, предсказание функций, белки, машинное обучениеАннотация
С развитием технологии секвенирования генома использование вычислительных технологий для прогнозирования функции белков стало одной из важных задач биоинформатики. Ранние исследования в этой области основывались на сходстве последовательностей и предполагали, что белки со схожими аминокислотными последовательностями имеют схожие функции. Однако предложенные ранее методы прогнозирования функций часто не могли выявлять скрытые закономерности между белками и терминами генной онтологии, что понижало точность функционального аннотирования. Глубинное машинное обучение, как показывает множество исследований, справляется с этой задачей на более высоком уровне. Во-первых, методы глубинного обучения могут обучаться на больших объемах данных белковых последовательностей, не принимая во внимание дополнительную информацию о свойствах белков. Во-вторых, подходы глубинного обучения решают такие побочные задачи как зашумленность данных, их избыточность и высокая размерность.
Комбинирование механизма самовнимания и двунаправленной сети с долговременной краткосрочной памятью может быть использовано для решения проблемы функционального аннотирования белка. Двунаправленная LSTM используется для получения как глобальной, так и локальной информации о свойствах белковых последовательностей, а таже для сохранения полученной информации. Алгоритм самовнимания применяется для оптимального использования взаимосвязи последовательности и информации о функциях различных позиций последовательности, что повысит надежность прогнозирования.
В качестве инструмента для реализации алгоритмов был выбран язык python, модель обучена в течение 50 эпох и протестирована на экспериментальном наборе данных белка Indica, полученного из открытых источников.
Результаты эксперимента показывают, что алгоритм комбинирования механизма самовнимания и двунаправленной сети с долговременной краткосрочной памятью превосходит другие традиционные алгоритмы нейронных сетей и может более точно прогнозировать функцию белка, что показывает возможную применимость алгоритма в функциональном аннотировании белковых последовательностей.