ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ BILSTM И АЛГОРИТМА САМОВНИМАНИЯ

Екатерина Голенко; Айсулу Исмаилова

doi:10.32014/2023.2518-1726.204

Авторы

Е.С. Голенко НАО «Казахский агротехнический исследовательский университет имени Сакена Сейфуллина»
А.А. Исмаилова НАО «Казахский агротехнический исследовательский университет имени Сакена Сейфуллина»

DOI:

https://doi.org/10.32014/2023.2518-1726.204

Ключевые слова:

двунаправленная LSTM, самовнимание, предсказание функций, белки, машинное обучение

Аннотация

С развитием технологии секвенирования генома использование вычислительных технологий для прогнозирования функции белков стало одной из важных задач биоинформатики. Ранние исследования в этой области основывались на сходстве последовательностей и предполагали, что белки со схожими аминокислотными последовательностями имеют схожие функции. Однако предложенные ранее методы прогнозирования функций часто не могли выявлять скрытые закономерности между белками и терминами генной онтологии, что понижало точность функционального аннотирования. Глубинное машинное обучение, как показывает множество исследований, справляется с этой задачей на более высоком уровне. Во-первых, методы глубинного обучения могут обучаться на больших объемах данных белковых последовательностей, не принимая во внимание дополнительную информацию о свойствах белков. Во-вторых, подходы глубинного обучения решают такие побочные задачи как зашумленность данных, их избыточность и высокая размерность.

Комбинирование механизма самовнимания и двунаправленной сети с долговременной краткосрочной памятью может быть использовано для решения проблемы функционального аннотирования белка. Двунаправленная LSTM используется для получения как глобальной, так и локальной информации о свойствах белковых последовательностей, а таже для сохранения полученной информации. Алгоритм самовнимания применяется для оптимального использования взаимосвязи последовательности и информации о функциях различных позиций последовательности, что повысит надежность прогнозирования.

В качестве инструмента для реализации алгоритмов был выбран язык python, модель обучена в течение 50 эпох и протестирована на экспериментальном наборе данных белка Indica, полученного из открытых источников.

Результаты эксперимента показывают, что алгоритм комбинирования механизма самовнимания и двунаправленной сети с долговременной краткосрочной памятью превосходит другие традиционные алгоритмы нейронных сетей и может более точно прогнозировать функцию белка, что показывает возможную применимость алгоритма в функциональном аннотировании белковых последовательностей.

ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКА С ИСПОЛЬЗОВАНИЕМ КОМБИНАЦИИ BILSTM И АЛГОРИТМА САМОВНИМАНИЯ

Авторы

DOI:

Ключевые слова:

Аннотация

Загрузки

Опубликован

Как цитировать

Выпуск

Раздел

flags

menu