Новый алгоритм поможет уточнить структуру геномов сельскохозяйственных растений
Ученые из Федерального исследовательского центра «Фундаментальные основы биотехнологии» РАН (Москва) ранее разработали подход, который назвали итеративным методом (IP-методом). В его рамках создаются позиционные весовые матрицы — математические «таблицы», строки в которых соответствуют разным нуклеотидам, а столбцы — их позициям в последовательности. Первая матрица формируется случайным образом. Если в геноме оказываются участки, похожие на нее, ее структура уточняется согласно им. Процесс повторяется до тех пор, пока не будут обнаружены все значимые повторы.
Такой подход позволяет находить в геноме даже сильно измененные (мутировавшие) повторы, благодаря чему он может найти значительно больше повторов, чем аналоги. Авторы подтвердили это, проанализировав с помощью нового алгоритма геном риса (Oryza sativa). Инструмент выявил 992 739 повторов, относящихся к 79 разным семействам. Это на 56% больше, чем количество повторов, выявленных широко используемым биологами алгоритмом EDTA (Extensive de-novo TE Annotator). При этом повторы составили 66% всего генома риса, что также превосходит предыдущие оценки.
«Рис служит основным продуктом питания для более чем миллиарда человек. Поэтому выведение новых высокоурожайных сортов этого растения — важная продовольственная задача. Чтобы ее решить, нужно понимать устройство генома риса и найти в нем все мобильные генетические элементы. Нам удалось обнаружить большое количество ранее не известных последовательностей, что поможет в поиске удачных мест встраивания генов других организмов в геном риса и в создании новых сортов. В дальнейшем мы планируем применить наш подход к другим сельскохозяйственным растениям, а также попытаться cделать IP-метод еще более чувствительным. Мы планируем создать базу данных найденных дисперсных повторов в различных растениях и сделать ее открытой для международного сообщества для проведения экспериментальных исследований», — рассказывает руководитель проекта, поддержанного грантом РНФ, Евгений Коротков, доктор биологических наук, ведущий научный сотрудник, руководитель группы математического анализа последовательностей ДНК и белков ФИЦ Биотехнологии РАН.