Большой размер генома;
Большое количество повторов.
У многих организмов, особенно у высших эукариот, один ген может кодировать более одного белкового продукта за счет альтернативных путей экспрессии генов, срабатывающих преимущественно на стадии процессинга первичных транскриптов:
альтернативного сплайсинга,
транс-сплайсинга,
альтернативного полиаденилирования,
использования альтернативных промоторов и старт-кодонов.
У млекопитающих эти процессы (в основном альтернативный сплайсинг) увеличивают число белковых продуктов по сравнению с числом генов в несколько раз.
Первая задача: идентификация кодирующей последовательности.
Здесь выбран специальный фрагмент генома, где есть одна короткая рамка считывания, кодирующая функциональный белок. Но т. к ДНК считывается по 3 буквы за раз, то тогда возможно 6 кодонов; вот последовательности, возможно первая, вторая, третья рамка. Но из всех возможных 6 вариантов всегда используется только одна рамка. И задача выбрать тот верный вариант из 6-ти возможных, т. е где ген начинается и где заканчивается, и в рамках решения этой задачи есть 2 принципиально различных ситуации: репликация регулирующих последовательностей у прокариот и эукариот.
Мы начнем с прокариот, т. к проще. Если взять фрагмент генома и просто отложить выше, ниже этого участка возможные рамки считывания, т. е фрагменты, которые начинаются старт-кодонами и заканчиваются стоп-кодонами. Получается интересная картина: здесь для линии цепи ДНК, отложены разные рамки считывания, т. е с разным началом, но с одинаковым концом. Если сдвинуть на 1 букву вперед или назад, то здесь нет рамок, а здесь очень короткие, а если посмотреть верхнюю цепь, здесь находятся немного подлиннее, но все равно короче, чем полноразмерная ситуация. Если посмотреть эту часть последовательности: то несколько коротких рамок на нижней цепочки, и вот здесь одна длинная, которая выходит на 5 тыс. н. п. Вывод: самая длинная из предложенных рамок и будет правильная, т. е для прокариот все очень просто, т. к. у них есть колоссально эволюционный организатор нужного генома, практически отсутствует некодирующие. последовательности и сайт-кодирующая последовательность располагается в промотерной области для гена и для этого. Промотор и сайт связан регуляторными путями. Здесь встречается 150 н. п. некодирующей последовательности. И размер зависит от конкретного генома. Вот такой простой способ поиска кодирующих последовательностей называется сканирование открытых рамок считывания, которое делается за компьютером, является достаточно надежным и правильным для прокариотических геномов. Единственное, осторожность с определением супер-праймера валента из нескольких для первых стоп-кодонов. Во многих случаях нужно смотреть, где располагается рибосомсвязующий сайт и если есть рядом расположенные старт-кодоны, среди них нет хороших рибосомсвязующих сайтов, то зачастую оказывается, что чуть-чуть сдвинутый подальше старт-кодон с хорошим рибосомсвязующим сайтом является тем, с которого открытие начинается. Но, наверное, в 90-95% самая длинная рамка должна быть правильной.
Давайте посмотрим эукариотической последовательности.
Здесь фрагмент гена показан, вы помните, он прерывист, т. е кодирующая последовательность является экзоном, и это как раз является очень большой проблемой. Хотя проблемы две:
1)заключается в том, что последовательность огромная, а кодирующей очень мало (для чел. 1,5%);
2)рамки разорваны, у большинства генов нет ни старт-, ни стоп-кодонов, нет четких критериев, где начинается и где заканчивается. Вроде бы, можно было по сайтом сплайсинга определять, где начинается экзон и где заканчивается. Реально, две буквы здесь консервативны т. е. GY возможный транскрипт ДНК соответственно GT и AG, это универсальные консервативные буквы, но этого недостаточно, т.к часто встречаются в геноме. Т.е случайным образом каждые 10-56 нуклеотидов в комплекте из 4-х букв, но встречаются. Обмен интронов, это не 256 букв, а значительно больше ~ 1000 нуклеотидов. На эти буквы просто полагаться нельзя! В этом и сложность.
Еще одна сложность – экзоны коротенькие. Размеры интронов варьируют: у растений короткие, а у нас т. е. у большинства млекопитающих, позвоночных могут быть очень большими. И это тоже является проблемой. Короткие компактные экзоны, размер генома от 100 до 150 н.п., средний экзон от 30 до 50 АК, слишком короткая кодирующая последовательность, чтобы отличить от некодирующей, поэтому для эукариотических геномов идентификация старт-кодирующих последовательностей сводится к учету всех возможных признаков кодирующих последовательностей и решения, а как раз является ли последовательность кодирующая или нет решают эксперты. Какие факторы существуют в работе экспертной системе:
1)избирательное использование различных кодонов. Вы знаете, что 1-ой АК может соответствовать несколько кодонов(1-6), каждый организм имеет свой набор тРНК и соответственно каждому из этих кодонов соответствует разное количество тРНК, и из 6 кодонов, некоторые кодоны были эффективнее т. к. больше тРНК, некоторые менее. В ходе эволюции отбираются не те кодоны, для которых есть больше тРНК, соответственно для каждого организма есть предпочтительные кодоны. И если речь идет о кодирующая последовательности, мы можем статистически посмотреть, если в этой рамки считывания используемые предпочтительные кодоны, значит высока вероятность, что это кодирующая последовательность, если произвольные кодоны, значит нереальная рамка считывания.
Т.е в целом опираясь на некоторые количества признаков, которые способны охарактеризовать возможные интроны и экзоны. Эти факторы хорошо работают для организмов с компактными интронами (растения), хуже с организмами, у которых длинные интроны (человек, млекопитающие). Еще один фактор – заключается в том, что кодирующая последовательность, когда знаешь, где она начинается. т. е. если мы определились со стартовой точкой, то найти экзоны проще. Обязательно учитывать наличие регулирующих последовательностей сайтов связывания независимых транскрипционных факторов, которое характерно для млекопитающих. Это важная информация, которая позволяет определить надежную промотерную область. Еще один важный фактор, самый надежный, когда информация недоступна – использование сходства с известными кодирующими последовательностями. Если у нас в взрослом организме есть гомология, т. е. нашей последовательности с базой данных, и для этой последовательности четко известно, что это кодирующая последовательность, и это является показатель того, что у нашего организма также кодирующая последовательность. По причинам того, что в ходе эволюции жёсткий процессинг идет на сохранение кодирующей последовательности, а некодирующая меняться не будет. Поэтому просто сохраняется только кодирующая последовательности, в меньшей степени регуляторные, некодирующая последовательности, которые имеют нейтральную эволюцию, в чем оно выбор и отсутствие. К сожалению, что ни одна из этих модификаций стандартного крамирования, оно не является достаточным, поэтому всегда работает компьютерные программы.
Пару слов об экспериментальных подходах. И особо важным при экспериментальной идентификации кодирующая последовательностей имеющихся у высших позвоночных, использование альтернативного сплайсинга. В чем проблема заключается: мало найти кодирующая последовательность, еще нужно понять как идет сплайсинг, какие потенциальные транскрипты образовываются, с этой кодирующая последовательности какие белки образовываться. Т.е. если мы просто найдем все экзоны – этого недостаточно, чтобы сказать какой белок может быть синтезирован с участков этих экзонов. На сегодняшний момент нет представления какие последовательности контролируют альтернативный сплайсинг.
Стандартный человеческий ген дает 1 – 2 транскрипта. В среднем количество белков как минимум превышает в 2 раза количество генов. Вот слайд, у нас есть вариант соединения 3-х экзонов из 4-х. 1, 2 и 4-ый – мы получаем такой транскрипт. 1-ый экзон – альтернативный, затем 2-ой и, наконец, входит 3-ий экзон и получаем самый длинный транскрипт. Это возможные варианты, а при использовании этих технологий можно индуцировать все варианты. Т.е. цепляется здесь мРНК, используется праймер, начиная отсюда и идет секвенирование кДНК (стрелочки показывают сиквенсы, которые получаются). Понятно, что большая часть этих сиквенсов группируют здесь полиРНК, т. к. синтез кДНК не очень длительный процесс.
Это не очень легкие методики, но наличие хотя бы одной последовательности, говорит о том, что здесь есть некодирующая последовательность кДНК, и далее гораздо легче найти остальные 2 гена. Если их много, то мы надежно идентифицируем геномы, чтобы найти нужный вариант транскрипта.
Экспериментальные технологии позволяют надежно выявить кодирующая последовательности в геноме и варианты сплайсинга. Это очень трудоемкий процесс, много ручного труда и требует больше тщательности. Помимо тотального секвенирования всех мРНК, имеющихся в организме, есть более специализированные технологии, позволяющие идентифицировать кодирующие последовательности. Самые старые из них основаны на гибридизации нуклеокислот, вызываемое гибридизацией дигексаном.
Здесь показана гибридизация: мы выделяем НК из клеток, как ДНК, так и РНК, если речь идет о кодирующая последовательностях, то нужно ДНК т. к. слепы те последовательности, которые экспрессируются. Значит ДНК выделяется, наносится медь, цинк радиоактивный либо флюоресцентной, наносится на гель и электрофорез, режется мембрана, а потом проба гибридизуется с ДНК или др. Есть несколько др. технологий для модификации: РНК в геле – ДНК проба либо ДНК в геле – РНК проба. И в одном и в др. случаи идет гибридизация ДНК с транскриптом, т. е. если есть гибридизация, значит на этом участке ДНК содержится кодирующая последовательность. Вроде бы мы идентифицируем, но нужно разобраться, что гибридизуется – ДНК или просто какая-то сложность имеется, идет получение сигнала, а еще нужно выяснить чему этот сигнал соответствует.
Еще специализированная гибридизация – зооблотинг.
Он используется, когда геном имеет значительно кодирующая консервативные последовательности, чем некодирующая. Если мы возьмем 2 ДНК родственных организмов, в качестве примера здесь млекопитающие. Сходства этих видов сохраняется только в кодирующих последовательностях, и соответственно если мы сделаем электрофорез этих ДНК, то организмы будут сходны в качестве пробы и гибридизация будет исключительно между первичной последовательностью и получаем сигнал на радиоафтографе, который будет соответствовать кодирующей последовательности. Очень важная экспериментальная технология, которая идентифицирует кодирующую последовательность, связанную с определением начала мРНК. Здесь показаны 2 техники.
Суть методов: когда у нас уже есть кусок последовательности, но мы знаем, что у нас нет конца; делается праймер концов известной последовательности, затем осуществляется синтез кДНК к началу этого сиквенса, потом кДНК, гибридизация сменяется в матрице и сюда в кДНК заправляется последовательность определенных нуклеотидов, вот здесь буква Е(продукт) с использованием терминальных трансфераз т.е фермент, который добавляет те нуклеотиды, которые присутствуют в реакции. Затем соответствующие этим буквам комплементарные праймеры отжигаются с этой последовательностью и делаем амплификацию с использованием специфического праймера РНК к этой последовательности, и праймера к правильной, в результате получаем амплифицию вот этого синтезируемого кусочка, потом его можно сограничить, определив последовательность, уже можно получить сжатую кодирующую последовательность.
Совсем другой подход есть называется S1-картирование.
Позволяет идентифицировать кодирующая последовательность на основании гибридизации, но гибридизация детектируется не физическими методами, а можно сказать биологическими. Вот соответветствующий интересующий фрагмент генома, кодирующий в одноцепочечном векторе, вот начало генома, который подключает начало гена. Клонируется в векторе и с этой клонируемой последовательностью отжигается мРНК. мРНК будет гибридизоваться от начала гена до конца кодирующего фрагмента. Потом одноцепочечная ДНК гибридиз. с РНК обрабат. S1- нуклеазой, а эндонуклеаза уберет всю одноцеп. ДНК, при чем очень специфично и ровненько по концам гибридизованного фрагмента остановиться. Потом РНК удаляется и идет сиквенс вот с этого праймера, который соответствует известной последовательности и мы определяем, где заканчивается вот этот оставшийся фрагмент. И мы получаем четко точку с которой инициируется транскрипция.