Содержание

ТРАНСКРИБИРОВАТЬ — это… Что такое ТРАНСКРИБИРОВАТЬ?

ТРАНСКРИБИРОВАТЬ
ТРАНСКРИБИРОВАТЬ
ТРАНСКРИБИ́РОВАТЬ, транскрибирую, транскрибируешь, совер. и несовер., что (спец.). Произвести (производить) транскрипцию чего-нибудь. Транскрибировать иностранную фамилию русскими буквами.

Толковый словарь Ушакова. Д.Н. Ушаков. 1935-1940.

.

  • ТРАНСКРИБИРОВАННЫЙ
  • ТРАНСКРИБИРОВАТЬСЯ

Смотреть что такое «ТРАНСКРИБИРОВАТЬ» в других словарях:

  • транскрибировать — рую, рует, несов., что (нем. transkribieren …   Словарь иностранных слов русского языка

  • Транскрибировать — I несов. и сов. перех. Производить транскрипцию [транскрипция I], указывать ее. II несов. и сов. перех. Производить транскрипцию [транскрипция II], указывать ее. Толковый словарь Ефремовой. Т. Ф. Ефремова. 2000 …   Современный толковый словарь русского языка Ефремовой

  • транскрибировать — транскриб ировать, рую, рует …   Русский орфографический словарь

  • транскрибировать — (I), транскриби/рую, руешь, руют …   Орфографический словарь русского языка

  • транскрибировать — рую, руешь; св. и нсв. (св. также протранскрибировать). что. Спец. Произвести производить транскрипцию. Т. текст. Т. немецкое название русскими буквами. Т. фортепьянную пьесу для скрипки. ◁ Транскрибироваться, руется; страд. Транскрибирование, я; …   Энциклопедический словарь

  • транскрибировать — рую, руешь; св. и нсв. (св., также, протранскриби/ровать) см. тж. транскрибироваться, транскрибирование что спец. Произвести производить транскрипцию. Транскриби/ровать текст. Тран …   Словарь многих выражений

  • транскрибировать(ся) — транскриб/ир/ова/ть(ся) …   Морфемно-орфографический словарь

  • Транскрибирование — I ср. 1. процесс действия по несов. гл. транскрибировать I 2. Результат такого действия. II ср. 1. процесс действия по несов. гл. транскрибировать II 2. Результат такого действия. Толковый словарь Ефремовой. Т. Ф. Ефремова. 2000 …   Современный толковый словарь русского языка Ефремовой

  • Транскрибироваться — I несов. неперех. страд. к несов. гл. транскрибировать I II несов. неперех. страд. к несов. гл. транскрибировать II Толковый словарь Ефремовой. Т. Ф. Ефремова. 2000 …   Современный толковый словарь русского языка Ефремовой

  • Азбука — Азбукой, или алфавитом, называется вообще собрание в известном порядке всех знаков, выражающих отдельные звуки данного языка (см. Алфавит), в особенности же название это присвоено системам письменных знаков, более или менее самостоятельно… …   Энциклопедический словарь Ф.А. Брокгауза и И.А. Ефрона


Транскрибирование звонков в центре обработки вызовов. — Служба «Речь» — Azure Cognitive Services

  • Чтение занимает 9 мин

В этой статье

Данные телефонии, полученные со стационарных и мобильных телефонов, а также радиоустройств, обычно имеют довольно низкое качество и узкую полосу частот (около 8 кГц). Это создает дополнительные трудности при преобразовании речи в текст. Последние модели распознавания речи из Службы «Речь» транскрибируют эти телефонные данные с высоким качеством даже в тех случаях, когда данные трудны для понимания человеком. Эти модели обучаются на больших объемах данных телефонии и обеспечивают наивысшую в отрасли точность распознавания, даже в средах с высоким уровнем шума.

Функция преобразования речи в текст часто применяется для транскрибирования больших объемов данных телефонии, которые могут поступать из различных систем, включая системы интерактивного речевого ответа. Это может быть стерео- или монофонический звуковой сигнал в необработанном виде или с минимальной пост-обработкой. С помощью Служб «Речь» и единой модели речи организации могут получить расшифровки высокого качества независимо от выбранных систем записи звука.

Данные телефонии позволяют лучше понять потребности клиентов, выявить новые возможности для продаж или оценить работу операторов центра обработки вызовов. После расшифровки данных компания может использовать выходные данные для таких целей, как улучшенная телеметрия, определение ключевых фраз или анализ настроений клиентов.

Описанные на этой странице технологии используются корпорацией Майкрософт в режиме реального времени в пакетном режиме для внутренних задач, в том числе для разных служб обработки вызовов.

Давайте рассмотрим некоторые технологии и связанные с ними функции, которые предлагает Служба «Речь».

Важно!

Единая модель Служб «Речь» обучается с использованием разнообразных данных и предлагает решение на основе одной модели для ряда сценариев от диктовки до аналитики телефонии.

Технологии Azure для центров обработки вызовов

Помимо функционального аспекта функций Службы «Речь», их основная цель — применительно к центру обработки вызовов — заключается в улучшении качества обслуживания клиентов. Эту задачу можно разделить на три направления:

  • Аналитика после вызова, которая фактически представляет собой пакетную обработку записей разговоров после вызова.
  • Аналитика в реальном времени, которая представляет собой обработку аудиосигнала для извлечения различных сведений о том, как происходит вызов (при этом наиболее заметным вариантом использования является тональность).
  • Голосовые помощники (боты), либо управляющие диалогом между клиентом и ботом в попытке решить проблему клиента без участия агента, либо использующие протоколы искусственного интеллекта (AI) для помощи агенту.

На рисунке ниже показана типичная архитектура для сценария пакетной обработки

Компоненты технологий для аналитики речи

Azure предлагает набор проверенных временем и новых технологий, которые позволяют улучшить обслуживание клиентов в формате постобработки и режиме реального времени.

Преобразование речи в текст

Преобразование речи в текст является самой популярной функцией в любом центре обработки вызовов. Многие из подчиненных аналитических процессов зависят от расшифрованного текста, поэтому вероятность ошибок в кодовой комбинации (WER) является важнейшим показателем. Основные проблемы при транскрибировании телефонных вызовов — это шум в центрах обработки вызовов (например, фоновая речь операторов), разнообразие языковых стандартов и диалектов, а также низкое качество телефонного сигнала. Показатель вероятности ошибок тесно связан с тем, насколько хорошо акустические и языковые модели обучены для данного региона, поэтому важна возможность настройки модели для вашего региона. Новейшие единые модели версии 4.x позволяют добиться одновременно высокой точности транскрибирования и низкой задержки. Так как обучение единых моделей для транскрибирования данных центров обработки вызовов выполняется на десятках тысяч часов акустических данных и миллиардах единиц лексических данных, такие модели являются самыми точными из представленных на рынке.

Мнение

Оценка удовлетворенности клиентов центров обработки вызовов — одна из важнейших задач речевой аналитики. Наш API пакетного транскрибирования позволяет выполнять анализ тональности каждого речевого фрагмента. Вы можете объединить набор значений, полученных в расшифровке, чтобы оценить тональность речи операторов и клиентов в ходе разговора.

Тишина (отсутствие разговора)

Как правило, при вызовах в службу обработки около 35 % занимает время без разговоров. Вот несколько примеров таких ситуаций: оператор ищет данные об истории взаимодействия с клиентом, оператор использует средства доступа к компьютеру клиента для выполнения определенных задач, клиент ожидает переключения на другого оператора. Чрезвычайно важно определить, когда во время разговора возникают паузы, поскольку существует ряд важных моментов, из-за которых клиенты могут обидеться и которые возникают в таких типах сценариев. Такие моменты во время разговора нужно фиксировать.

Перевод

Некоторые компании передают соответствующим менеджерам переведенные с других языков расшифровки разговоров, чтобы они лучше понимали специфику работы с клиентами во всем мире. Мы предлагаем непревзойденные средства для перевода. Мы можем переводить аудио в аудио или аудио в текст для большого количества языков.

Преобразование текста в речь

Преобразование текста в речь – еще один важный аспект реализации бота, который взаимодействует с клиентами. Типичный рабочий процесс выглядит так: клиент произносит фразы, его голос транскрибируется в текст, по нему выполняется анализ намерений, на основе распознанных намерений синтезируется ответ, а затем клиенту предоставляется нужный ресурс или синтезированный голосовой ответ. Конечно, все это должно происходить быстро, следовательно, низкая задержка будет еще одним важным фактором, определяющим успешность работы такой системы.

Наша сквозная задержка достаточно мала для различных задействованных технологий, таких как преобразование речи в текст, LUIS, Bot Framework, преобразование текста в речь.

Наши новые голоса неотличимы от человеческих. Вы можете использовать их, чтобы придать своему боту уникальную индивидуальность.

Поиск

Еще одно важное применение аналитики — определение взаимодействий во время возникновения событий или действий. Обычно для этого применяется один из следующих двух подходов: автоматизированный поиск, когда пользователь просто вводит фразы и система реагирует на них, или структурированный обращение, когда аналитик может определить сценарий с помощью набора логических операторов, чтобы каждый вызов индексировался по этому набору запросов. Хорошим примером поиска будет широко распространенное стандартное заявление («Этот вызов будет записан для контроля качества…»). Многие компании хотят быть уверенными, что их операторы предоставят клиентам этот отказ от ответственности до того, как звонок будет фактически записан. Большинство аналитических систем умеют отслеживать тенденции в поведении, обнаруженные алгоритмами поиска или запроса. Возможность создания отчетов о таких тенденциях считается одной из наиболее важных функций таких систем. Используя каталог Cognitive Services, вы можете значительно расширить свое комплексное решение функциями индексирования и поиска.

Извлечение ключевых фраз

Это одна из самых сложных задач для аналитических приложений, и именно здесь наибольшую пользу приносят искусственный интеллект и машинное обучение. В этом случае основным сценарием является определение намерения клиента. Для чего этот клиент позвонил? Какая у него возникла проблема? Почему этот клиент недоволен? Наша служба анализа текста предоставляет набор готовых аналитических средств, позволяя быстро включить в ваше комплексное решение функции для извлечения важных ключевых слов или фраз.

Теперь мы более подробно рассмотрим операции пакетной обработки и конвейеры распознавания речи в реальном времени.

Пакетное транскрибирование данных центра обработки вызовов

Для транскрибирования больших объемов аудиоданных мы разработали API пакетного транскрибирования. API пакетного транскрибирования разработан для асинхронного транскрибирования больших объемов аудиоданных. При транскрибировании данных центров обработки вызовов наше решение учитывает следующие аспекты:

  • Точность — модели Unified четвертого поколения обеспечивают непревзойденное качество транскрибирования.
  • Задержка — мы понимаем, что при транскрибировании даже очень больших объемов результат нужно получить быстро. Задания транскрибирования, инициированные через API пакетного транскрибирования, помещаются в очередь немедленно. При запуске выполнения задания транскрибирование выполняется быстрее, чем в реальном времени.
  • Безопасность — мы понимаем, что вызовы могут содержать конфиденциальные данные. Но не беспокойтесь — безопасность для нас является одним из главных приоритетов. Наша служба получила сертификаты ISO, SOC, HIPAA и PCI.

Центры обработки вызовов ежедневно генерируют большие объемы аудиоданных. Если ваша организация хранит данные телефонии в центральном расположении, например службе хранилища Azure, вы можете использовать API пакетного транскрибирования для асинхронной отправки запросов и получения расшифровок.

Стандартное решение использует следующие службы:

  • Служба «Речь» используется для преобразования речи в текст. Для использования API пакетного транскрибирования требуется стандартная подписка (S0) для Служб «Речь». Бесплатная подписка (F0) не подходит.
  • Служба хранилища Azure используется для хранения данных телефонии и расшифровок, полученных от API пакетного транскрибирования. В этой учетной записи хранения следует настроить уведомления, в частности для активации при добавлении новых файлов. Эти уведомления используются для активации процесса транскрибирования.
  • Функции Azure используются, чтобы создать подписанный URL-адрес (SAS) для каждой записи и отправить запрос HTTP POST для запуска транскрибирования. Кроме того, с помощью Функций Azure создаются запросы на получение и удаление расшифровок через API пакетного транскрибирования.

Корпорация Майкрософт применяет перечисленные выше технологии для внутренних целей, в частности для пакетной обработки вызовов в службу обработки.

Транскрибирование данных центра обработки вызовов в реальном времени

Некоторым компаниям нужно транскрибировать разговоры в реальном времени. Эта технология позволяет обнаруживать ключевые слова и активировать поиск содержимого и ресурсов, имеющих отношение к активном диалогу, отслеживать тональность разговора, оптимизировать специальные возможности, а также предоставлять переводы для клиентов, которые не являются носителями языка.

Если ваш режим использования требует обработки в реальном времени, мы рекомендуем использовать Пакет SDK «Речь». Сейчас преобразование речи в текст доступно на более чем 20 языках, а пакет SDK предоставляется для C++, C#, Java, Python, JavaScript, Objective-C и Go. Примеры для каждого языка вы найдете на сайте GitHub. Последние новости и обновления см. в заметках о выпуске.

Внутри компании мы используем вышеуказанные технологии для анализа звонков клиентов Майкрософт в реальном времени по мере их поступления, как показано на следующей диаграмме.

Системы интерактивного речевого ответа

Службы речи можно легко интегрировать в любое решение с помощью пакета SDK «Речь» или REST API. Но для транскрибирования вызовов в центр обработки могут потребоваться дополнительные технологии. Обычно система интерактивного речевого ответа должна быть подключена к Azure. Хотя мы не предлагаем такие компоненты, вот описание того, что влечет за собой подключение к службе интерактивного речевого ответа.

Некоторые продукты с функцией интерактивного речевого ответа или службы телефонии (например, Genesys и AudioCodes) поддерживают интеграцию со службой Azure для передачи входящих и исходящих аудиоданных. В самом простом сценарии пользовательская служба Azure предоставляет интерфейс для определения сеансов телефонных вызовов (выделяя начало и завершение разговора) и API WebSocket для получения входящего потока аудио, который затем используется со Службами «Речь». Исходящие ответы, например транскрибирование бесед или подключения к Bot Framework, можно синтезировать с помощью службы преобразования текста в речь от Майкрософт и отправить в систему интерактивного речевого ответа для воспроизведения.

Другой сценарий — это прямая интеграция с протоколом SIP. Служба Azure подключается к серверу SIP, чтобы получить входящий и исходящий потоки, которые используются на этапах преобразования речи в текст и текста в речь. Подключиться к серверу SIP можно с помощью нескольких коммерческих программных предложений, например Ozeki SDK или API конференц-связи и собраний Teams (сейчас предоставляется в бета-версии). Все они поддерживают этот сценарий для голосовых вызовов.

Персонализация существующих взаимодействий

Служба «Речь» хорошо работает со встроенными моделями. Однако может потребоваться дополнительно настроить взаимодействие с вашим продуктом или средой. Диапазон параметров настройки варьируется от настройки акустической модели до уникальных голосовых шрифтов вашего бренда. После создания пользовательской модели ее можно использовать с любыми функциями Службы «Речь» в режиме реального времени или в пакетном режиме.

Служба РечьМоделированиеОписание
Преобразование речи в текстАкустическая модельСоздайте пользовательскую акустическую модель для приложений, инструментов или устройств, которые используются в определенных условиях, например, в автомобиле или в заводском цехе, для каждого из которых характерны определенные условия записи. В качестве примера можно привести речь с акцентом, наличие фонового шума или использование определенного микрофона для записи.
Языковая модельСоздайте пользовательскую языковую модель для улучшения транскрибирования специализированных слов и грамматических конструкций, включая медицинскую терминологию и IT-жаргон.
Модель произношенияС помощью пользовательской модели произношения можно определить фонетическую форму и отображение для слова или термина. Это удобно для обработки настраиваемых терминов, например имен продуктов или аббревиатур. Все, что требуется для начала работы — это файл с записями произношения .txt.
Преобразование текста в речьНастраиваемый голосПользовательские голосовые модели позволяют создать узнаваемый, единственный в своем роде голос для вашего бренда. Чтобы приступить к работе, потребуется небольшой объем данных. Чем больше данных вы предоставите, тем более естественной и человекоподобной будет ваша голосовая модель.

Пример кода

Пример кода доступен на GitHub для каждой из функций Службы «Речь». В этих примерах рассматриваются сценарии общего характера, такие как чтение аудио из файла или потока, непрерывное и одиночное распознавание, а также работа с пользовательскими моделями. Используйте эти ссылки, чтобы просмотреть примеры для пакета SDK и REST:

Справочная документация

Дальнейшие действия

Транскрипция и транскрибация в Москве

Постоянно развивающийся технический прогресс в свое время заменил живопись фотографией, прослушивание живой музыки магнитными, а позже и цифровыми записями. И даже письма, написанные от руки – уже редкость, затерявшаяся в миллионах «мейлов». Но в нашем динамичном мире не все получается заменить работой машин, аппаратов и компьютеров. Иногда человеческую работу не может выполнить никакой механизм. В частности воспринимать на слух речь и воплощать ее в текст на бумаге пока что не умеет ни одна машина. Поэтому транскрибация (а именно так и называется перевод аудио- или видео записей в текст) как вид работы пользуется сегодня большим спросом.

Что и зачем? Не спешите путать термин «транскрибация» с созвучной, например, «транскрипцией». Транскрипция – хоть и является также письменным воспроизведением слов, направлена на пояснение звучания каждого конкретного звука в слове. То есть задача транскрипции – обеспечить правильно чтение слова (зачастую, иностранного), передав графически запись его звучания для правильности произношения. А вот транскрибация – более обширный процесс, буквально означающий запись воспринимаемого на слух текста.

В последнее время транскрибация аудио в текст пользуется большой популярностью у людей, проводящих всевозможные семинары и вебинары. Удобно, правильно и эффективно, когда информация, выданная и полученная на них, имеет еще и текстовую интерпретацию. Кому-то это может понадобиться для научных работ, а кто-то воспринимает написанную или напечатанную информацию лучше, чем услышанную. С точки зрения контента информация, прошедшая такую обработку и воплотившаяся в текст, является уникальной, а значит и востребованной на просторах Интернета. Поэтому довольно часто на сайтах фрилансеров можно встретить предложения работы, в которых просят перевести в текстовый файл аудиозапись лекции, семинара, конференции и т.д.

Транскрибация аудио или видео файлов активно используется журналистами, в частности, когда они обрабатывают записанное в звуковом формате интервью. К ней прибегают авторы, когда начитывают свой текст на диктофон, а позже поручают сделать транскрибацию специалистам, чтобы получить непосредственно текст будущей книги.

Как?

Транскрибация имеет несколько видов:

  • Дословный перевод текста со всеми звуками и междометиями говорящего
  • Перевод с небольшими исправлениями – когда убирают повторяющиеся слова-паразиты, не несущие смысловую нагрузку связки и заменяют жаргон более литературными словами
  • Литературный перевод – подразумевает стилистические исправления, вплоть до изменения предложений, их последовательности, оформление текста в разделы и подзаголовки.

Вакансия переводчика «из звука в текст» востребована, однако требует определенных навыков, умений и способностей.

  1. Прежде всего, нужно овладеть быстрым набором текста. И лучше вслепую.
  2. Уметь исправлять стилистические ошибки, в совершенстве владеть языком и, безусловно, быть грамотным с точки зрения орфографии и пунктуации.
  3. Воспринимать на слух значительные объемы информации, чтобы не делать слишком частых пауз для записи по три-четыре слова.

Как видите, труд весьма кропотливый. И выполнить его может только грамотный профессионал, обладающий знаниями. А пока не будет изобретена идеальная программа-анализатор для транскрибации, только человек сможет справиться с этой пусть и механической, но такой необходимой работой.

Значение, Определение, Предложения . Что такое транскрибировать

Пользователь транскрибировал его, но я прокомментировал его / ее выступление, и было решено закрыть его, поэтому я не стал транскрибировать.
Возможно ли для нас перейти на подстраницы и транскрибировать их вместо существующей системы, в которой каждый вопрос является просто разделом страницы?
Чтобы начать транскрибировать ген, РНК-полимераза связывается с последовательностью ДНК, называемой промотором, и отделяет нити ДНК.
Затем полимеразы могут считывать и” транскрибировать код РНК для синтеза мессенджерной РНК, или мРНК.
РНК-полимераза может свободно продолжать транскрибировать весь оперон.
Другие результаты
Записная книжка зафиксировала, транскрибировала и перевела на японский язык путаные, невнятные объяснения.
Когда пре-мРНК была транскрибирована из ДНК, она включает в себя несколько интронов и экзонов.
Поэтому остальная часть оперона будет транскрибирована и переведена, так что триптофан может быть произведен.
По состоянию на 2008 год она также разрабатывала несколько курсов для студентов в Беркли, в том числе один для изучения гармонии и теории через транскрибирование.
Добросовестный перевод исходного материала на английский язык или транскрибирование произнесенных слов из аудио или видео источников не считается оригинальным исследованием.
Псевдоген может быть получен, когда кодирующий ген накапливает мутации, которые препятствуют его транскрибированию, делая его нефункциональным.
Это компания судебных стенографистов, нанятая для транскрибирования свидетельских показаний.
Система счисления Нэшвилла — это метод транскрибирования музыки путем обозначения степени шкалы, на которой строится аккорд.
Написание китайских географических или личных имен в пиньине стало самым распространенным способом их транскрибирования на английском языке.
Входные последовательности для сборки EST являются фрагментами транскрибированной мРНК клетки и представляют собой только подмножество всего генома.
Единственная роль наночастиц заключается в подавлении материнской транскрибированной горбатой мРНК в задней части тела.
Редирект — это всего лишь ISBN; имена шаблонов, транскрибированные в статьях, должны давать некоторый намек на то, о чем они говорят.
Редирект — это всего лишь ISBN; имена шаблонов, транскрибированные в статьях, должны давать некоторый намек на то, о чем они говорят.
Редирект — это всего лишь ISBN; имена шаблонов, транскрибированные в статьях, должны давать некоторый намек на то, о чем они говорят.
Ретротранспозоны могут быть транскрибированы в РНК, которые затем дублируются в другом месте генома.
Это делает ДНК в хроматине доступной для транскрипционных факторов, позволяя генам транскрибироваться и экспрессироваться в клетке.
У дрожжей и млекопитающих метилирование h4K36 сильно обогащено в организме высоко транскрибируемыми генами.
Переход между средними бластулами также характеризуется заметным увеличением транскрипции новых, не материнских мРНК, транскрибируемых из генома организма.
Гистон h4. 3 связан с организмом активно транскрибируемых генов.
У млекопитающих Домены DNMT3a и DNMT3b PWWP связываются с h4K36me3, и эти два фермента рекрутируются в организм активно транскрибируемых генов.
h4K27me1 связан с продвижением транскрипции и, как видно, накапливается в транскрибируемых генах.
Как один из транскрибируемых генов, Wnts, секретируемые из эпителиальных клеток молочной железы, действуют паракринно, вызывая ветвление большего числа соседних клеток.
Каждую неделю она транскрибирует интервью с Фэй, перерабатывает в главы книги и отправляет их мне на почту.
На первом этапе сборки рибосомы белок под названием РНК-полимераза I транскрибирует рДНК, которая образует большой предшественник пре-рРНК.
Когда РНК-полимераза связывает и транскрибирует ген trp, рибосома начинает переводить.

Транскрибация – как вид бизнеса в интернете

На первый взгляд, это название вида заработка ничего нам не говорит. Название непонятное и не знакомое. Многим это название может показаться весьма сложным для понимания. Но как говорится в народе, «не так страшен черт, как его рисуют».

Поэтому, когда расшифруете это слово, то поймете, что под этим названием стоит весьма привлекательный бизнес, позволяющий зарабатывать неплохие деньги для себя и своей семьи.

Что такое транскрибация?

Транскрибация обозначает работу по преобразованию аудио или видеоматериалов в текстовый читаемый формат. Имеет применение для расшифровки различных лекций, семинаров и вебинаров. Имеются следующие методы выполнения работ с применением транскрибации:

  • Подробный метод, где преобразование поступившего произведения производится точно с оригиналом, но в текстовом формате.
  • Художественный метод, где главным требованием является сохранение смысловой нагрузки произведения, но с возможностью замены слов и словоформ, с применением различных методик, позволяющих передавать чувства и эмоции через текст.

Это, практически, похоже на рерайтинг или копирайтинг. Такой же творческий процесс, требующий упорства, усидчивости и терпения, а также умения писать грамотным языком и быстро набирать текст.

♦ Потребность в этой работе большая. Многие компании проводящие семинары, нуждаются в этой работе, а также некоторые творческие личности, проводящие вебинары, да и просто люди, снимающие фильм и желающие дать текстовое сопровождение к нему. А это все потенциальные покупатели.

Какая возможность заработка в этом бизнесе?

Для того, чтобы организовать бизнес и начать работу в нем, не нужно никаких денежных вложений и каких-то особенных знаний. Достаточно уметь грамотно и бегло набирать текст.

Но для того, чтобы получить определенный доход, нужна четкая целенаправленность для достижения цели, упорство и большое терпение, а также нужно иметь большую усидчивость.

♦ Эффективность работы в этом бизнесе будет, в основном, зависеть от того, насколько правильно будет подобран подход к нему.

Расширьте свой бизнес и зарабатывайте больше

Начав работать в транскрибации и получив некоторые успехи в этом направлении, можно расширить свой бизнес, для чего необходимо организовать небольшую компанию, которая также будет заниматься преобразованием видео или аудиоматериалов в текстовый формат.

Но для того, чтобы стать известным большему кругу заказчиков, необходимо создать сайт и организовать хорошую рекламную компанию. Это очень хорошая перспектива, так как спрос на эту работу по преобразованию этих материалов очень высок.

Ручной режим или программы? Что выбрать?

Хотя уже появляются некоторые программы по преобразованию аудио и видеоматериалов в текстовые, но они пока весьма далеки от требований, предъявляемых заказчиками. Так, что пока выполнять работы по преобразованию приходится в ручном режиме. Ведь только человек может мыслить и правильно проводить расшифровку предоставленного материала, да так, чтобы запись была выполнена грамотно и стилистически верно.

Для этого работник должен обладать хорошей оперативной памятью и мог быстро производить набор необходимого текста. Заработок напрямую зависит от объема выполненной работы. Невзирая на определенные указанные выше трудности, этот бизнес считается доходным и доступным каждому человеку, желающему заработать в интернете.

Как обеспечить свой бизнес заказами?

Для решения этого вопроса необходимо постоянно бывать на различных форумах фрилансеров, где всегда можно получить интересующий заказ на транскрибацию. Желательно зондировать различные сайты-биржи, где также можно получить заказы.

Хотя набрать заказы — это еще полдела. Необходимо выполнить их с достаточным качеством, чтобы в дальнейшем заказчик всегда обращался к вам, и ваш портфель заказов постоянно был полным.

Если следующие 5 минут вы можете в  самообразование, то переходите по ссылке и читайте следующую нашу статью: Сколько зарабатывает копирайтер в интернете?


[ninja-inline id=3280]

Понравилось? Жми «Мне Нравится«
Оставьте комментарий к этой статье ниже

Транскрипция

Транскрипция — это процесс синтеза молекулы РНК на участке ДНК, используемом в качестве матрицы. Смысл транскрипции заключается в переносе генетической информации с ДНК на РНК.

Молекула ДНК состоит из двух комплиментарных друг другу цепей, а РНК — только из одной. При транскрипции матрицей для синтеза РНК служит только одна из цепей ДНК. Ее называют смысловой цепью. Исключением является митохондриальная ДНК, в которой обе цепи являются смысловыми и содержат разные гены. Также как исключение на ядерной ДНК некоторые гены могут быть локализованы на несмысловой цепи.

При транскрипции молекула РНК синтезируется в направлении от 5′ к 3′ концу (что естественно для синтеза всех нуклеиновых кислот), при этом по цепи ДНК синтез идет в обратном направлении: 3’→5′.

У эукариот каждый ген транскрибируется отдельно. Исключение опять же представляет митохондриальная ДНК, которая транскибируется на общий мультигенный транскрипт, который затем разрезается. Так как у прокариот гены образуют группы, формируя один оперон, то такие гены транскрибируются вместе. В любом случае транскриптоном называют участок ДНК, состоящий из промотора, транскрибируемого участка и терминатора.

В транскрипции выделяют 3 стадии: инициация, элонгация, терминация.

Инициация транскрипции позволяет начаться синтезу молекулы РНК. Инициация включает присоединение к промотору комплекса ферментов. Главным из них является РНК-полимераза (в данном случае ДНК-зависимая), которая, в свою очередь, состоит из нескольких белков-субъединиц и играет роль катализатора процесса. У эукариот на инициацию транскрипции влияют особые участки ДНК: энхансеры (усиливают) и сайленсеры (подвляют), которые обычно удаленные на некоторое расстояние от самого гена. Существуют различные белковые факторы, влияющие на возможность инициации транскрипции.

У прокариот имеется только один тип РНК-полимеразы, в то время как у эукариот их три. РНК-полимераза-1 используется для синтеза трех видов рибосомальной РНК (всего существует 4 вида рРНК). РНК-полимераза-2 используется для синтеза пре-иРНК (предшественника информационной) РНК. РНК-полимераза-3 синтезирует один из видов рибосомальной РНК, транспортную и малую ядерную.

РНК-полимераза способна распознавать определенные последовательности нуклеотидов и прикрепляется к ним. Эти последовательности короткие и универсальные для всего живого.

После того, как РНК-полимераза присоединяется к промотору, участок двойной спирали ДНК раскручивается и между цепочками этого участка разрываются нуклеотидные связи. Расплетается примерно 18 пар нуклеотидов.

На стадии элонгации происходит последовательное присоединение по принципу комплиментарности свободных нуклеотидов к освобожденному участку ДНК. РНК-полимераза соединяет нуклеотиды в полирибонуклеотидную цепочку.

При синтезе РНК около 12 ее нуклеотидов комплементарно временно связаны с нуклеотидами ДНК. При движении РНК-полимеразы впереди нее цепочки ДНК расходятся, а сзади «сшиваются» с помощью ферментов. Цепь РНК постепенно растет и выдвигается из комплекса РНК-полимеразы.

Существуют элонгирующие факторы, препятствующие преждевременной остановки транскрипции.

Терминация процесса транскрипции происходит в участке-терминаторе, который распознается РНК-полимеразой благодаря специальным белковым факторам терминации.

К 3′-концу синтезированной молекулы РНК присоединяется множество адениновых нуклеотидов (поли-А) для предотвращения ее ферментативного распада. Еще ранее, когда был синтезирован 5′-конец, на нем был образован так называемый кэп.

В большинстве случаев в результате транскрипции не получается готовая РНК. «Сырая» РНК должна еще пройти процесс процессинга, при котором происходят ее модификационные изменения и она становится функционально активной. Каждый тип РНК эукариот подвергается своим модификациям. Формирование поли-А и кэпа часто также относят к процессингу.

Microsoft научила Word расшифровывать речь и аудиозаписи. Но есть нюансы

Компания Microsoft объявила о запуске функции расшифровки аудиозаписей в веб-версии приложения Word под названием Transcribe. С помощью неё пользователи могут записывать разговоры в приложении или загружать собственные файлы для последующего автоматического транскрибования. Поддерживается загрузка файлов в форматах mp3, wav, m4a и mp4.

Данный инструмент позволяет осуществлять расшифровку разговоров в режиме онлайн или же ранее сохранённые аудиофайлы. Полученный в результате текст можно тут же редактировать и добавлять в документы. Для начала использования функции достаточно нажать кнопку «Диктовать» в строке меню, а затем выбрать пункт контекстного меню «Транскрибировать». Это же меню позволяет записать разговор с помощью микрофона, используемого на вашем компьютере.

Во время взаимодействия с инструментом расшифровки можно переключаться между абзацами полученного текста, переходить к разным фрагментам аудиозаписи, прослушивая их на разной скорости. Поскольку автоматическая расшифровка аудио неизбежно содержит ошибки, функция проверки отдельных частей текста имеет большое значение.

На данном этапе имеются некоторые ограничения на использование службы расшифровки. Например, пользователи могут загружать в месяц не более пяти часов аудиозаписей для транскрибирования. Причём за отдельную плату снять это ограничение пока нельзя. Что касается размера загружаемых записей, то поддерживается обработка файлов до 200 Мбайт. В настоящее время транскрибировать файлы можно в веб-версии Word для компьютеров, а к концу этого года функция должна стать доступна пользователям мобильного приложения. Стоит также отметить, что на данном этапе инструмент расшифровки может обрабатывать записи на английском языке, но, очевидно, что в будущем поддержка других языков будет добавлена.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Транскрипция

РНК | Микробиология

Цели обучения

  • Объясните, как синтезируется РНК с использованием ДНК в качестве матрицы
  • Различать транскрипцию у прокариот и эукариот

В процессе транскрипции информация, закодированная в последовательности ДНК одного или нескольких генов, транскрибируется в цепь РНК, также называемую транскриптом РНК . Полученная одноцепочечная молекула РНК, состоящая из рибонуклеотидов, содержащих основания аденин (A), цитозин (C), гуанин (G) и урацил (U), действует как мобильная молекулярная копия исходной последовательности ДНК.Транскрипция у прокариот и эукариот требует, чтобы двойная спираль ДНК частично раскручивалась в области синтеза РНК. Развернутая область называется пузырем транскрипции . Транскрипция определенного гена всегда происходит от одной из двух цепей ДНК, которая действует как матрица, так называемой антисмысловой цепи . Продукт РНК комплементарен матричной цепи ДНК и почти идентичен нетемплатной цепи ДНК или смысловой цепи .Единственное отличие состоит в том, что в РНК все нуклеотиды Т заменены на нуклеотиды U; во время синтеза РНК U включается, когда в комплементарной антисмысловой цепи присутствует A.

Транскрипция бактерий

Бактерии используют одну и ту же РНК-полимеразу для транскрипции всех своих генов. Подобно ДНК-полимеразе, РНК-полимераза добавляет нуклеотиды один за другим к 3′-ОН группе растущей нуклеотидной цепи. Одним из критических различий в активности между ДНК-полимеразой и РНК-полимеразой является потребность в 3′-ОН, к которому можно добавить нуклеотиды: ДНК-полимеразе требуется такая 3′-ОН группа, что требует праймера, тогда как РНК-полимеразы нет.Во время транскрипции рибонуклеотид, комплементарный цепи матрицы ДНК, добавляется к растущей цепи РНК, и ковалентная фосфодиэфирная связь образуется путем синтеза дегидратации между новым нуклеотидом и последним добавленным нуклеотидом. В E. coli РНК-полимераза состоит из шести полипептидных субъединиц, пять из которых составляют основной фермент полимеразы, ответственный за добавление нуклеотидов РНК к растущей цепи. Шестая субъединица известна как сигма (σ). Фактор σ позволяет РНК-полимеразе связываться со специфическим промотором, тем самым обеспечивая транскрипцию различных генов.Существуют различные σ-факторы, которые позволяют транскрипцию различных генов.

Инициирование

Инициирование транскрипции начинается с промотора , последовательности ДНК, с которой связывается аппарат транскрипции и инициирует транскрипцию. Нуклеотидная пара в двойной спирали ДНК, которая соответствует сайту, из которого транскрибируется первый 5′-нуклеотид РНК, является сайтом инициации. Нуклеотиды, предшествующие сайту инициации, обозначены как «вышестоящие», тогда как нуклеотиды, следующие за сайтом инициации, называются «нижележащими» нуклеотидами.В большинстве случаев промоторы расположены непосредственно перед генами, которые они регулируют. Хотя промоторные последовательности различаются в зависимости от бактериального генома, некоторые элементы сохраняются. В положениях –10 и –35 внутри ДНК перед сайтом инициации (обозначенным +1) есть две консенсусные последовательности промоторов или области, которые схожи для всех промоторов и у разных видов бактерий. Консенсусная последовательность –10, называемая блоком TATA , является TATAAT. Последовательность –35 распознается и связывается с σ.

Удлинение

Элонгация в фазе транскрипции начинается, когда σ-субъединица диссоциирует от полимеразы, позволяя коровому ферменту синтезировать РНК, комплементарную матрице ДНК, в направлении от 5 ‘к 3’ со скоростью примерно 40 нуклеотидов в секунду. По мере удлинения ДНК непрерывно разматывается перед основным ферментом и снова наматывается за ним (рис. 1).

Рис. 1. Во время элонгации бактериальная РНК-полимераза отслеживает ДНК-матрицу, синтезирует мРНК в направлении от 5 ‘к 3’ и раскручивает и перематывает ДНК по мере ее считывания.

Прекращение действия

После того, как ген транскрибируется, бактериальная полимераза должна отделиться от матрицы ДНК и высвободить вновь образованную РНК. Это называется прекращением транскрипции . Матрица ДНК включает повторяющиеся нуклеотидные последовательности, которые действуют как сигналы терминации, заставляя РНК-полимеразу останавливаться и высвобождаться из матрицы ДНК, высвобождая транскрипт РНК.

Подумай об этом

  • Где σ-фактор РНК-полимеразы связывает ДНК, чтобы начать транскрипцию?
  • Что происходит, чтобы инициировать полимеризационную активность РНК-полимеразы?
  • Откуда исходит сигнал об окончании транскрипции?

Транскрипция в эукариотах

Прокариоты и эукариоты выполняют в основном одинаковый процесс транскрипции с некоторыми существенными различиями (см. Таблицу 1).Эукариоты используют три различных полимеразы, РНК-полимеразы I, II и III, все структурно отличные от бактериальной РНК-полимеразы . Каждый транскрибирует разные подмножества генов. Интересно, что архей содержат единственную РНК-полимеразу, которая более близка к эукариотической РНК-полимеразе II, чем к ее бактериальному аналогу. Эукариотические мРНК также обычно являются моноцистронными, что означает, что каждая из них кодирует только один полипептид, тогда как прокариотические мРНК бактерий и архей обычно являются полицистронными , что означает, что они кодируют несколько полипептидов.

Наиболее важным различием между прокариотами и эукариотами является мембраносвязанное ядро ​​последних, которое влияет на простоту использования молекул РНК для синтеза белка. Когда гены связаны в ядре, эукариотическая клетка должна транспортировать кодирующие белок молекулы РНК в цитоплазму для трансляции. Кодирующие белок первичные транскрипты , молекулы РНК, непосредственно синтезируемые РНК-полимеразой, должны пройти несколько этапов процессинга, чтобы защитить эти молекулы РНК от деградации в течение времени, когда они переносятся из ядра в цитоплазму и транслируются в белок.Например, мРНК эукариот может длиться несколько часов, тогда как типичная мРНК прокариот длится не более 5 секунд.

Первичный транскрипт (также называемый пре-мРНК) сначала покрывается РНК-стабилизирующими белками, чтобы защитить его от деградации, пока он обрабатывается и экспортируется из ядра. Обработка первого типа начинается, пока синтезируется первичная расшифровка; специальный 7-метилгуанозиновый нуклеотид, называемый 5′-кэп , добавляется к 5′-концу растущего транскрипта.Помимо предотвращения деградации, факторы, участвующие в последующем синтезе белка, распознают кэп, что помогает инициировать трансляцию рибосомами. После завершения удлинения другой процессирующий фермент затем добавляет цепочку из примерно 200 адениновых нуклеотидов к 3′-концу, называемую хвостом поли-А . Эта модификация дополнительно защищает пре-мРНК от деградации и сигналов клеточным факторам о том, что транскрипт необходимо экспортировать в цитоплазму.

Эукариотические гены, кодирующие полипептиды, состоят из кодирующих последовательностей, называемых экзонами ( ex -on означает, что они сжаты ex ) и промежуточных последовательностей, называемых интронами ( int -ron обозначает их исходную роль int ).Транскрибируемые последовательности РНК, соответствующие интронам, не кодируют участки функционального полипептида и удаляются из пре-мРНК во время процессинга. Важно, чтобы все последовательности РНК, кодируемые интроном, были полностью и точно удалены из пре-мРНК перед синтезом белка, чтобы последовательности, кодируемые экзонами, были правильно соединены вместе для кодирования функционального полипептида. Если процесс ошибается даже на один нуклеотид, последовательности воссоединенных экзонов будут сдвинуты, и полученный полипептид окажется нефункциональным.Процесс удаления последовательностей РНК, кодируемых интроном, и воссоединения последовательностей, кодируемых экзонами, называется сплайсингом РНК и облегчается действием сплайсосомы , содержащей малые ядерные рибонуклеопротеины (мяРНП). Последовательности РНК, кодируемые интроном, удаляются из пре-мРНК, пока она еще находится в ядре. Хотя они не транслируются, интроны, по-видимому, выполняют различные функции, включая регуляцию генов и транспорт мРНК. По завершении этих модификаций зрелый транскрипт , мРНК, кодирующая полипептид, транспортируется из ядра и направляется в цитоплазму для трансляции.Интроны можно сплайсировать по-разному, в результате чего различные экзоны включаются или исключаются из конечного продукта мРНК. Этот процесс известен как альтернативное сращивание . Преимущество альтернативного сплайсинга заключается в том, что могут быть созданы различные типы транскриптов мРНК, все из которых происходят из одной и той же последовательности ДНК. В последние годы было показано, что некоторые археи также обладают способностью сплайсировать свою пре-мРНК.

Таблица 1. Сравнение транскрипции у бактерий и эукариот
Имущество Бактерии Эукариоты
Количество полипептидов, кодируемых на мРНК Моноцистронный или полицистронный Исключительно моноцистроник
Удлинение прядей ядро ​​+ σ = холоэнзим РНК-полимеразы I, II или III
Добавление 5-дюймовой крышки Есть
Добавление 3 ‘хвоста поли-А Есть
Сплайсинг пре-мРНК Есть

Визуализируйте, как происходит сплайсинг мРНК, наблюдая за процессом в этом видео.

Посмотрите, как удаляются интроны во время сплайсинга РНК.

Подумай об этом

  • В эукариотических клетках, как транскрипт РНК из гена белка изменяется после его транскрипции?
  • Содержат ли экзоны или интроны информацию о белковых последовательностях?

Клиническая направленность: Трэвис, часть 2

Этот пример продолжает историю Трэвиса, начатую в книге «Функции генетического материала».

В отделении неотложной помощи медсестра сказала Трэвису, что он принял правильное решение поехать в больницу, потому что его симптомы указывают на инфекцию, которая вышла из-под контроля.Симптомы Трэвиса прогрессировали, пораженный участок кожи и опухоль увеличивались. Внутри пораженного участка появилась сыпь, образовались пузыри и небольшие газовые карманы под самым внешним слоем кожи, и некоторые участки кожи стали серыми. Учитывая гнилостный запах гноя, вытекающего из одного из пузырей, быстрое прогрессирование инфекции и внешний вид пораженной кожи, врач немедленно начал лечение некротического фасциита.Врач Трэвиса назначил посев жидкости, вытекающей из волдыря, а также назначил анализ крови, в том числе количество лейкоцитов.

Трэвис был помещен в отделение интенсивной терапии и начал внутривенное введение антибиотика широкого спектра действия, чтобы попытаться минимизировать дальнейшее распространение инфекции. Несмотря на лечение антибиотиками, состояние Трэвиса быстро ухудшилось. Трэвис смутился, и у него закружилась голова. В течение нескольких часов после госпитализации у него значительно упало артериальное давление, а дыхание стало более поверхностным и учащенным.Вдобавок волдыри увеличивались, волдыри становились пурпурно-черными, а сама рана, казалось, быстро прогрессировала вверх по ноге Трэвиса.

  • Какие возможные возбудители некротического фасциита Трэвиса?
  • Каковы возможные объяснения того, почему лечение антибиотиками не работает?

Мы вернемся к примеру Трэвиса на следующих страницах.

Ключевые концепции и резюме

  • Во время транскрипции информация, закодированная в ДНК, используется для создания РНК.
  • РНК-полимераза синтезирует РНК, используя антисмысловую цепь ДНК в качестве матрицы путем добавления нуклеотидов комплементарной РНК к 3′-концу растущей цепи.
  • РНК-полимераза
  • связывается с ДНК в последовательности, называемой промотором , во время инициации транскрипции .
  • Гены, кодирующие белки родственных функций, часто транскрибируются под контролем одного промотора в прокариотах, что приводит к образованию полицистронной молекулы мРНК , которая кодирует несколько полипептидов.
  • В отличие от ДНК-полимеразы, РНК-полимераза не требует 3′-OH-группы для добавления нуклеотидов, поэтому праймер не требуется во время инициации.
  • Прекращение транскрипции у бактерий происходит, когда РНК-полимераза сталкивается со специфическими последовательностями ДНК, которые приводят к остановке полимеразы. Это приводит к высвобождению РНК-полимеразы из цепи ДНК-матрицы, высвобождая транскрипт РНК .
  • Эукариоты имеют три различных РНК-полимеразы.У эукариот также есть моноцистронная мРНК, каждая из которых кодирует только один полипептид.
  • Первичные транскрипты эукариот обрабатываются несколькими способами, включая добавление 5′-кэпа и 3′- поли-A-хвоста , а также сплайсинг для создания зрелой молекулы мРНК, которая может быть транспортирована. ядра, и это защищено от деградации.

Множественный выбор

На какой стадии бактериальной транскрипции участвует σ-субъединица РНК-полимеразы?

  1. инициирование
  2. удлинение
  3. прекращение
  4. сварка
Показать ответ

Ответ а.Субъединица σ РНК-полимеразы участвует в инициации.

Какой из следующих компонентов участвует в инициации транскрипции?

  1. грунтовка
  2. происхождение
  3. промоутер
  4. стартовый кодон
Показать ответ

Ответ c. Промотор участвует в инициации транскрипции.

Что из следующего не является функцией 5′-кэпа и 3′-поли-A-хвоста молекулы зрелой эукариотической мРНК?

  1. для облегчения сварки
  2. для предотвращения деградации мРНК
  3. для экспорта зрелого транскрипта в цитоплазму
  4. для облегчения связывания рибосомы с транскриптом
Показать ответ

Ответ а.Облегчение сращивания не зависит от 5′-колпачка и 3′-хвоста поли-А.

Зрелая мРНК эукариота будет содержать каждую из этих функций, кроме какой из следующих?

  1. экзон-кодируемая РНК
  2. РНК, кодируемая интроном
  3. 5 ‘крышка
  4. 3 ′ хвостовик поли-А
Показать ответ

Ответ б. Зрелая мРНК эукариота будет , а не , содержать РНК, кодируемую интроном.

Заполните бланк

A ________ мРНК — это мРНК, которая кодирует несколько полипептидов.

Покажи ответ

Полицистронная мРНК — это мРНК, кодирующая несколько полипептидов.

Белковый комплекс, отвечающий за удаление кодируемых интроном последовательностей РНК из первичных транскриптов у эукариот, называется ________.

Покажи ответ

Белковый комплекс, ответственный за удаление кодируемых интроном последовательностей РНК из первичных транскриптов у эукариот, называется сплайсосомой .

Подумай об этом

  1. Какова цель процессинга РНК у эукариот? Почему прокариотам не нужна подобная обработка?
  2. Ниже представлена ​​последовательность ДНК.Представьте себе, что это часть молекулы ДНК, которая отделилась при подготовке к транскрипции, поэтому вы видите только антисмысловую цепь. Постройте последовательность мРНК, транскрибируемую с этой матрицы. Антисмысловая цепь ДНК: 3′-T A C T G A C T G A C G A T C-5 ‘
  3. Предсказать эффект изменения последовательности нуклеотидов в области –35 бактериального промотора.

Транскрипция | Биология для майоров I

Описание процесса транскрипции эукариот

ДНК

копируется в РНК в процессе, называемом генетической транскрипцией.Преобразовать в код означает «записать что-то». Информация в ДНК транскрибируется — или перезаписывается — в уменьшенную версию (РНК), которая может использоваться клеткой.

Цели обучения

  • Основные этапы транскрипции ДНК в РНК
  • Опишите роль РНК-полимеразы
  • Понять разницу между пре-РНК и мРНК
  • Описание посттрансляционной модификации РНК и ее цели

Транскрипция происходит в ядре.Он использует ДНК в качестве матрицы для создания молекулы РНК (мРНК). Во время транскрипции создается цепь мРНК, которая комплементарна цепи ДНК. На рисунке 1 показано, как это происходит.

Рисунок 1. Обзор транскрипции. Транскрипция использует последовательность оснований в цепи ДНК для создания комплементарной цепи мРНК. Триплеты — это группы из трех последовательных нуклеотидных оснований в ДНК. Кодоны — это комплементарные группы оснований в мРНК.

Вы также можете посмотреть это более подробное видео о транскрипции.

Шаги транскрипции

Транскрипция происходит в три этапа: инициация, удлинение и завершение. Шаги показаны на рисунке 2.

Рис. 2. Транскрипция происходит в три этапа — инициацию, удлинение и завершение — все они показаны здесь.

Шаг 1: Запуск

Инициирование — начало транскрипции. Это происходит, когда фермент РНК-полимераза связывается с областью гена, называемой промотором. Это дает сигнал ДНК раскручиваться, чтобы фермент мог «прочитать» основания в одной из цепей ДНК.Теперь фермент готов к созданию цепи мРНК с комплементарной последовательностью оснований.

Шаг 2: удлинение

Удлинение — добавление нуклеотидов к цепи мРНК. РНК-полимераза считывает размотанную цепь ДНК и строит молекулу мРНК, используя комплементарные пары оснований. Во время этого процесса есть короткое время, когда вновь образованная РНК связывается с размотанной ДНК. Во время этого процесса аденин (A) в ДНК связывается с урацилом (U) в РНК.

Шаг 3: Прекращение действия

Окончание — это окончание транскрипции, которое происходит, когда РНК-полимераза пересекает стоп-последовательность (терминацию) в гене.Нить мРНК завершена, и она отделяется от ДНК.

В этом видео представлен обзор этих шагов. Вы можете прекратить просмотр видео в 5:35. (После этого обсуждается перевод, который мы обсудим в следующем результате.)

РНК-полимераза

В этом разделе подробно рассматривается особая роль РНК-полимераз во время транскрипции. Читайте дальше, чтобы узнать о роли РНК-полимераз на каждом этапе транскрипции.

Инициирование транскрипции

В отличие от прокариотической полимеразы, которая может связываться с матрицей ДНК сама по себе, эукариотам требуется несколько других белков, называемых факторами транскрипции, которые сначала связываются с промоторной областью, а затем помогают рекрутировать соответствующую полимеразу.

Три эукариотических РНК-полимеразы

Особенности синтеза мРНК эукариот значительно сложнее, чем у прокариот. Вместо одной полимеразы, содержащей пять субъединиц, у эукариот есть три полимеразы, каждая из которых состоит из 10 субъединиц или более. Каждая эукариотическая полимераза также требует определенного набора факторов транскрипции, чтобы доставить ее в матрицу ДНК.

РНК-полимераза I

расположена в ядрышке, специализированной ядерной субструктуре, в которой рибосомная РНК (рРНК) транскрибируется, процессируется и собирается в рибосомы (Таблица 1).Молекулы рРНК считаются структурными РНК, потому что они играют клеточную роль, но не транслируются в белок. РРНК являются компонентами рибосомы и необходимы для процесса трансляции. РНК-полимераза I синтезирует все рРНК, кроме молекулы 5S рРНК. Обозначение «S» применяется к единицам «Svedberg» — неаддитивное значение, которое характеризует скорость, с которой частицы оседают во время центрифугирования.

Таблица 1. Расположение, продукты и чувствительность трех эукариотических РНК-полимераз
РНК-полимераза Отсек сотовой связи Продукт транскрипции Чувствительность к α-аманитину
I Ядрышко Все рРНК, кроме 5S рРНК Нечувствительный
II Ядро Все ядерные пре-мРНК, кодирующие белок Чрезвычайно чувствительный
III Ядро 5S рРНК, тРНК и малые ядерные РНК Умеренно чувствительный

РНК-полимераза II находится в ядре и синтезирует все ядерные пре-мРНК, кодирующие белок.Пре-мРНК эукариот подвергаются обширному процессингу после транскрипции, но перед трансляцией (рис. 3). Для ясности в этом модуле при обсуждении транскрипции и трансляции у эукариот термин «мРНК» будет использоваться для описания только зрелых процессированных молекул, готовых к трансляции. РНК-полимераза II отвечает за транскрипцию подавляющего большинства эукариотических генов.

Рис. 3. Эукариотическая мРНК содержит интроны, которые необходимо сплайсировать. Также добавлены 5 ‘колпачок и 3’ поли-A хвост.

РНК-полимераза III также находится в ядре. Эта полимераза транскрибирует множество структурных РНК, которые включают 5S пре-рРНК, передающие пре-РНК (пре-тРНК) и малые ядерные пре- РНК . ТРНК играют решающую роль в трансляции; они служат в качестве адаптерных молекул между матрицей мРНК и растущей полипептидной цепью. Малые ядерные РНК выполняют множество функций, включая «сплайсинг» пре-мРНК и регулирующие факторы транскрипции.

Ученый, исследующий новый ген, может определить, какая полимераза его транскрибирует, проверив, экспрессируется ли ген в присутствии определенного грибного яда, α-аманитина (таблица 1). Интересно, что α-аманитин, продуцируемый грибом Смертельная шапочка Amanita phalloides , по-разному влияет на три полимеразы. РНК-полимераза I полностью нечувствительна к α-аманитину, что означает, что полимераза может транскрибировать ДНК in vitro в присутствии этого яда. Напротив, РНК-полимераза II чрезвычайно чувствительна к α-аманитину, а РНК-полимераза III умеренно чувствительна.Знание транскрибирующей полимеразы может помочь исследователю понять общую функцию изучаемого гена. Поскольку РНК-полимераза II транскрибирует подавляющее большинство генов, мы сосредоточим внимание на этой полимеразе в наших последующих дискуссиях о факторах транскрипции и промоторах эукариот.

Структура промотора РНК-полимеразы II

Эукариотические промоторы намного крупнее и сложнее прокариотических промоторов, но оба имеют ТАТА-бокс. Например, в гене тимидинкиназы мыши ТАТА-бокс расположен примерно на -30 ° относительно сайта инициации (+1) (рис. 4).Для этого гена точной последовательностью бокса ТАТА является TATAAAA, как читается в направлении от 5 ‘к 3’ на неэлементной цепи. Термостабильность связей A – T низкая, и это помогает матрице ДНК локально раскручиваться при подготовке к транскрипции.

Рисунок 4. Показан обобщенный промотор гена, транскрибируемого РНК-полимеразой II. Факторы транскрипции распознают промотор. Затем РНК-полимераза II связывается и образует комплекс инициации транскрипции.

Геном мыши включает один ген и два псевдогена цитоплазматической тимидинкиназы.Псевдогены — это гены, которые утратили способность кодировать белок или больше не экспрессируются клеткой. Эти псевдогены копируются с мРНК и включаются в хромосому. Например, промотор тимидинкиназы мыши также имеет консервативный блок CAAT (GGCCAATCT) примерно при -80. Эта последовательность важна и участвует в связывании факторов транскрипции. Далее перед ТАТА-боксом эукариотические промоторы могут также содержать один или несколько GC-богатых боксов (GGCG) или октамерных боксов (ATTTGCAT).Эти элементы связывают клеточные факторы, которые увеличивают эффективность инициации транскрипции и часто идентифицируются в более «активных» генах, которые постоянно экспрессируются клеткой.

Факторы транскрипции для РНК-полимеразы II

Сложность транскрипции эукариот не ограничивается полимеразами и промоторами. Армия базальных факторов транскрипции, энхансеров и сайленсеров также помогает регулировать частоту, с которой пре-мРНК синтезируется из гена.Энхансеры и сайленсеры влияют на эффективность транскрипции, но не являются необходимыми для продолжения транскрипции. Базальные факторы транскрипции имеют решающее значение в формировании преинициативного комплекса на матрице ДНК, который впоследствии рекрутирует РНК-полимеразу II для инициации транскрипции.

Имена основных факторов транскрипции начинаются с «TFII» (это фактор транскрипции для РНК-полимеразы II) и обозначаются буквами A – J. Факторы транскрипции систематически размещаются на матрице ДНК, каждый из которых дополнительно стабилизирует преинициативный комплекс и способствует привлечению РНК-полимеразы II.

Процессы переноса РНК-полимераз I и III в матрицу ДНК включают несколько менее сложные наборы факторов транскрипции, но общая тема та же. Эукариотическая транскрипция — это строго регулируемый процесс, который требует взаимодействия множества белков друг с другом и с цепью ДНК. Хотя процесс транскрипции у эукариот требует больших метаболических вложений, чем у прокариот, он гарантирует, что клетка транскрибирует именно те пре-мРНК, которые необходимы для синтеза белка.

Эволюция промоутеров

Эволюция генов может быть знакомой концепцией. Мутации могут происходить в генах во время репликации ДНК, и результат может быть полезным для клетки, а может и нет. Изменяя фермент, структурный белок или какой-либо другой фактор, процесс мутации может трансформировать функции или физические характеристики. Однако эукариотические промоторы и другие регуляторные последовательности генов также могут развиваться. Например, рассмотрим ген, который на протяжении многих поколений становится более ценным для клетки.Возможно, ген кодирует структурный белок, который клетке необходимо синтезировать в изобилии для выполнения определенной функции. Если это так, то для промотора этого гена клетке было бы полезно более эффективно рекрутировать факторы транскрипции и увеличивать экспрессию гена.

Ученые, исследующие эволюцию промоторных последовательностей, сообщили о различных результатах. Отчасти это связано с тем, что трудно точно определить, где начинается и где заканчивается эукариотический промотор. Некоторые промоторы встречаются внутри генов; другие расположены очень далеко вверх по течению или даже ниже по течению от генов, которые они регулируют.Однако, когда исследователи ограничили свое исследование коровыми промоторными последовательностями человека, которые были определены экспериментально как последовательности, связывающие преинициативный комплекс, они обнаружили, что промоторы развиваются даже быстрее, чем гены, кодирующие белок.

До сих пор неясно, как эволюция промотора может соответствовать эволюции человека или других высших организмов. Однако эволюция промотора для эффективного производства большего или меньшего количества продукта данного гена является интригующей альтернативой эволюции самих генов.

Структуры промотора для РНК-полимераз I и III

У эукариот консервативные промоторные элементы различаются по генам, транскрибируемым РНК-полимеразами I, II и III. РНК-полимераза I транскрибирует гены, которые имеют две GC-богатые промоторные последовательности в области от –45 до +20. Одних этих последовательностей достаточно для инициации транскрипции, но промоторы с дополнительными последовательностями в области от -180 до -105 выше сайта инициации будут дополнительно усиливать инициацию.Гены, которые транскрибируются с помощью РНК-полимеразы III, имеют промоторы или промоторы, расположенные выше по течению, которые находятся внутри самих генов.

Удлинение и прекращение

После образования преинициативного комплекса полимераза высвобождается из других факторов транскрипции, и элонгация продолжается, как это происходит у прокариот, с полимеразой, синтезирующей пре-мРНК, в направлении от 5 ‘к 3’. Как обсуждалось ранее, РНК-полимераза II транскрибирует основную долю эукариотических генов, поэтому в этом разделе мы сосредоточимся на том, как эта полимераза осуществляет удлинение и терминацию.

Хотя ферментативный процесс удлинения по существу одинаков у эукариот и прокариот, матрица ДНК более сложна. Когда эукариотические клетки не делятся, их гены существуют в виде диффузной массы ДНК и белков, называемых хроматином. ДНК плотно упакована вокруг заряженных гистоновых белков с повторяющимися интервалами. Эти ДНК-гистоновые комплексы, вместе называемые нуклеосомами, расположены регулярно и включают 146 нуклеотидов ДНК, намотанных вокруг восьми гистонов, как нить на катушке.

Для того чтобы синтез полинуклеотидов происходил, аппарату транскрипции необходимо убирать гистоны с пути каждый раз, когда он сталкивается с нуклеосомой. Это достигается с помощью специального белкового комплекса под названием FACT , что означает «облегчает транскрипцию хроматина». Этот комплекс отталкивает гистоны от матрицы ДНК по мере продвижения по ней полимеразы. Как только пре-мРНК синтезируется, комплекс FACT заменяет гистоны для воссоздания нуклеосом.

Окончание транскрипции отличается для разных полимераз.В отличие от прокариот, у эукариот удлинение под действием РНК-полимеразы II происходит на 1000–2000 нуклеотидов после конца транскрибируемого гена. Этот хвост пре-мРНК впоследствии удаляется расщеплением во время процессинга мРНК. С другой стороны, РНК-полимеразы I и III требуют сигналов терминации. Гены, транскрибируемые РНК-полимеразой I, содержат специфическую 18-нуклеотидную последовательность, которая распознается терминирующим белком. Процесс терминации в РНК-полимеразе III включает шпильку мРНК, подобную rho-независимой терминации транскрипции у прокариот.

пре-РНК и мРНК

После транскрипции эукариотические пре-мРНК должны пройти несколько этапов процессинга, прежде чем они могут быть транслированы. Эукариотические (и прокариотические) тРНК и рРНК также подвергаются процессингу, прежде чем они смогут функционировать как компоненты в аппарате синтеза белка.

Обработка мРНК

Эукариотическая пре-мРНК подвергается обширной обработке, прежде чем она будет готова к трансляции. Дополнительные этапы созревания эукариотической мРНК создают молекулу с гораздо более длительным периодом полужизни, чем прокариотическая мРНК.МРНК эукариот существуют в течение нескольких часов, тогда как типичная мРНК E. coli существует не более пяти секунд.

Пре-мРНК

сначала покрывают РНК-стабилизирующими белками; они защищают пре-мРНК от деградации, пока она обрабатывается и экспортируется из ядра. Три наиболее важных этапа процессинга пре-мРНК — это добавление стабилизирующих и сигнальных факторов на 5′- и 3′-концах молекулы и удаление промежуточных последовательностей, которые не определяют подходящие аминокислоты.В редких случаях транскрипт мРНК может быть «отредактирован» после его расшифровки.

5 ‘Укупорка

Пока пре-мРНК все еще синтезируется, к 5′-концу растущего транскрипта с помощью фосфатной связи добавляется 7-метилгуанозиновый кэп . Этот фрагмент (функциональная группа) защищает возникающую мРНК от деградации. Кроме того, факторы, участвующие в синтезе белка, распознают кэп, помогая инициировать трансляцию рибосомами.

3 ‘Хвост Poly-A

После завершения элонгации пре-мРНК расщепляется эндонуклеазой между консенсусной последовательностью AAUAAA и последовательностью, богатой GU, оставляя последовательность AAUAAA на пре-мРНК.Затем фермент, называемый поли-А-полимеразой, добавляет цепочку из примерно 200 остатков А, называемую поли-А-хвостом . Эта модификация дополнительно защищает пре-мРНК от деградации и сигнализирует об экспорте клеточных факторов, необходимых транскрипту, в цитоплазму.

Сплайсинг пре-мРНК

Эукариотические гены состоят из экзонов , которые соответствуют кодирующим белкам последовательностям ( ex- означает, что они сжаты ex ), и int исходящие последовательности, называемые интронами ( int ron обозначает их int ervening role), которые могут участвовать в регуляции генов, но удаляются из пре-мРНК во время процессинга.Последовательности интронов в мРНК не кодируют функциональные белки.

Открытие интронов стало неожиданностью для исследователей 1970-х годов, которые ожидали, что пре-мРНК будут определять белковые последовательности без дальнейшей обработки, как они наблюдали у прокариот. Гены высших эукариот очень часто содержат один или несколько интронов. Эти области могут соответствовать регуляторным последовательностям; однако биологическое значение наличия большого количества интронов или очень длинных интронов в гене неясно.Возможно, интроны замедляют экспрессию генов, потому что для транскрипции пре-мРНК с большим количеством интронов требуется больше времени. С другой стороны, интроны могут быть нефункциональными остатками последовательности, оставшимися после слияния древних генов на протяжении всей эволюции. Это подтверждается тем фактом, что отдельные экзоны часто кодируют отдельные белковые субъединицы или домены. По большей части последовательности интронов можно мутировать, в конечном итоге не влияя на белковый продукт.

Все интроны пре-мРНК должны быть полностью и точно удалены перед синтезом белка.Если процесс ошибается хотя бы на один нуклеотид, рамка считывания воссоединенных экзонов сместится, и результирующий белок будет дисфункциональным. Процесс удаления интронов и воссоединения экзонов называется сплайсингом (рис. 5). Интроны удаляются и разрушаются, пока пре-мРНК все еще находится в ядре. Сплайсинг происходит с помощью механизма, специфичного для последовательности, который обеспечивает удаление интронов и воссоединение экзонов с точностью до одного нуклеотида. Сплайсинг пре-мРНК осуществляется комплексами белков и молекул РНК, называемыми сплайсосомами.

Практический вопрос

Рисунок 5. Сплайсинг пре-мРНК включает точное удаление интронов из первичного транскрипта РНК. Процесс сплайсинга катализируется белковыми комплексами, называемыми сплайсосомами, которые состоят из белков и молекул РНК, называемых мяРНК. Сплайсосомы распознают последовательности на 5′- и 3′-концах интрона.

Ошибки при сварке связаны с раком и другими заболеваниями человека. Какие мутации могут привести к ошибкам сплайсинга?

Покажи ответ

Подумайте о различных возможных результатах при возникновении ошибок соединения.Мутации в последовательности узнавания сплайсосомы на каждом конце интрона или в белках и РНК, составляющих сплайсосому, могут нарушать сплайсинг. Мутации также могут добавлять новые сайты распознавания сплайсосом. Ошибки сплайсинга могут привести к сохранению интронов в сплайсированной РНК, удалению экзонов или изменению местоположения сайта сплайсинга.

Обратите внимание, что может присутствовать более 70 отдельных интронов, и каждый должен пройти процесс сплайсинга — в дополнение к 5′-кэппированию и добавлению поли-A-хвоста — только для того, чтобы генерировать единственную транслируемую молекулу мРНК.

Посмотрите, как удаляются интроны во время сплайсинга РНК, на этом сайте.

Редактирование РНК в трипаносомах

Рис. 6. Trypanosoma brucei является возбудителем сонной болезни у людей. МРНК этого патогена должны быть изменены путем добавления нуклеотидов, прежде чем может произойти синтез белка. (кредит: модификация работы Торстена Оксенрайтера)

Трипаносомы представляют собой группу простейших, в которую входит патоген Trypanosoma brucei , вызывающий сонную болезнь у людей (рис. 6).Трипаносомы и практически все другие эукариоты имеют органеллы, называемые митохондриями, которые снабжают клетку химической энергией. Митохондрии — это органеллы, которые выражают свою собственную ДНК и считаются остатками симбиотических отношений между эукариотом и прокариотом. Митохондриальная ДНК трипаносом представляет собой интересное исключение из «Центральной догмы»: их пре-мРНК не имеют правильной информации для определения функционального белка. Обычно это происходит из-за того, что в мРНК отсутствует несколько нуклеотидов U.Клетка выполняет дополнительный этап обработки РНК, называемый редактированием РНК, чтобы исправить это.

Другие гены митохондриального генома кодируют направляющие РНК из 40–80 нуклеотидов. Одна или несколько из этих молекул взаимодействуют посредством комплементарного спаривания оснований с некоторыми нуклеотидами в транскрипте пре-мРНК. Однако направляющая РНК имеет больше нуклеотидов А, чем пре-мРНК имеет нуклеотиды U для связывания. В этих областях направляющая РНК выходит наружу. 3′-концы направляющих РНК имеют длинный поли-U-хвост, и эти U-основания вставлены в области транскрипта пре-мРНК, по которым замыкаются направляющие РНК.Этот процесс полностью опосредуется молекулами РНК. То есть направляющие РНК, а не белки, служат катализаторами при редактировании РНК.

Редактирование РНК

— это не просто феномен трипаносом. В митохондриях некоторых растений редактируются почти все пре-мРНК. Редактирование РНК также было обнаружено у млекопитающих, таких как крысы, кролики и даже люди. Что могло быть эволюционной причиной этого дополнительного шага в процессинге пре-мРНК? Одна из возможностей состоит в том, что митохондрии, являющиеся остатками древних прокариот, имеют столь же древний метод, основанный на РНК, для регулирования экспрессии генов.В поддержку этой гипотезы изменения, внесенные в пре-мРНК, различаются в зависимости от клеточных условий. Хотя это предположение, процесс редактирования РНК может быть пережитком тех древних времен, когда молекулы РНК, а не белки, были ответственны за катализатор реакций.

Посттрансляционная модификация РНК

Гены, которые «включает» эукариотическая клетка, во многом определяют ее идентичность и свойства. Например, фоторецепторная клетка в вашем глазу может обнаруживать свет, потому что она экспрессирует гены светочувствительных белков, а также гены нейротрансмиттеров, которые позволяют передавать сигналы в мозг.

В эукариотических клетках, таких как фоторецепторы, экспрессия генов часто контролируется главным образом на уровне транскрипции. Однако это не означает, что транскрипция — это последний шанс для регуляции. Более поздние стадии экспрессии генов также могут регулироваться, в том числе следующие:

  • Обработка РНК, такая как сплайсинг, кэппинг и добавление поли-A-хвоста
  • Трансляция матричной РНК (мРНК) и время жизни в цитозоле
  • Модификации белков, такие как добавление химических групп или удаление аминокислот

В следующих разделах мы обсудим некоторые общие типы регуляции генов, которые происходят после того, как был создан транскрипт РНК.

Регуляция процессинга РНК

Когда эукариотический ген транскрибируется в ядре, первичный транскрипт (свежеприготовленная молекула РНК) еще не считается информационной РНК. Вместо этого это «незрелая» молекула, называемая пре-мРНК.

Пре-мРНК должна пройти некоторые модификации, чтобы стать зрелой молекулой мРНК, которая может покинуть ядро ​​и транслироваться. К ним относятся сращивание, укупорка и добавление поли-А-хвоста, все из которых потенциально можно регулировать — ускорять, замедлять или изменять для получения другого продукта.

Альтернативная сварка

Большинство молекул пре-мРНК имеют участки, которые удаляются из молекулы, называемые интронами , и участки, которые связаны или вместе образуют конечную мРНК, называемые экзонами . Этот процесс называется склейкой .

В процессе альтернативного сплайсинга различные части мРНК могут быть выбраны для использования в качестве экзонов. Это позволяет создать любую из двух (или более) молекул мРНК из одной пре-мРНК.

Рис. 7. Изображение изменено из «Посттранскрипционной регуляции генов эукариот», Колледж OpenStax, Биология (CC BY 3.0).

Альтернативная сварка — это не случайный процесс. Вместо этого он обычно контролируется регуляторными белками. Белки связываются со специфическими участками пре-мРНК и «сообщают» факторам сплайсинга, какие экзоны следует использовать. Различные типы клеток могут экспрессировать разные регуляторные белки, поэтому в каждом типе клеток можно использовать разные комбинации экзонов, что приводит к продукции разных белков.

Малая регуляторная РНК

Как только мРНК покидает ядро, она может много раз транслироваться, а может и не транслироваться с образованием белков. Двумя ключевыми детерминантами того, сколько белка состоит из мРНК, являются его «продолжительность жизни» (как долго он плавает в цитозоле) и насколько легко механизм трансляции, такой как рибосома, может прикрепиться к нему.

Недавно открытый класс регуляторов, называемый малыми регуляторными РНК, может контролировать продолжительность жизни и трансляцию мРНК. Посмотрим, как это работает.

микроРНК

микроРНК (miRNAs) были среди первых малых регуляторных РНК, которые были обнаружены. МикроРНК сначала транскрибируется как длинная молекула РНК, которая образует с собой пары оснований и складывается, образуя шпильку. Затем шпилька измельчается ферментами, высвобождая небольшой двухцепочечный фрагмент примерно из 20 нуклеотидов. Одна из цепей в этом фрагменте — зрелая миРНК, которая связывается со специфическим белком, образуя комплекс РНК-белок.

Рисунок 8.Изображение изменено из «биогенеза миРНК» Нараянесом (CC BY-SA 3.0). Измененный образ находится под лицензией CC BY-SA 3.0.

miRNA направляет белковый комплекс к «подходящим» молекулам мРНК (тем, которые образуют пары оснований с miRNA). Когда связывается комплекс РНК-белок:

  • Если миРНК и ее мишень полностью совпадают, фермент в комплексе РНК-белок обычно расщепляет мРНК пополам, что приводит к ее разрушению.
  • Если miRNA и ее мишень имеют некоторые несовпадения, комплекс РНК-белок может вместо этого связываться с мРНК и препятствовать ее трансляции.

Это не единственные способы, которыми miRNAs ингибируют экспрессию своих мишеней, и ученые все еще исследуют множество способов их действия.

Вкратце: Посттрансляционная модификация РНК

Экспрессия гена может регулироваться на различных стадиях после того, как был произведен транскрипт РНК. Некоторые транскрипты могут подвергаться альтернативному сплайсингу . Этот регулируемый процесс создает разные мРНК и белки из одного и того же исходного транскрипта РНК. Некоторые мРНК нацелены на малые регуляторные РНК, включая miRNAs , которые могут вызывать деградацию мРНК или блокировать трансляцию.Активность белка может регулироваться после трансляции с помощью таких механизмов, как протеолиз («вырезание» кусочков) и добавление химических групп.

Проверьте свое понимание

Ответьте на вопросы ниже, чтобы увидеть, насколько хорошо вы понимаете темы, затронутые в предыдущем разделе. В этой короткой викторине , а не засчитываются в вашу оценку в классе, и вы можете пересдавать ее неограниченное количество раз.

Используйте этот тест, чтобы проверить свое понимание и решить, следует ли (1) изучить предыдущий раздел дальше или (2) перейти к следующему разделу.


9.3 Транскрипция — Концепции биологии — 1-е канадское издание

Цели обучения

К концу этого раздела вы сможете:

  • Объясните центральную догму
  • Объясните основные этапы транскрипции
  • Опишите, как обрабатывается мРНК эукариот

И у прокариот, и у эукариот вторая функция ДНК (первой была репликация) заключается в том, чтобы предоставлять информацию, необходимую для конструирования белков. необходим, чтобы клетка могла выполнять все свои функции.Для этого ДНК «считывается» или транскрибируется в молекулу мРНК. Затем мРНК предоставляет код для образования белка с помощью процесса, называемого трансляцией. Благодаря процессам транскрипции и трансляции белок строится с определенной последовательностью аминокислот, которая изначально была закодирована в ДНК. В этом модуле обсуждаются детали транскрипции.

Поток генетической информации в клетках от ДНК к мРНК к белку описывается центральной догмой (Рисунок 9.14), в котором говорится, что гены определяют последовательности мРНК, которые, в свою очередь, определяют последовательности белков.

Рис. 9.14. Центральная догма гласит, что ДНК кодирует РНК, которая, в свою очередь, кодирует белок.

Копирование ДНК в мРНК является относительно простым, с одним нуклеотидом, добавляемым к цепи мРНК для каждого комплементарного нуклеотида, считываемого в цепи ДНК. Трансляция в белок более сложна, поскольку группы из трех нуклеотидов мРНК соответствуют одной аминокислоте в последовательности белка.Однако, как мы увидим в следующем модуле, трансляция в белок все еще носит систематический характер, так что нуклеотиды с 1 по 3 соответствуют аминокислоте 1, нуклеотиды с 4 по 6 соответствуют аминокислоте 2 и так далее.

И прокариоты, и эукариоты выполняют в основном один и тот же процесс транскрипции с важным отличием мембраносвязанного ядра у эукариот. Когда гены связаны в ядре, транскрипция происходит в ядре клетки, и транскрипт мРНК должен транспортироваться в цитоплазму.Прокариоты, в состав которых входят бактерии и археи, лишены мембраносвязанных ядер и других органелл, и транскрипция происходит в цитоплазме клетки. Как у прокариот, так и у эукариот транскрипция происходит в три основных этапа: инициация, элонгация и завершение.

Инициирование

Транскрипция требует, чтобы двойная спираль ДНК частично раскрутилась в области синтеза мРНК. Область раскрутки называется пузырем транскрипции. Последовательность ДНК, с которой связываются белки и ферменты, участвующие в транскрипции, чтобы инициировать процесс, называется промотором.В большинстве случаев промоторы расположены выше регулируемых ими генов. Конкретная последовательность промотора очень важна, потому что она определяет, транскрибируется ли соответствующий ген все время, иногда или почти не транскрибируется (рис. 9.15).

Рис. 9.15. Инициирование транскрипции начинается, когда ДНК раскручивается, образуя пузырек транскрипции. Ферменты и другие белки, участвующие в транскрипции, связываются с промотором.

Удлинение

Транскрипция всегда происходит от одной из двух цепей ДНК, которая называется цепочкой-матрицей.Продукт мРНК комплементарен матричной цепи и почти идентичен другой цепи ДНК, называемой нетемплатной цепью, за исключением того, что РНК содержит урацил (U) вместо тимина (T), обнаруженного в ДНК. Во время удлинения фермент, называемый РНК-полимеразой, движется по матрице ДНК, добавляя нуклеотиды путем спаривания оснований с матрицей ДНК аналогично репликации ДНК, с той разницей, что синтезируется цепь РНК, которая не остается связанной с матрицей ДНК.По мере удлинения ДНК непрерывно разматывается перед основным ферментом и снова наматывается за ним (рис. 9.16).

Рис. 9.16. Во время элонгации РНК-полимераза отслеживает ДНК-матрицу, синтезирует мРНК в направлении от 5 ‘к 3’ и раскручивает, а затем перематывает ДНК по мере ее считывания.

Прекращение

После того, как ген транскрибируется, прокариотическая полимераза должна быть проинструктирована о диссоциации от матрицы ДНК и высвобождении вновь образованной мРНК. В зависимости от транскрибируемого гена существует два типа сигналов терминации, но оба включают повторяющиеся нуклеотидные последовательности в матрице ДНК, что приводит к остановке РНК-полимеразы, покиданию матрицы ДНК и высвобождению транскрипта мРНК.

По завершении процесс транскрипции завершен. В прокариотической клетке к моменту прерывания транскрипт уже был бы использован для частичного синтеза многочисленных копий кодируемого белка, потому что эти процессы могут происходить одновременно с использованием нескольких рибосом (полирибосом) (рис. 9.17). Напротив, наличие ядра в эукариотических клетках препятствует одновременной транскрипции и трансляции.

Рисунок 9.17. Множественные полимеразы могут транскрибировать один бактериальный ген, в то время как многочисленные рибосомы одновременно транслируют транскрипты мРНК в полипептиды.Таким образом, определенный белок может быстро достичь высокой концентрации в бактериальной клетке.

Вновь транскрибируемые мРНК эукариот должны пройти несколько этапов процессинга, прежде чем они могут быть перенесены из ядра в цитоплазму и переведены в белок. Дополнительные этапы созревания мРНК эукариот создают молекулу, которая намного более стабильна, чем мРНК прокариот. Например, мРНК эукариот существуют в течение нескольких часов, тогда как типичная мРНК прокариот длится не более пяти секунд.

Транскрипт мРНК сначала покрывается РНК-стабилизирующими белками, чтобы предотвратить его разрушение во время процессинга и экспорта из ядра. Это происходит, пока пре-мРНК все еще синтезируется, путем добавления специальной нуклеотидной «шапки» к 5′-концу растущего транскрипта. Помимо предотвращения деградации, факторы, участвующие в синтезе белка, распознают кэп, помогая инициировать трансляцию рибосомами.

После завершения элонгации фермент добавляет цепочку из примерно 200 остатков аденина к 3′-концу, называемому поли-А-хвостом.Эта модификация дополнительно защищает пре-мРНК от деградации и сигналов клеточным факторам о том, что транскрипт необходимо экспортировать в цитоплазму.

Эукариотические гены состоят из кодирующих белок последовательностей, называемых экзонами ( ex- означает, что они сжаты ex ) и int исходящих последовательностей, называемых интронами ( int- ron обозначает их исходную роль int ). Интроны удаляются из пре-мРНК во время обработки. Последовательности интронов в мРНК не кодируют функциональные белки.Важно, чтобы все интроны пре-мРНК были полностью и точно удалены перед синтезом белка, чтобы экзоны соединялись вместе, чтобы кодировать правильные аминокислоты. Если процесс ошибается хотя бы на один нуклеотид, последовательность соединенных экзонов будет сдвинута, и полученный белок окажется нефункциональным. Процесс удаления интронов и воссоединения экзонов называется сплайсингом (рис. 9.18). Интроны удаляются и разрушаются, пока пре-мРНК все еще находится в ядре.

Рисунок 9.18 мРНК эукариот содержит интроны, которые необходимо сплайсировать. Также добавлены 5 ‘колпачок и 3’ хвост.

У прокариот синтез мРНК инициируется промоторной последовательностью на матрице ДНК. При элонгации синтезируется новая мРНК. Терминация высвобождает мРНК и происходит за счет механизмов, которые останавливают РНК-полимеразу и заставляют ее выпадать из матрицы ДНК. Вновь транскрибируемые мРНК эукариот модифицируются с помощью кэпа и поли-А-хвоста. Эти структуры защищают зрелую мРНК от деградации и помогают экспортировать ее из ядра.Эукариотические мРНК также подвергаются сплайсингу, при котором интроны удаляются, а экзоны повторно соединяются с точностью до одного нуклеотида. Только готовые мРНК экспортируются из ядра в цитоплазму.

Глоссарий

экзон : последовательность, присутствующая в кодирующей белок мРНК после завершения сплайсинга пре-мРНК

интрон: не кодирующие белок промежуточные последовательности, которые сплайсируются из мРНК во время процессинга

мРНК : информационная РНК; форма РНК, которая несет код нуклеотидной последовательности для белковой последовательности, транслируемой в полипептидную последовательность

нетемплатная цепь : цепь ДНК, которая не используется для транскрипции мРНК; эта цепь идентична мРНК, за исключением того, что нуклеотиды Т в ДНК заменены нуклеотидами U в мРНК

промотор : последовательность на ДНК, с которой связываются РНК-полимераза и связанные факторы и инициируют транскрипцию

РНК-полимераза: фермент, синтезирующий цепь РНК из цепи ДНК-матрицы

сплайсинг : процесс удаления интронов и воссоединения экзонов в пре-мРНК

матричная цепь : цепь ДНК, которая определяет комплементарную молекулу мРНК

пузырек транскрипции: область локально развернутой ДНК, которая позволяет транскрипцию мРНК

Определение транскрипции Merriam-Webster

транскрипция | \ tran (t) -ˈskrip-shən \

а : аранжировка музыкальной композиции для какого-либо инструмента или голоса, отличного от оригинала.

б : запись (как на магнитной ленте), сделанная специально для использования в радиовещании.

Что такое транскрипция? Улучшение доступности, SEO и UX

17 августа 2018 г. BY JACLYN LEDUC
Обновлено: 16 марта 2021 г.

взрослых американцев проводят 11 часов в день, подключаясь к средствам массовой информации, и почти 6 из них тратятся на просмотр видео.Возможно, вы оказались в ситуации, когда вам не терпится посмотреть видео или послушать аудио, но сейчас не время и не место для этого. К счастью, есть еще один способ потреблять желаемый контент: транскрипция.

Что такое транскрипция?

Транскрипция — это процесс преобразования речи или звука в письменный документ. Скрытые титры привязаны к видео по времени, а расшифровка — это просто текст без информации о времени. Транскрипция — отличный вариант сделать программы, содержащие только аудио, такие как подкасты и радиошоу, более доступными для глухих и слабослышащих людей.Когда дело доходит до видео, транскрипция является отличным дополнением к субтитрам; тем не менее, это не считается заменой на основании законов и стандартов доступности.

Дословная и чистая стенограмма чтения

Существует две основные практики транскрипции: дословная и чистая. Дословная практика транскрибирует текст дословно и включает в себя всю речь и высказывания, которые произносит говорящий. Слова-заполнители, такие как «ммм», речевые ошибки и сленговые слова, включаются в расшифровку стенограммы.Это обычно полезно для сценариев, где все создается намеренно, и это более чем вероятно имеет отношение к сюжету сюжета или сюжетной линии.

Чистое чтение — это текстовый формат, исключающий речевые ошибки, слова-вставки и любые другие непреднамеренные высказывания говорящего. Эта практика полезна для интервью, публичных выступлений и других средств массовой информации без сценария.

При любой транскрипции следует придерживаться некоторых рекомендаций. Убедившись, что каждая стенограмма совпадает со звуком, и что в ней указаны разные выступающие, будет иметь большое значение для вашей аудитории.Когда дело доходит до транскрипции, ключевыми факторами являются точность и ясность!

Теперь, когда мы ответили на вопрос «Что такое транскрипция?», Давайте углубимся в дополнительную информацию, которая поможет вам на пути к пониманию транскрипции в целом.

Форматы стенограммы

Существует несколько форматов файлов с расшифровками, каждый из которых имеет свои преимущества и преимущества.

HTML

Если вы хотите, чтобы ваша стенограмма размещалась на веб-странице, этот формат файла для вас. Вы можете сделать свой HTML-текст совместимым с программами чтения с экрана.Программы чтения с экрана преобразуют цифровой текст в синтезированную речь и полезны для слепых или слабовидящих людей, а также людей с ограниченными когнитивными функциями или способностями к обучению. Этот формат позволяет программе чтения с экрана преобразовывать цифровой текст в синтезированную речь.

Word (.doc) или текстовый (.txt) документ

В то время как текстовые и текстовые документы предоставляют текстовую версию вашей расшифровки, документ .txt вообще не имеет форматирования. В отличие от текстового документа, файл документа Word представляет собой отформатированную версию текста, и его можно редактировать или сохранять в неизменном виде.Наряду с простым документом Word вы также можете создавать документы с отметками времени и документы с отметками SMPTE.

PDF (.pdf)

Как и документ Word, PDF-файл представляет собой простой текстовый файл с форматированием. Основное отличие состоит в том, что конечный пользователь не имеет возможности редактировать файл. PDF-файлы также легко загрузить в Интернет.

Как расшифровать видео

Кто угодно может транскрибировать видео. Исходя из ваших потребностей, вы можете решить расшифровать свой контент самостоятельно или обратиться в профессиональную службу транскрипции.

Внутренняя расшифровка

Вы не поверите, но расшифровать видео и аудио самостоятельно или самостоятельно довольно просто. Все, что вам нужно сделать, это прослушать видео или аудио и вручную ввести озвученный контент в текстовый редактор. Это недорогой способ обеспечить расшифровку всех ваших медиафайлов, но, как вы понимаете, это трудоемкий процесс.

К счастью, есть определенные инструменты, которые немного облегчат это бремя. Программное обеспечение автоматического распознавания речи (ASR), такое как Dragon или Camtasia, запустит процесс за вас, хотя будет много ошибок.Идея состоит в том, что для редактирования неточной расшифровки требуется гораздо меньше труда, чем для того, чтобы начать с самого начала самостоятельно. Вы можете даже пойти дальше и использовать программное обеспечение для транскрипции, такое как Express Scribe, которое предназначено для повышения эффективности процесса транскрипции.

Служба профессиональной транскрипции

Для тех, кто создает или владеет большими медиа-библиотеками, и у кого нет пропускной способности для создания стенограмм внутри компании, профессиональная служба транскрипции может быть подходящей для вас.Ваши медиафайлы будут возвращены вам во всех форматах вывода, избавляя от необходимости вручную конвертировать файлы. Хотя эта услуга стоит дорого, она сэкономит вам время и силы. Вы можете сесть и расслабиться или сосредоточиться на других вещах, пока ваше видео и аудио записываются издалека.

Достаточно ли транскрипции для удовлетворения требований законодательства?

Хотя транскрипция — отличный способ сделать видео более доступным для любой аудитории, сама по себе этого недостаточно для соблюдения требований законодательства.

Закон об американцах с ограниченными возможностями (ADA)

Закон об американцах с ограниченными возможностями (ADA) — это широкий закон о борьбе с дискриминацией в отношении лиц с ограниченными возможностями. Это требует, чтобы в отношении общения эквивалентный опыт был доступен для глухих или слабослышащих зрителей. Простая расшифровка текста не позволяет зрителю синхронно следить за текстом и изображениями, что может привести к путанице и неспособности зрителя правильно понять контекст.По этой причине для видеоконтента необходимы скрытые субтитры.

Закон о реабилитации

Раздел 508 Закона о реабилитации требует соблюдения стандартов WCAG 2.0 AA. В связи с этим, чтобы все предварительно записанное и живое видео соответствовало закону, должны быть включены скрытые субтитры. Согласно WCAG 2.0 и обновленному 2.1, стандарты уровня A требуют расшифровки стенограммы для всего аудиоконтента.

Законы о доступности делают использование скрытых субтитров обязательным, а стенограмма сама по себе не соответствует требованиям закона.В конечном итоге цель состоит в том, чтобы обеспечить равный доступ к контенту для всех человек.

Преимущества транскрипции

Транскрипция дает три основных преимущества: доступность, удобство для пользователя (UX) и поисковая оптимизация (SEO).

Доступность

Для глухих и слабослышащих людей расшифровки стенограммы недостаточно для создания эквивалентного впечатления от просмотра. Однако это может помочь более четко передать устное сообщение. Для слепых и слабовидящих людей они могут использовать стенограммы, чтобы описывать визуальные аспекты медиа.И скрытые субтитры, и стенограммы работают вместе, чтобы создать доступный для всех медиафайл. Замечательно то, что вы можете использовать видео- и аудиозаписи для создания скрытых субтитров.

Пользовательский опыт (UX)

Стенограммы

улучшают взаимодействие с пользователем, предоставляя посетителям альтернативный способ взаимодействия с вашим видео- или аудиоконтентом. СМИ можно сделать более привлекательными, включив интерактивную расшифровку стенограммы и поиск по списку воспроизведения. Если опыт будет лучше, то пользователи будут проводить больше времени на вашей странице или сайте, что положительно повлияет на SEO страницы.

Согласно национальному исследованию Университета штата Орегон, стенограммы влияют на опыт студентов в высшем образовании. Более 99% студентов посещают занятия, в которых видео включено в курсовую работу, что делает видео частью их учебного процесса. Данные показывают, что 81% участников используют стенограммы в качестве учебного пособия, чтобы помочь сохранить информацию, найти информацию и в качестве учебного пособия.

Поисковая оптимизация (SEO)

Поисковые системы не могут сканировать или индексировать видео или аудио контент.Имея расшифровку стенограммы, это позволяет поисковым системам делать именно это. В целом, это сделает ваш видео- или аудиоконтент более доступным для поиска и более легким для вашей аудитории. Это также поможет вашей странице ранжироваться по более разнообразным ключевым словам, которые могут быть включены в вашу расшифровку.

Интерактивные стенограммы

Интерактивные стенограммы, также известные как синхронизированные по времени стенограммы, представляют собой еще один способ взаимодействия пользователей с вашим контентом. Каждое слово стенограммы ведет себя как отдельная ссылка, которая при нажатии ведет прямо к тому месту в видео, когда оно произносится.Существует также возможность поиска в расшифровке стенограммы, что упрощает поиск определенных ключевых слов и тем.

Поиск по плейлисту

Поиск по плейлисту — это функция, которая объединяет видео в плейлист вместе с их транскриптами. Панель поиска позволяет пользователям выполнять поиск по ключевым словам во всей видеотеке. Включение этой функции на ваш сайт имеет множество преимуществ, таких как лучшее взаимодействие с пользователем, повышенная доступность, а также более высокая эффективность и организация мультимедиа.

Исследование SEO: эта американская жизнь

This American Life (TAL) — общественное радио-шоу и один из самых популярных подкастов.TAL транслирует более 500 станций и имеет почти 2,1 миллиона пользователей. Шоу уделяет существенное внимание своему веб-сайту, предоставляя своим слушателям бесплатную потоковую передачу всех шоу.

TAL намеревается расшифровать 100% своей аудиотеки, чтобы увеличить входящий трафик и ссылки, улучшить взаимодействие с пользователем и сделать их контент более доступным.

После расшифровки всего архива TAL были достигнуты впечатляющие результаты. Входящие ссылки увеличились на 3,89%, уникальных посетителей — на 4.18%, а объем обычного поиска увеличился на 6,68%.

This American Life — истинное свидетельство того, как транскрипция может положительно повлиять на ваши цели и рост.

Теперь, когда вы знаете о преимуществах транскрипции, вы можете начать делать свой видео- и аудиоконтент более удобным и доступным для поиска.

3Play Media может помочь вам с транскрипцией!

лекций25

лекций25

9 марта 2005

Лекция 25

Чтение: Глава 8


VI.Гены

A. Синтез белка (Центральный Догма)

B. Геномы

C. Регуляция генов

Активность, т.е. транскрипция, гены строго регулируются. В нашем обсуждении мы поместим гены в три категории, основанные на их регуляции: конститутивные гены, индуцибельные гены и гены с молчанием. Учредительные гены — это те которые всегда активны.Примером являются гены рибосом. Они есть постоянно транскрибируется, потому что рибосомы постоянно нужны для синтеза белка. Индуцибельные гены — это гены, у которых есть переменные активность, в зависимости от потребностей клетки. Например, белки-переносчики глюкозы, которые мышечные клетки производят в ответ на инсулин — продукт индуцибельных генов. Инсулин стимулирует их деятельность. Заглушенные гены — это те гены, которые были навсегда обращены выключенный. Например, некоторые гены, необходимые для функционирования нервных клеток, будут заглушается в мышечных клетках.Подавление гена — часть процесса клетки приобретают различную идентичность.

1. Промоторы и транскрипция Постановление

Гены состоят из разных частей. В последовательность оснований, которая кодирует аминокислоты в белке, — это всего лишь одно из этих. Другая часть всех генов — это промотор . Это сегмент ДНК выше области, которая транскрибируется в информационная РНК. Это часть гена, с которой связывается РНК-полимераза. и начинает копирование последовательности гена в информационную РНК.

Транскрипция генов контролируется белками, которые связываются с промотором или рядом с ним. Некоторые белки будут способствуют связыванию РНК-полимеразы и тем самым транскрипции ген. Другие белки будут препятствовать связыванию РНК-полимеразы и таким образом предотвратить транскрипцию гена. Эти белки называются «генные регуляторные белки». (Вы увидите, что они называются транскрипцией факторов и регуляторных белков в вашем тексте, и есть много других названия для них, в зависимости от того, что делает белок.Мы назовем их все «генные регуляторные белки»). Кодируются регуляторные белки генов для «регуляторных генов». Регуляторные белки генов часто связываются с более одного гена, что означает, что регуляторный ген может одновременно регулируют активность наборов генов.

Некоторые регуляторные белки генов связываются с места, отличные от промотора гена, но все же влияют на его транскрипция. Например, некоторые белки связываются с «энхансерами», которые — это участки ДНК, расположенные на сотни оснований выше промоутер.Считается, что эти области могут закручиваться так, что они взаимодействуют с промотором и улучшают связывание РНК-полимеразы для транскрипции.

2. Интроны, экзоны и альтернативы сращивание

В области гена, который транскрибируется в информационную РНК, есть сегменты ДНК, которые не код для аминокислотной последовательности. Эти сегменты называются «интронами», что является сокращением от «промежуточных последовательностей».Части гена последовательность, которая транслируется в аминокислотную последовательность, называется «экзоны». Экзоны и интроны копируются РНК в информационную РНК. полимеразы, но интроны вырезаются путем редактирования ферментов до информационная РНК покидает ядро. Последовательности интронов вырезаны из молекула матричной РНК и экзоны сплайсированы все вместе.

Иногда экзоны гена соединены несколькими разными способами, что приводит к разным виды белков.Этот процесс называется «альтернативным сращиванием». Альтернативный сплайсинг — это средство, с помощью которого гены могут регулироваться после транскрипция происходит. Это также способ для клеток производить больше белки, чем у них есть гены. Поскольку синтез белка происходил была выдвинута гипотеза о том, что один ген кодирует один белок. В целом это так, но альтернативное сращивание — одно из возможных решений. исключение из этого правила.

Всесторонняя транскрипция генома человека дает тысячи ранее не идентифицированных длинных межгенных некодирующих РНК

Abstract

Известные экзоны гена, кодирующего белок, составляют менее 3% генома человека.Остальные 97% — это в основном неизведанная территория, охарактеризована лишь небольшая часть. Недавнее наблюдение транскрипции на этой межгенной территории стимулировало дебаты о степени межгенной транскрипции и функциональности этих межгенных РНК. Здесь мы непосредственно наблюдали с большим набором данных RNA-seq, охватывающих широкий спектр типов тканей человека, что большая часть генома действительно транскрибируется, подтверждая недавние наблюдения проекта ENCODE. Кроме того, используя сборку транскриптома de novo из этих данных РНК-seq, мы обнаружили, что межгенные области кодируют гораздо более длинные межгенные некодирующие РНК (lincRNAs), чем описано ранее, что помогает устранить несоответствие между огромным количеством наблюдаемой межгенной транскрипции и ограниченное количество ранее известных линкРНК.В общей сложности мы идентифицировали десятки тысяч предполагаемых lincRNAs, экспрессируемых как минимум в одной копии на клетку, что значительно расширило предыдущие наборы аннотаций lincRNA. Эти lincRNA специфически регулируются и сохраняются, а не являются продуктом транскрипционного шума. Кроме того, lincRNA сильно обогащены SNP, ассоциированными с признаками, что указывает на новый механизм, с помощью которого могут функционировать области, ассоциированные с межгенными признаками. Эти результаты позволят обнаруживать и исследовать новые межгенные функциональные элементы.

Сведения об авторе

Большая часть генома человека состоит из межгенных последовательностей, областей между генами. Когда-то считалось, что межгенная последовательность представляет собой «мусорную ДНК», не имеющую отношения к транскрипции, но недавно стало очевидно, что межгенные области могут транскрибироваться. Однако объем, природа и идентичность этой межгенной транскрипции остаются неизвестными. Здесь, анализируя большой набор данных RNA-seq, мы обнаружили, что транскрибируется> 85% генома, что позволяет нам создать полный каталог важного класса межгенных транскриптов: длинных межгенных некодирующих РНК (lincRNA).Мы обнаружили, что геном кодирует гораздо больше lincRNA, чем было известно ранее. Ключевой вопрос в этой области заключается в том, являются ли эти межгенные транскрипты функциональным или транскрипционным шумом. Мы обнаружили, что идентифицированные нами lincRNA обладают многими характеристиками, несовместимыми с шумом, включая специфическую регуляцию их экспрессии, наличие консервативной последовательности и доказательства регулируемого процессинга. Кроме того, эти линкРНК сильно обогащены межгенными последовательностями, которые, как ранее было известно, функциональны при человеческих свойствах и заболеваниях.Это исследование обеспечивает важную основу, с помощью которой можно идентифицировать и охарактеризовать функциональные элементы в межгенных регионах, облегчая будущие усилия по пониманию роли межгенной транскрипции в здоровье и болезнях человека.

Образец цитирования: Hangauer MJ, Vaughn IW, McManus MT (2013) Всесторонняя транскрипция генома человека производит тысячи ранее не идентифицированных длинных межгенных некодирующих РНК. PLoS Genet 9 (6): e1003569. https: // doi.org / 10.1371 / journal.pgen.1003569

Редактор: Джон Л. Ринн, Институт Броуда Массачусетского технологического института и Гарвард, Соединенные Штаты Америки

Поступила: 28 сентября 2012 г .; Дата принятия: 1 мая 2013 г .; Опубликован: 20 июня 2013 г.

Авторские права: © 2013 Hangauer et al. Это статья в открытом доступе, распространяемая в соответствии с условиями лицензии Creative Commons Attribution License, которая разрешает неограниченное использование, распространение и воспроизведение на любом носителе при условии указания автора и источника.

Финансирование: Эта работа финансировалась грантом NIH 5U01ES017154 как часть NIH Human Epigenome Atlas UCSF-UBC Reference Epigenome Mapping Center (MTM), грант NIH U01CA168370 как часть NIH Bay Area Cancer Target Discovery and Development Network ( MTM), PBBR New Frontier Research Award (MTM) и Susan G. Komen For The Cure Postdoctoral Fellowship KG1101214 (MJH). Финансирующие организации не играли никакой роли в дизайне исследования, сборе и анализе данных, принятии решения о публикации или подготовке рукописи.

Конкурирующие интересы: Авторы заявили об отсутствии конкурирующих интересов.

Введение

Большая часть генома человека состоит из межгенных последовательностей. Когда-то упоминавшаяся как «мусорная ДНК», теперь ясно, что функциональные элементы существуют в межгенных областях. Фактически, полногеномные ассоциативные исследования показали, что примерно половина всех геномных областей, ассоциированных с заболеваниями и признаками, являются межгенными [1]. Хотя некоторые из этих областей могут функционировать исключительно как элементы ДНК, теперь известно, что межгенные области могут транскрибироваться [2] — [7], и появился постоянно растущий список функциональных некодирующих генов РНК в межгенных областях [8].

Несмотря на этот прогресс, полное понимание степени межгенной транскрипции и идентичности этих транскриптов остается неуловимым. Первые попытки проанализировать степень и природу межгенной транскрипции использовали технологию тайлинг-массива [2] — [5]. Эти исследования подтвердили, что межгенная транскрипция является повсеместной, но озабоченность по поводу кросс-гибридизации вызвала споры по поводу данных [9] — [12]. Кроме того, чтобы избежать технических трудностей, связанных с анализом повторяющейся последовательности с использованием тайлинговых массивов, исследования были ограничены оценкой менее половины генома.Совсем недавно несколько исследований были сосредоточены на оценке степени межгенной транскрипции с использованием подходов, основанных на секвенировании, но за исключением недавно опубликованных результатов проекта ENCODE [13], [14], эти исследования до сих пор ограничивались очень узкими предварительно отобранные участки генома и небольшое количество тканей [6], [7]. Преодолевая эти предыдущие недостатки, проект ENCODE использовал анализ последовательности РНК в сочетании с другими технологиями для профилирования 15 линий клеток человека, обеспечивая доказательства транскрипции в 83.7% генома человека и твердо устанавливают реальность всепроникающей транскрипции [14].

Длинные межгенные некодирующие РНК (lincRNA) определяются как межгенные (относительно текущих аннотаций генов) транскрипты длиной более 200 нуклеотидов, которые не обладают способностью кодировать белок. LincRNAs, как известно, выполняют множество функций посредством различных механизмов, начиная от регуляции эпигенетических модификаций и экспрессии генов до действия в качестве каркаса для белковых сигнальных комплексов [8], [15].Первые попытки генерировать наборы аннотаций lincRNA либо профилированные lincRNAs, специфичные для небольшого количества тканей, либо требовали, чтобы транскрипты обладали специфическими структурными особенностями, такими как сплайсинг и полиаденилирование [16] — [18]. Консорциум GENCODE (GENCODE v7) вручную курировал около пяти тысяч lincRNA, которые не ограничены конкретными тканями или структурными особенностями, однако этот набор аннотаций содержит только небольшую часть всех lincRNA, поскольку он не использует данные RNA-seq для идентификации новые записи [19], [20].Ограниченный масштаб текущих аннотаций lincRNA, включая GENCODE, явно несовместим с огромным количеством межгенной транскрипции, наблюдаемой в проекте ENCODE. Следовательно, следует ожидать, что геном кодирует гораздо больше lincRNA, чем известно в настоящее время.

Чтобы преодолеть разрыв между наблюдением всеобъемлющей межгенной транскрипции в рамках проекта ENCODE и ограниченным в настоящее время набором аннотированных lincRNAs, мы провели анализ уникального набора данных RNA-seq, полученных как из новых, так и из опубликованных наборов данных, которые дополняют и значительно расширяет предыдущие исследования [14], [16], [19].Этот анализ привел к четкому подтверждению наблюдений всеобъемлющей транскрипции в геноме человека в рамках проекта ENCODE [14]. Более того, анализ ранее аннотированных предполагаемых lincRNAs, включая таковые из проекта ENCODE [19], в дополнение к открытию de novo новых lincRNAs из данных RNA-seq привел к составлению наиболее полного каталога человеческих lincRNAs. Благодаря расширенному диапазону образцов тканей и ослаблению ограничений на структуру транскриптов, мы находим значительно больше lincRNAs, чем все предыдущие наборы аннотаций lincRNA вместе взятые.Наш анализ показал, что эти lincRNAs демонстрируют многие особенности, согласующиеся с функциональностью, в отличие от предшествующих заявлений о том, что межгенная транскрипция является в первую очередь продуктом транскрипционного шума [12]. В целом, наши результаты подтверждают недавние сообщения о всеобъемлющей транскрипции в геноме человека и демонстрируют, что межгенная транскрипция приводит к продукции большого количества ранее неизвестных lincRNAs. Мы предоставляем этот значительно расширенный набор аннотаций lincRNA в качестве важного ресурса для изучения межгенных функциональных элементов в здоровье и болезнях человека.

Результаты

Количественное определение степени транскрипции генома человека

Мы проанализировали шесть новых наборов данных RNA-seq, созданных в рамках Атласа эпигенома человека (http://www.genboree.org/epigenomeatlas/index.rhtml), и 121 ранее опубликованный набор данных RNA-seq, представляющих 23 ткани человека в различных условиях. и состоящий из более чем 4,5 миллиардов однозначно отображаемых операций чтения (таблица S1). Этот набор данных RNA-seq позволил обнаружить как редкие, так и тканеспецифические события транскрипции, которые в противном случае нельзя было бы обнаружить.В отличие от ограниченного охвата предыдущих исследований мозаичных массивов [2] — [5], мы проанализировали гораздо большую часть (83,4%) генома, с которой считывания RNA-seq могут быть однозначно сопоставлены, что обеспечивает более широкое представление о транскриптоме. . При пороге одного чтения РНК-секвенции мы наблюдали картирование чтения на 78,9% генома, и, если принимать во внимание дополнительные доказательства транскрипции, включая полные структуры известных генов, сплайсированных EST и кДНК, мы обнаружили доказательства того, что 85,2% генома транскрибируется (рис. 1А).Этот результат полностью согласуется с недавно опубликованными результатами проекта ENCODE, в котором были обнаружены доказательства транскрипции 83,7% генома [14]. Интересно, что даже с 4,5 миллиардами отображенных считываний мы наблюдаем увеличение геномного покрытия при каждом более низком пороге считывания, что означает, что даже большая глубина считывания может выявить еще более высокий геномный охват. (Рисунок S1).

Рисунок 1. Человеческий межгенный транскриптом.

(A) 85,2% генома имеет свидетельства транскрипции, при этом RNA-seq reads отображается непосредственно на 78.9% геномной последовательности. Остающийся геномный охват состоит из известных генов, сплайсированных EST и сплайсированных кДНК. Серый кружок представляет собой часть генома (83,4%), которая однозначно картируется с помощью считываний RNA-seq. (B) Распределение уровней экспрессии экзона, интрона и межгенной области, кодирующего белок (ген NM). В регионах с высоким уровнем выраженности большая часть базовых вызовов появляется на более высоких глубинах чтения. Экзоны гена, кодирующего белок, имеют наибольшую долю оснований с высокой глубиной считывания, в то время как интроны и межгенные области имеют относительно больше оснований с низкой глубиной считывания, хотя каждый из них содержит много высоко экспрессируемых участков.Базовые вызовы = (# геномных позиций на определенной глубине чтения) (глубина чтения). (C) Большая часть межгенной транскрипции происходит за пределами аннотированных генов некодирующей РНК. Сравнивается доля вызовов межгенных оснований в генах некодирующей РНК RefSeq (NR-гены) по сравнению с другими межгенными участками. В (A – C) рассматриваются только однозначно отображаемые части генома (см. Методы).

https://doi.org/10.1371/journal.pgen.1003569.g001

Как и ожидалось, экзоны генов, кодирующих белок, содержат наибольшую долю высокоэкспрессируемых оснований (рис. 1B), а также непропорционально большую долю от общего числа считываний по сравнению с их небольшое (<3%) количество геномной последовательности (Рисунок S2).Однако многие регионы с высокой экспрессией действительно существуют внутри межгенных регионов, гораздо больше, чем это объясняется текущими аннотациями генов некодирующей РНК (Figure 1C). Мы рассудили, что эта неучтенная межгенная транскрипция должна происходить из новых межгенных транскриптов, и затем направили наши усилия на идентификацию и анализ этих транскриптов.

Открытие большого количества новых LincRNA

Мы предположили, что большая часть межгенной транскрипции, не учитываемая ранее аннотированными транскриптами, происходит от новых lincRNAs.Мы рассудили, что, поскольку экспрессия lincRNA, как известно, очень тканеспецифична [16], широта тканей и условий, отобранных в анализируемых здесь наборах данных RNA-seq, может помочь в обнаружении lincRNA.

Мы использовали этот большой набор данных RNA-seq в сочетании с предыдущими наборами аннотаций некодирующих РНК для создания наиболее полного каталога lincRNAs (рисунок 2A). Чтобы создать этот каталог lincRNA, мы сначала собрали известные и предполагаемые аннотированные lincRNA. Мы собрали некодирующие РНК, присутствующие в общедоступных базах данных, включая GENCODE v6, и из литературных источников [16], [18], в результате чего был получен набор из 351 940 транскриптов.Кроме того, мы выполнили сборку транскриптомов de novo на каждом из наборов данных RNA-seq (Таблица S2) для создания 6 833 809 собранных транскриптов de novo . Как ранее аннотированные, так и собранные de novo транскрипты были отфильтрованы для удаления транскриптов, перекрывающих гены, кодирующие белок, известные гены РНК, не кодирующие lincRNA, и псевдогены. Транскрипты длиной более 200 нуклеотидов дополнительно фильтровали для удаления любых транскриптов, содержащих (или перекрывающих любой другой транскрипт, содержащий) открытую рамку считывания (ORF) длиной более 100 аминокислот.Из-за опасений, что около собранных de novo транскриптов могут быть неаннотированными расширениями соседних генов, кодирующих белок, как это недавно наблюдалось для части длинных некодирующих РНК GENCODE [19], мы создали дополнительный фильтр для удаления транскриптов, связанных с соседними генами посредством РНК-seq читает. Для этого мы расширили аннотации ссылок на гены, кодирующие белок, используя сборку транскриптомов de novo и удалили транскрипты, перекрывающие эти расширенные генные структуры (см. Методы, набор данных S1).

Рисунок 2. Открытие линкРНК.

(A) Открытие lincRNA включало сборку de novo транскриптов из данных RNA-seq и компиляцию аннотированных и предполагаемых некодирующих РНК (см. Методы), за которыми следовала серия фильтров, предназначенных для удаления всех известных и новых кодирующих белков. транскрипты и некодирующие РНК, отличные от lincRNA. Только межгенные некодирующие транскрипты длиной по крайней мере 200 нуклеотидов и экспрессируемые по крайней мере по одной копии на клетку в конечном итоге аннотировали как lincRNAs.(B) Анализ данных рибосомного профилирования показывает, что каталог lincRNA состоит из некодирующих транскриптов. Максимальное соотношение окна 30 п.н. рибосом HeLa / считываний РНК-seq [22] нанесено на график для экзонов lincRNA, 3 ‘UTR и кодирующих последовательностей (CDS). * P <2.2E-16; усы увеличивают межквартильный размах в +/- 1,5 раза, а точки представляют собой выбросы. (C) Компьютерный анализ способности lincRNA кодировать белок показывает отсутствие способности кодировать белок. На графике нанесено кумулятивное распределение оценок PhyloCSF [40] для lincRNA и RefSeq NM генов.Более высокие оценки соответствуют более высокой прогнозируемой способности кодирования.

https://doi.org/10.1371/journal.pgen.1003569.g002

На последнем этапе мы удалили транскрипты, выраженные с количеством фрагментов на килобазу транскрипта на миллион отображенных считываний (FPKM) <1, порог примерно эквивалентен одному копировать на ячейку [21] (Таблица S1). Для уменьшения избыточности и с целью идентификации «генов» линкРНК, а не потенциально избыточных перекрывающихся «транскриптов», оставшиеся транскрипты были объединены, если они имели хотя бы один общий экзон (см. Методы), в результате получилось 53 864 различных предполагаемых lincRNA с FPKM> 1, 3676 линкРНК при FPKM> 10 и 925 линкРНК при FPKM> 30 (набор данных S2 и рисунок S3).Удивительно, но более 94% окончательного набора объединенных lincRNA на каждом уровне экспрессии состоит исключительно из новых собранных de novo транскриптов, обнаруженных на основе данных RNA-seq в этом исследовании (таблица S3 и набор данных S2). Эти lincRNAs распределены по всей межгенной последовательности вместо того, чтобы кластеризоваться рядом с аннотированными в настоящее время генами. 58,1% FPKM> 1 lincRNA, 61,9% FPKM> 10 lincRNA и 67,7% FPKM> 30 lincRNA находятся на расстоянии более 30 тысяч оснований от ближайшего гена, кодирующего белок, на любой цепи.Мы аннотировали lincRNAs как принадлежащие к одной и той же «группе» (см. Методы), если они находятся в пределах 1 килобаз друг от друга, чтобы учесть возможность того, что некоторые проксимальные аннотации lincRNA могут быть частичными структурами более крупных транскриптов (см. Обсуждение). Это группирование привело к 35 585 отдельным группам lincRNA при FPKM> 1, 2970 при FPKM> 10 и 764 при FPKM> 30, и lincRNA в каталоге названы в соответствии с этими группами (набор данных S2). Эти аннотации, вероятно, будут неполными из-за ограничений сборки транскриптов из данных RNA-seq; действительно, некоторые аннотации могут быть фрагментами более крупных перекрывающихся транскриптов lincRNA.Следовательно, фактическое количество независимых lincRNAs может отличаться от приведенных выше чисел, и в будущем необходима работа для более полного определения полных, независимых аннотаций транскриптов lincRNA (см. Обсуждение).

Оценка подхода к фильтрации LincRNA

Мы оценили строгость, с которой наш процесс фильтрации удалял кодирующие белки транскрипты, анализируя данные рибосомного профилирования клеток HeLa (рис. 2B) [22]. Как и ожидалось, lincRNAs напоминают экзоны 3′-нетранслируемой области генов, кодирующих белок, с очень небольшим количеством транскриптов, демонстрирующих значительное взаимодействие с рибосомой.Это открытие согласуется с недавним наблюдением, что длинные некодирующие РНК GENCODE (подмножество нашего каталога) обычно лишены основанных на масс-спектрометрии доказательств трансляции [23]. Напротив, недавнее исследование показало, что многие ранее аннотированные lincRNA мыши связывают рибосомы [24]. Хотя биологическое значение этого несоответствия неизвестно, оно может быть результатом различий в строгости подхода к фильтрации, используемого при генерации рассматриваемых аннотаций lincRNA.Дальнейшее подтверждение строгости наших фильтров, вычислительный анализ потенциала кодирования белка с использованием программы PhyloCSF показал, что наш набор отфильтрованных lincRNAs не имеет предсказанной способности кодирования белка (рис. 2C). Из этих анализов мы пришли к выводу, что наш подход к фильтрации эффективно удалил кодирующие белки транскрипты из каталога.

Дополнительные каталоги и ресурсы LincRNA

В то время как оставшаяся часть этого исследования посвящена этому каталогу предполагаемых lincRNAs (Dataset S2), мы предоставили несколько альтернативных каталогов lincRNA.Они включают объединенный каталог lincRNAs, идентифицированных в этом исследовании, объединенных (см. Методы) с набором дополнительных lincRNAs, идентифицированных в Cabili, et al. [16], которые прошли все наши фильтры, за исключением того, что они не экспрессировались при FPKM> 1 ни в одном из проанализированных здесь наборов данных RNA-seq. Добавленные lincRNA экспрессируются при FPKM> 1 в одном или нескольких наборах данных RNA-seq, проанализированных в Cabili et al. [16], которые полностью отличаются от анализируемых здесь наборов данных и, следовательно, могут быть подлинными lincRNAs по нашим критериям.Этот каталог (Dataset S3) включает 54 784 lincRNA с FPKM> 1 (920 дополнительных lincRNA по сравнению с Dataset S2), 3764 lincRNA с FPKM> 10 (88 дополнительных lincRNA) и 942 lincRNA с FPKM> 30 (17 дополнительных lincRNA). Кроме того, мы включили каталог сплайсированных lincRNA, которые экспрессируются при FPKM> 1, по крайней мере, в одном наборе данных (4576 lincRNAs, Dataset S4), из которых 61% состоит исключительно из собранных de novo транскриптов, обнаруженных в этом исследовании. Мы также составили каталог lincRNAs, экспрессируемых при FPKM> 1, по крайней мере, в двух наборах данных (26 455 lincRNAs, Dataset S5), из которых 97% представляют собой исключительно собранных de novo транскриптов, обнаруженных здесь.Кроме того, был включен альтернативный каталог lincRNA, содержащий только те lincRNA, экспрессируемые значительно выше, чем случайно выбранные межгенные области (см. Методы) (5267 lincRNA, наборы данных S6, S7). Кроме того, в качестве дополнительного ресурса мы предоставляем уровень экспрессии (количество считываний FPKM и raw RNA-seq) всех lincRNA (в наборе данных S2) и генов, кодирующих белок RefSeq, во всех 127 наборах данных RNA-seq (набор данных S8).

LincRNAs специально регулируются

Степень функциональности межгенной транскрипции остается неопределенной и спорной [9] — [12], [25].Чтобы оценить, регулируются ли lincRNAs, идентифицированные в настоящем исследовании, специфически, в отличие от транскрипционного шума, мы определили, несут ли гены lincRNA канонические эпигенетические метки для активации и репрессии, мотивируя это тем, что шумовые транскрипты не должны иметь когерентных паттернов эпигенетической модификации. В соответствии с наблюдениями, основанными на более ранних аннотациях длинных некодирующих РНК [18], [19], [26], [27], анализ данных ChIP-seq и RNA-seq [28], [29] показал, что каталог lincRNAs показывает паттерны эпигенетической модификации аналогичны генам, кодирующим белок (рис. 3А).Активирующие гистоновые метки, h4K4me3 и h4K36me3, оба значительно обогащены высокоэкспрессируемыми lincRNA. Точно так же репрессивная метка h4K27me3 значительно обогащена низкоэкспрессируемыми lincRNA. Таким образом, экспрессия lincRNA, по-видимому, специфически регулируется.

Рис. 3. LincRNA обладают характеристиками, несовместимыми с шумом транскрипции.

(A) Данные ChIP-seq и RNA-seq из клеток IMR90 [28], [29] были проанализированы на предмет lincRNAs и RefSeq NM генов. * P = 4.01E-7, ** P = 4,52E-9, *** P = 2,43E-14, **** P <2,2E-16; P = 0,137 для линкРНК h4K9me3; усы простираются до +/- 1,5-кратного межквартильного размаха или до самой экстремальной точки данных. (B) Сравнивались значения FPKM LincRNA в полиА + -специфичных и полиА- специфичных библиотеках РНК-seq в ESCs H9 и клетках HeLa [46]. Транскрипты с RNA-seq считываниями во всех четырех наборах данных и с FPKM> 1 по крайней мере в одной из двух фракций для каждого типа клеток были проанализированы (16 819 генов NM и 127 lincRNA).На графике нанесены индивидуальные соотношения генов lincRNA и NM FPKM во фракциях polyA + / polyA-. Значение корреляции Пирсона для lincRNAs = 0,622 ( P = 5,551E-15) и для генов NM = 0,702 ( P <2,2E-16). (C) Определяли максимально консервативные окна размером 50 п.н. в каждом гене NM, lincRNA и повторяющемся элементе (неконсервативные контрольные последовательности). Для сравнения указаны максимально консервативные окна размером 50 п.н. 12 функциональных lincRNA человека.

https: // doi.org / 10.1371 / journal.pgen.1003569.g003

Если lincRNAs специфически регулируются на уровне транскрипции, ожидается, что уровни их экспрессии специфичны для их тканевого источника. Действительно, предыдущие исследования lincRNAs показали, что lincRNAs обнаруживают очень сильную тканеспецифичную экспрессию [16], [19]. Чтобы проверить, остается ли это верным с нашим расширенным набором lincRNA, мы выполнили неконтролируемую иерархическую кластеризацию, используя уровни экспрессии lincRNA в реплицируемых наборах данных RNA-seq из различных тканей (рисунок S4).Реплики каждого типа ткани сильно сгруппированы вместе, что указывает на то, что дифференциальная экспрессия lincRNA действительно воспроизводимо тканеспецифична, поддерживая специфическую регуляцию экспрессии lincRNA.

LincRNAs не нуждаются в полиаденилировании, чтобы быть функциональными [30]. По этой причине мы включили в наш анализ многие библиотеки RNA-seq, которые не были отобраны по полиА +. Фактически, более ранние исследования тайлингового массива показали, что межгенные транскрипты имеют тенденцию быть биморфными; то есть они появляются как во фракциях полиА +, так и полиА-, в отличие от транскриптов, кодирующих белок, которые в основном являются полиА + [3].Недавно опубликованные результаты ENCODE подтверждают этот вывод [14], [19]. В соответствии с этими исследованиями мы обнаружили, что статус полиаденилирования lincRNAs в нашем каталоге воспроизводимо биморфен для нескольких типов клеток, в то время как кодирующие белок транскрипты сильно обогащены в образце polyA +. Воспроизводимость этого биморфного состояния lincRNA предполагает, что полиаденилирование lincRNA регулируется и что многие lincRNA существуют, по крайней мере, частично в виде неполиаденилированных транскриптов (Рисунок 3B и Рисунок S5).Это открытие указывает на то, что будущие исследования lincRNAs не должны игнорировать фракцию неполиаденилированной РНК.

Затем мы оценили, консервативны ли lincRNA. Было замечено, что lincRNAs могут содержать консервативные мотивы, связанные вместе неконсервативной последовательностью [25], [31], [32]. Таким образом, мы оценили сохранение lincRNA, используя окно сканирования 50 п.н. (Рисунок 3C, Рисунок S6 и Таблица S4). В соответствии с предыдущими исследованиями lincRNAs обнаруживают обнаруживаемую, но умеренную консервацию [16], [19].Мы применили этот же метод к известным функциональным lincRNA человека и обнаружили, что большинство lincRNA, идентифицированных в этом исследовании, демонстрируют уровень консервации, соответствующий известным функциональным lincRNAs (рис. 3C).

LincRNA обогащены SNP, ассоциированными с признаками

Почти половина всех ассоциированных с признаками SNPs (TASs), идентифицированных в исследованиях общегеномных ассоциаций, расположена в межгенной последовательности, в то время как только небольшая часть находится в экзонах генов, кодирующих белок [1]. Это любопытное наблюдение указывает на обилие функциональных элементов в межгенной последовательности.Хотя некоторые из этих областей могут функционировать только на уровне ДНК, возможно, что многие из них функционируют, кодируя РНК. Фактически, ТАС уже были идентифицированы внутри или рядом с некодирующими РНК, включая некоторые lincRNAs [16], [33] — [36]. Мы рассудили, что если lincRNAs функциональны, они должны быть обогащены TAS по сравнению с неэкспрессируемыми межгенными регионами. Действительно, мы обнаружили, что lincRNAs более чем в 5 раз обогащены TAS по сравнению с неэкспрессируемыми межгенными регионами (Рисунок 4), несмотря на примерно равное распределение SNP между этими регионами (Рисунок S7).Следовательно, многие межгенные области, ассоциированные с признаками, могут функционировать, кодируя lincRNAs.

Рисунок 4. LincRNAs обогащены SNP, ассоциированными с признаками.

Сравнивается количество ассоциированных с признаком SNP в экзонах гена RefSeq NM, экзонах lincRNA или фоновых локусах (неэкспрессируемая межгенная последовательность) на каждый протестированный SNP в полногеномных исследованиях ассоциации (см. Методы). * P = 0,0173, ** P <2,2E-16; планки ошибок представляют собой 95% доверительный интервал биномиальной пропорции.

https://doi.org/10.1371/journal.pgen.1003569.g004

Discussion

В последнее время велись дебаты о том, существует ли всепроникающая транскрипция генома человека и каково количество и распространенность межгенных транскриптов [9] — [12]. До недавнего времени ключевым отсутствующим компонентом в этой дискуссии был анализ сверхглубоких данных РНК-секвенирования, взятых из широкого спектра типов тканей. Без этого недостаточная глубина считывания может привести к неспособности идентифицировать межгенные транскрипты с низким содержанием, а ограниченный отбор образцов ткани приводит к пропущенной тканеспецифической экспрессии.В ходе этого исследования проект ENCODE выпустил крупномасштабный анализ данных RNA-seq, который предоставил четкие доказательства того, что геном человека транскрибируется повсеместно [14]. Мы проанализировали отдельный дополнительный набор данных последовательности РНК, который также удовлетворяет этим требованиям глубины считывания и ширины ткани, охватывая как полиаденилированные, так и неполиаденилированные фракции РНК. В полном согласии с результатами ENCODE, мы наблюдали, что приблизительно 85% генома транскрибируется, что подтверждает предыдущие наблюдения всеобъемлющей транскрипции, основанные на мозаичных массивах, которые недавно подвергались сомнению [2] — [5].

Существует очевидное несоответствие между этой наблюдаемой всеобъемлющей транскрипцией и относительной малочисленностью аннотированных lincRNAs, наиболее многочисленных межгенных РНК. Следует ожидать, что межгенные области кодируют гораздо больше lincRNA, чем аннотировано в настоящее время. Действительно, здесь мы обнаружили, что существует намного больше lincRNAs, чем было известно ранее, даже после агрессивной фильтрации, которая удалила подавляющее большинство ранее аннотированных длинных некодирующих РНК и недавно обнаруженных межгенных транскриптов (Dataset S2).Эти наблюдения ясно демонстрируют, что человеческий геном транскрибируется повсеместно и что lincRNA составляют чрезвычайно распространенный класс межгенных транскриптов.

В соответствии с предыдущими наблюдениями за меньшими наборами аннотаций lincRNA, наш анализ расширенного каталога lincRNA, представленного здесь, показал, что большинство lincRNAs экспрессируются на более низких уровнях, чем гены, кодирующие белки [16], [19]. Хотя большинство lincRNAs экспрессируются только в нескольких копиях на клетку, мы обнаружили, что многие lincRNAs высоко экспрессируются: около 4000 экспрессируются при> FPKM 10 и почти 1000 экспрессируются при> FPKM 30, конкурируя с экспрессией многих матричных РНК.Мы решили применить ограничение экспрессии, чтобы удалить транскрипты с очень низкой экспрессией из каталога lincRNA. Однако может случиться так, что существует много функциональных lincRNA с очень низкими уровнями экспрессии, ниже порогового значения нашего фильтра экспрессии. Например, функциональная человеческая lincRNA HOTTIP экспрессируется примерно в одной из трех клеток [37]. Более того, недавние открытия показали, что межгенный транскриптом может быть значительно более сложным, чем принято сейчас во внимание, когда рассматриваются транскрипты с очень низкой экспрессией [7].Возможно, что некоторые из них являются функциональными транскриптами, несмотря на их очевидную низкую экспрессию, возможно, имеющие короткие всплески экспрессии во время стадий клеточного цикла или функционирующие в отдельных клетках в гетерогенной популяции, как наблюдалось ранее [14]. Следовательно, хотя мы предоставили наиболее полный каталог lincRNA на сегодняшний день, могут быть дополнительные низкоэкспрессируемые, но потенциально функциональные lincRNA, которые были здесь исключены.

Чтобы свести к минимуму любое возможное загрязнение каталога lincRNA транскриптами, кодирующими белок, использованный подход фильтрации был очень агрессивным.Фактически, большинство ранее аннотированных некодирующих РНК не прошли наши фильтры и поэтому были исключены из каталога lincRNA (таблица S3 и набор данных S9). Подавляющее большинство этих транскриптов (включая большинство «линкРНК» и «процессированных транскриптов» GENCODEv6) перекрывают известные или предсказанные гены, кодирующие белок, псевдогены или некодирующие РНК, не содержащие линкРНК (например, микроРНК) (Таблица S3). Некоторые из этих удаленных транскриптов могут быть функциональными длинными некодирующими РНК, такими как GAS5 (удален, поскольку он содержит 10 генов мяРНК в своих интронах).Однако, чтобы наиболее уверенно идентифицировать только lincRNA, а не потенциальные неаннотированные расширения известных генов, они были удалены.

Из тех ранее аннотированных некодирующих РНК, которые являются межгенными, более половины содержат предсказанные ORF длиной более 100 аминокислот. Например, было обнаружено, что две ранее охарактеризованные функциональные lincRNA человека содержат ORF длиной более 100 аминокислот, Xist и HOTAIR. Эти результаты демонстрируют, что наш подход к фильтрации, который удаляет все транскрипты с открытыми рамками считывания более 100 аминокислот, возможно, позволил удалить некоторые линкРНК с большими нефункциональными рамками считывания.Однако использование отсечки ORF из 100 аминокислот, обычно используемого порога для определения потенциальных генов, кодирующих белок, оправдано, потому что ORF такого размера редко возникают случайно и вместо этого указывают на потенциальную способность кодирования белка [38], [39].

Вместо того, чтобы отбрасывать все транскрипты с большими ORF, как мы сделали здесь, один из вариантов различения транскриптов, которые кодируют, от некодирующих, состоит в анализе частоты замен синонимичных кодонов (PhyloCSF) [40]. Однако этот подход ограничен открытыми рамками считывания, которые могут быть согласованы для разных видов, потенциально пропуская недавно развившиеся или иным образом неконсервативные гены, кодирующие новые белки.Важно отметить, что наш подход к удалению всех транскриптов с большими открытыми рамками считывания эффективно удалял транскрипты со значительным предсказанным кодирующим потенциалом (рис. 2C), указывая на то, что использование ограничения размера ORF по крайней мере так же консервативно, как фильтрация на основе анализа PhyloCSF. Отсутствие вовлечения рибосомы, наблюдаемое с данными профилирования рибосом, подтверждает строгость фильтра отсечения ORF (Рисунок 2B). Дальнейший анализ этих удаленных больших межгенных транскриптов, содержащих ORF, выходит за рамки этого исследования, но мы включили эти аннотации для исследователей, заинтересованных в дальнейшем анализе их кодирующего потенциала в поисках новых генов, кодирующих белок (набор данных S10).

Несмотря на то, что большинство ранее аннотированных некодирующих РНК не смогли пройти наши фильтры, наш каталог lincRNA содержит значительно больше lincRNA, чем было известно ранее (> 94% lincRNAs совершенно новые на каждом уровне экспрессии). Это результат двух уникальных особенностей нашего исследования. Во-первых, глубина считывания RNA-seq и разнообразие исследуемых тканей позволили обнаружить редкие и тканеспецифичные транскрипты, которые ранее были неизвестны. Многие из этих новых транскриптов прошли все фильтры и аннотированы как новые lincRNA в нашем каталоге.Во-вторых, в отличие от предшествующих попыток аннотации lincRNA, которые ограничивались идентификацией только сплайсированных или полиаденилированных lincRNA [16], [19], [41], мы стремились создать аннотации более полного набора lincRNA человека независимо от сплайсинга или полиаденилирования. статус. Причины использования этого подхода разнообразны. Две из наиболее известных и распространенных функциональных lincRNA человека, NEAT1 и MALAT1, представляют собой гены с одним экзоном (как и примерно 5% генов, кодирующих белок) [42], указывая тем самым, что несращенные транскрипты могут составлять важный класс lincRNA.Кроме того, описаны многочисленные функциональные неполиаденилированные некодирующие РНК [30], [43]. Даже длинные некодирующие РНК, которые могут быть сплайсированы, часто встречаются в их необработанных формах [44], отличное свойство длинных некодирующих РНК, которое привело бы к пропущенным lincRNAs, если бы сплайсинг был обязательным атрибутом. Поэтому мы решили не исключать какие-либо линкРНК из этого каталога из-за отсутствия сплайсинга или полиаденилирования. Важно отметить, что, поскольку несплицированные, неполиаденилированные транскрипты теоретически могут быть ошибочно собраны de novo из считываний, полученных из загрязненной геномной ДНК в данных РНК-seq, мы приняли несколько мер, чтобы уменьшить любой вклад загрязняющих считываний геномной ДНК (см. Методы).

Из-за неотъемлемых ограничений сборки транскриптома de novo с использованием коротких чтений конечной глубины не всегда возможно однозначно определить полную структуру транскрипта. Это особенно верно для низкоэкспрессируемых транскриптов, где количество доступных чтений ограничено, и для геномных областей, в которых чтения не могут быть однозначно картированы. В случае малой глубины считывания экзоны мультиэкзонных транскриптов могут не иметь считываний, соединяющих экзоны, и сборка de novo может приводить к отдельной аннотации каждого экзона как отдельного транскрипта.В подтверждение этого мы обнаружили, что более низко экспрессированные lincRNAs, обнаруженные из сборки транскриптов de novo , с меньшей вероятностью имеют мультиэкзонные структуры (Таблица S5). Кроме того, аннотированные 5′- и 3′-концы lincRNA могут представлять собой укороченные транскрипты полной длины. Действительно, наш анализ данных ПЭТ-тегов показал, что, хотя большая часть нашего каталога lincRNA перекрывается по крайней мере одной ПЭТ-тегом, в большинстве случаев существует минимальная поддержка ПЭТ-тегов для аннотированных 5′- и 3′-концов lincRNA (Таблица S6 ).Поэтому некоторые аннотации lincRNA в каталоге, который мы предоставляем (Dataset S2), особенно аннотации lincRNA с одним экзоном, могут представлять собой фрагменты более крупных транскриптов.

Более того, учитывая сообщенную распространенность перекрывающихся транскриптов на низком уровне по всей межгенной последовательности [7], неясно, могут ли полные структуры lincRNA быть однозначно деконволютированными с использованием технологии короткого считывания RNA-seq. Определение полных структур линкРНК будет важным будущим усилием в этой области и может опираться на новые наборы данных с большей длиной чтения и большей глубины чтения, использование нескольких ортогональных типов данных в одной и той же ткани, новые технологии, такие как сверхдлинное считывание следующего поколения. секвенирование и дальнейшие улучшения программного обеспечения для сборки транскриптов de novo .

Кроме того, в большинстве проанализированных нами данных RNA-seq отсутствует информация о цепочке, и в результате большинство lincRNA в нашем каталоге имеют неоднозначную цепочку. Предыдущие аннотации полагались на ориентацию сайта сплайсинга, чтобы сделать вывод о многонитевой структуре транскрипта [16]. Хотя это разумный подход, который мы также приняли, когда он применим в настоящем каталоге lincRNA, данные о цепочечной РНК-seq необходимы для наиболее уверенного определения цепочечности для собранных de novo транскриптов.

Хотя определение изоформ и полных структур всех lincRNAs явно желательно, эти неполные аннотации структуры lincRNA тем не менее имеют огромную практическую ценность. Знания структуры части транскрипта часто достаточно для проверки дифференциальной экспрессии или проведения экспериментов по нокдауну РНКи, а также для облегчения клонирования и секвенирования полноразмерного транскрипта. Из-за этого, вместо того, чтобы накладывать дополнительные ограничения на аннотации lincRNA, наша стратегия фильтрации была направлена ​​на идентификацию как можно большего количества транскриптов, которые соответствуют определению lincRNA.Однако для исследователей, заинтересованных в более точных аннотациях lincRNA, мы предоставили несколько более ограничительных каталогов lincRNA (Datasets S4, S5, S6).

Ключевой вопрос в этой области — являются ли транскрипты, полученные в результате всепроникающей транскрипции межгенных областей, функциональными или являются результатом шумной транскрипции. Описанные нами lincRNA специфически регулируются и содержат консервативные последовательности, атрибуты которых несовместимы с шумом транскрипции (рис. 3). Кроме того, было обнаружено, что lincRNAs сильно обогащены межгенными TAS по сравнению с неэкспрессируемыми межгенными регионами (Рисунок 4).Это поразительное открытие подтверждает возможность того, что многие межгенные SNP маркируют области, которые функционируют как lincRNAs, а не как элементы ДНК. Поскольку почти половина всех TAS являются межгенными, возможно, что lincRNA играют значительную роль в большинстве человеческих черт и заболеваний, проанализированных на данный момент в GWAS. Одна функциональная lincRNA (MIAT) была впервые идентифицирована во время экспериментального исследования межгенного TAS [35], а другая lincRNA PTCSC3 была идентифицирована рядом с TAS, обнаруженным из папиллярной карциномы щитовидной железы GWAS, что, возможно, представляет собой первое из многих таких открытий, которые были сделаны межгенные ТАС.Обнаружение того, что lincRNAs сильно обогащены TASs, предоставляет новую возможность пересмотреть области, ассоциированные с межгенными признаками, с неизвестными функциональными механизмами, проверяя, участвует ли перекрывающаяся lincRNA в наблюдаемом фенотипе.

Этот каталог некодирующих РНК представляет собой важный шаг к более полному пониманию этого захватывающего рубежа. Мы идентифицировали большое количество предполагаемых lincRNAs с характеристиками, предполагающими функциональность. Однако многие из этих lincRNA слабо экспрессируются, и окончательное доказательство функциональности lincRNA требует функциональных экспериментов.Высокопроизводительные функциональные геномные подходы, такие как скрининг сверхэкспрессии РНКи и кДНК, будут служить важнейшими инструментами для будущих усилий по раскрытию роли линкРНК в различных биологических системах. С необходимой технологией, доступной сейчас для этих экспериментальных подходов следующего поколения, настало время, чтобы эта темная материя человеческого генома еще больше вышла в центр внимания.

Материалы и методы

РНК-seq и профилирование рибосом читать выравнивание и обработка

127 файлов последовательностей RNA-seq (5 новых и 122 общедоступных набора данных, таблица S1) были выровнены по hg18 с помощью TopHat v1.1.4 разрешает только однозначно отображенные чтения с использованием опции -g 1 (все остальные параметры были по умолчанию, см. Руководство TopHat http://tophat.cbcb.umd.edu/manual.html). Подробная информация, относящаяся к каждому набору данных, включая новые наборы данных, доступна в источниках, представленных в таблице S1. Эти наборы данных RNA-seq были выбраны потому, что они охватывают широкий спектр человеческих тканей и типов клеток, имеют хорошо задокументированные экспериментальные методы, используемые для их создания, и являются общедоступными. В то время как наборы данных с более длинными чтениями и большей глубиной чтения были предпочтительнее, поскольку они позволяют более полную сборку транскриптов de novo , некоторые наборы данных с короткими чтениями и малой глубиной чтения были включены, чтобы отобрать образцы как можно большего количества типов тканей.Наборы данных, полученные из тканей с мутировавшими геномами, такими как раковые, были включены для захвата тканеспецифической экспрессии, даже если некоторые считывания из мутированных геномных позиций не могли отображаться в эталонном геноме hg18. SAMtools v0.1.7 и BEDTools v2.12.0 использовались для обработки выровненных файлов чтения.

Количественное определение транскрибированной фракции генома

Уникально отображаемый геном человека, определяемый здесь как части генома, в которые могут быть однозначно сопоставлены чтения RNA-seq, был получен для hg18 из http: // www.imagenix.com/uniqueome/downloads/hg18_uniqueome.unique_starts.base-space.50.2.positive.BED.gz [45]. Он содержит 2 570 174 327 п.н. или 83,4% всей геномной последовательности человека. Чтобы определить геномный охват данных РНК-seq, все выровненные считывания RNA-seq были объединены, и охват считыванием в каждой позиции геномного основания был определен с помощью функции BEDTools genomeCoverageBed. Расщепленные чтения (т.е. считывания, охватывающие соединение экзон-экзон) подсчитывались таким образом, чтобы интронная последовательность была включена как часть считывания.На рисунке 1A «Все гены, EST, кДНК» включают гены GENCODE v10 (за исключением псевдогенов), гены RefSeq NM и NR, известные гены UCSC, сплайсированные кДНК H-Invitational, сплайсированные EST (трек UCSC Genome Browser «Spliced ​​EST»), и ранее аннотированные сплайсированные lincRNAs [16]. Во всех случаях были включены интронные последовательности генов, кДНК и EST.

Открытие LincRNA

Было собрано
транскриптов, аннотированных в общедоступных базах данных и литературных источниках, которые могли быть lincRNA.

Ensembl v61 категории «обработанный_транскрипт» и «lincRNA», категории GENCODE v6 «обработанный_транскрипт» и «lincRNA», гены RefSeq NR и XR, «некодирующие» транскрипты H-Invitational, ультраконсервативные элементы (UCE) и опубликованные lincRNA из Khalil et al. [18] и Cabili et al. [16]. LiftOver использовался для сопоставления координат hg19 с hg18 для Ensembl, GENCODE, H-Invitational и Cabili et al. [16] расшифровок. Последовательности RefSeq XR в hg19 были выровнены с hg18 с помощью BLAT v34, и было использовано выравнивание с наивысшей оценкой. Последовательности ультраконсервативных элементов были получены из http://biodev.cbm.fvg.it, выровнены по hg18 с помощью BLAT v34, и было использовано выравнивание с максимальной оценкой. Халил и др. [18] экзонов были сгруппированы по их перекрывающимся определенным транскрибируемым областям для построения структур транскрипта.

Было собрано
новых транскриптов из
de novo сборки транскриптомов данных РНК-seq.

Сборка транскриптома De novo была выполнена на данных РНК-seq с Cufflinks v1.0.1 с использованием параметров нормализации верхнего квартиля (-N) и коррекции смещения фрагментов (-b). Сборка этого транскрипта была выполнена с использованием считываний, которые были предварительно выровнены по hg18 с помощью TopHat, как описано выше. В случаях, когда было доступно несколько наборов данных одного и того же типа библиотеки из одной и той же ткани, эти наборы данных были объединены для увеличения глубины чтения для сборки de novo (см. Таблицу S2).Для парных наборов данных конечного чтения использовались только правильно парные и одноэлементные чтения, как определено SAMTools.

Транскрипты были отфильтрованы для удаления перекрытия с генами, не относящимися к lincRNA, или псевдогенами и короткими транскриптами.

Были удалены транскрипты длиной менее 200 нуклеотидов. Остальные транскрипты удаляли, если они находились в пределах 1 т.п.н. от генов RefSeq NM на той же цепи или, в случае транскриптов с неоднозначной цепочкой, на любой цепи относительно гена NM. Транскрипты на противоположной цепи гена NM удаляли, если они перекрывали ген NM по крайней мере на одно основание.Кроме того, были удалены транскрипты, перекрывающиеся по крайней мере с одним основанием любого из следующих, независимо от многонитевой: гены Ensembl v61, кроме «lincRNA» и «loaded_transcript», нечеловеческие гены RefSeq, выровненные по hg18 с помощью BLAT (UCSC Genome Browser «Other RefSeq «Трек»), альтернативные и расширенные 5 ‘и 3’ UTR известных человеческих генов из транскриптов UTRdb, RefSeq NR и XR, аннотированных как «псевдогены», и кодирующих последовательностей Ensembl v54.

Было удалено
транскриптов, содержащих большие ORF.

Были выполнены два этапа фильтрации для удаления предполагаемых транскриптов, кодирующих белок, и их UTR. Во-первых, с помощью EMBOSS getorf v6.1.0 были идентифицированы большие ORF (> 100 аминокислот) во всех транскриптах во всех рамках считывания. Чтобы учесть потенциально усеченные транскрипты, содержащие ORF, в которых стартовый или стоп-кодон может находиться за пределами аннотированной области, наличие более 300 нуклеотидов ниже стартового кодона без прерывающего стоп-кодона или 300 нуклеотидов перед стоп-кодоном кодона без прерывающего стартового кодона, достаточного для вызова предполагаемой ORF.Транскрипты с предполагаемыми большими ORF были удалены. Эти предполагаемые большие ORF, содержащие межгенные транскрипты, некоторые из которых могут быть новыми генами, кодирующими белок, предоставляются в качестве ресурса в Dataset S10. Чтобы удалить потенциальные UTR этих больших ORF-содержащих транскриптов из каталога lincRNA, оставшиеся транскрипты были отфильтрованы, чтобы удалить любые, которые перекрывают большой транскрипт, содержащий ORF.

Было удалено
транскриптов, перекрывающих расширенные структуры генов, кодирующих белок.

РНК-seq чтения могут выходить за аннотированные 5′- и 3′-концы аннотированных структур генов, кодирующих белок, представляющих возможные протяженные UTR, а также, в случае картирования сплайсированных считываний на ген из дистальных участков, неаннотированные экзоны. Чтобы избежать каталогизации транскриптов в этих областях как lincRNA, мы создали фильтр, основанный на расширенных границах генов, кодирующих белок, с использованием данных RNA-seq. Для этого сборка транскриптома de novo с помощью Cufflinks v1.1.0 с использованием генов RefSeq NM в качестве справочной аннотации (-g), нормализации верхнего квартиля (-N) и коррекции смещения фрагментов (-b) выполнялась для всех полиA + РНК. -seq библиотеки в таблице S2.Аннотации гена RefSeq NM использовались в качестве справочной аннотации для этой сборки транскриптов, поскольку они представляют собой ограниченный набор аннотаций генов, кодирующих белок с высокой степенью достоверности. Этот набор расширенных границ гена, кодирующего белок (набор данных S1), использовали в качестве фильтра для удаления транскриптов, которые перекрывают любой ген, кодирующий расширенный белок, по крайней мере на одно основание, независимо от цепочки.

Транскрипты, не экспрессирующиеся при FPKM> 1 по крайней мере в одном наборе данных, были удалены.

Чтобы определить уровни экспрессии транскриптов, картированные чтения РНК-seq распределяли по транскриптам с использованием модифицированной версии HTSeq v0.5.3p, который позволяет считывать чтения, сопоставленные с разделяемыми частями перекрывающихся транскриптов, как полное чтение для каждой перекрывающейся транскрипции. Это было необходимо для правильного присвоения чтения каждой из нескольких избыточных аннотаций транскриптов, присутствующих в объединенном наборе из всех общедоступных баз данных и сборок de novo до слияния перекрывающихся аннотаций lincRNA (описано ниже). Эти избыточные аннотации являются результатом повторной сборки de novo одной и той же транскрипции в нескольких различных наборах данных или избыточных существующих аннотаций в общедоступных базах данных, каждая из которых имеет немного разные геномные координаты, но может представлять одну и ту же транскрипцию.Таким образом, все чтения были полностью распределены по каждой избыточной аннотации, а не пропорционально между ними. Счетчики чтения были преобразованы в FPKM с использованием общего числа отображенных операций чтения для каждого набора данных, рассчитанного функцией SAMTools flagstat и пользовательскими скриптами. Транскрипты, не выраженные при FPKM> 1 по крайней мере в одном наборе данных, были удалены. В результате этого минимального фильтра FPKM> 1, 99.975% из de novo собранных lincRNAs (до слияния) имеют по крайней мере 5 чтений, поддерживающих их экспрессию по крайней мере в одном из объединенных наборов данных в таблице S2, и> 99.1% имеют как минимум 10 чтений в одном наборе данных. Транскрипты были дополнительно классифицированы как FPKM> 1, FPKM> 10 и FPKM> 30 по крайней мере в одном наборе данных, где каждая категория включает все транскрипты в более высоких категориях.

Перекрывающиеся транскрипты, прошедшие все фильтры на каждом пороге экспрессии, были объединены и сгруппированы по близости.

Чтобы идентифицировать минимальный набор отдельных lincRNA, перекрывающиеся транскрипты объединяли, если 50% экзона транскрипта перекрывали экзон другого транскрипта.Кроме того, слитые транскрипты в пределах 1 т.п.н. друг от друга были помещены в одну и ту же группу, но получили разные номера транскриптов и названы на основе уровня экспрессии FPKM, из которого они были получены, например FPKM1_group_32871_transcript_1. Слияние, группирование и именование выполняли отдельно для всех транскриптов FPKM> 1, транскриптов FPKM> 10 и транскриптов FPKM> 30. Статистика фильтрации представлена ​​в таблице S3. Каталог слитых lincRNA на каждом отрезке экспрессии находится в формате BED для построения генома hg18 в Dataset S2.Каталог линкРНК FPKM> 1 использовался для всех анализов в этом исследовании, если не указано иное. Аннотации lincRNA представлены в виде файлов BED в аннотации генома hg18, а не hg19, потому что браузер генома UCSC в настоящее время имеет больше «треков» данных, доступных для hg18. Однако аннотации lincRNA могут быть легко преобразованы в hg19 или другие аннотации генома пользователями с помощью инструмента LiftOver: http://genome.ucsc.edu/cgi-bin/hgLiftOver.

После объединения этих фильтрованных экспрессий, перекрывающихся lincRNA, FPKM были пересчитаны (Dataset S8) для объединенных lincRNA с использованием модифицированной программы HTSeq, описанной выше.Из-за неполной природы структур lincRNA, возникающих в результате сборки de novo , перекрывающиеся и соседние lincRNAs считались представляющими разные потенциальные модели одного и того же гена lincRNA (а не изоформ). Следовательно, в редких случаях, когда две или более модели lincRNA частично перекрываются, но не удовлетворяют нашим критериям слияния (выше), картирование считываний на эти перекрывающиеся части было полностью назначено каждой lincRNA.

Идентификация lincRNAs, экспрессируемых значительно выше других межгенных областей.

Для каждого набора данных RNA-seq (таблица S1) было сгенерировано эмпирическое фоновое распределение значений экспрессии с использованием одного миллиона аннотаций, совпадающих по размеру, случайным образом перемешанных по межгенной последовательности. Используемая межгенная последовательность включает все части уникально картируемого генома, за исключением генов RefSeq NM, NR и XR, генов Ensembl v61, включая «lincRNA» и «процессированные транскрипты», гены GENCODEv6, включая «lincRNA» и «процессированные транскрипты», H-Invitational « некодирующие »транскрипты, альтернативные и расширенные 5 ‘и 3’ UTR известных генов человека из UTRdb, структуры генов, кодирующих расширенный белок, полученные из данных РНК-seq (расширенный фильтр генов, описанный выше), и опубликованные lincRNA из Khalil et al. [18] и Cabili et al. [16]. Чтобы определить, какие предполагаемые lincRNA (в наборе данных S2, FPKM> 1) были выражены значительно выше фона, по крайней мере, в одном наборе данных, вероятность наблюдения транскрипта на любом заданном уровне экспрессии была оценена с использованием фонового распределения для конкретного набора данных и скорректирована для нескольких тестов в соответствии с с поправкой Бонферрони, предполагающей один тест на набор данных RNA-seq. Эти аннотации lincRNA с исправленным значением P <= 0.1 по крайней мере в одном наборе данных каталогизированы в наборах данных S6, S7.

дополнительных LincRNA, экспрессируемых только у Cabili et al. [16]

Дополнительный набор аннотированных транскриптов lincRNA от Cabili et al. [16] прошли все наши фильтры, за исключением того, что они не были выражены при FPKM> 1 ни в одном из проанализированных здесь наборов данных, и поэтому были удалены из каталога lincRNA в наборе данных S2. Однако сообщалось, что некоторые из этих транскриптов выражены при FPKM> 1, по крайней мере, в одном из наборов данных, проанализированных в Cabili et al. [16], все они отличаются от анализируемых здесь наборов данных. Эти дополнительные lincRNA были объединены с lincRNA в каталоге в Dataset S2, что привело к дополнительным 920 lincRNA в 741 группе при FPKM> 1, 88 lincRNA в 82 группах при FPKM> 10 и 17 lincRNA в 17 группах при FPKM> 30. Этот расширенный каталог lincRNA находится в формате BED для построения генома hg18 в наборе данных S3 и не использовался в дальнейшем для каких-либо анализов в этом исследовании.

Примечание о загрязнении геномной ДНК в наборах данных RNA-seq

Загрязнение геномной ДНК является потенциальным источником ложноположительного сигнала экспрессии в данных РНК-seq, который может способствовать сборке de novo ошибочных транскриптов.В принципе, только считывания, охватывающие соединение экзон-экзон, могут быть однозначно определены как происходящие от РНК. Следовательно, правильная сборка de novo как несплайсированных, так и сплайсированных (помимо считываний, охватывающих соединения экзон-экзон) транскриптов может пострадать, если присутствует значительная контаминация геномной ДНК. Поскольку в нашем анализе использовался широкий спектр новых и ранее существовавших наборов данных RNA-seq с неизвестным содержанием контаминации геномной ДНК, мы предприняли несколько шагов, чтобы уменьшить эту возможность.Во-первых, для всех наборов данных RNA-seq мы проанализировали распределение считываний между экзонами, кодирующими белок, по сравнению с другими регионами, ожидая, что распределения чтения должны быть аналогичными между наборами данных RNA-seq, созданными из библиотек одного типа (например, выбранный polyA +). Набор данных с необычно высоким процентом интронных и межгенных считываний может содержать значительную контаминацию геномной ДНК. Наш анализ наборов данных, используемых в этом исследовании, показал, что, как и ожидалось, наборы данных, специфичных для полиА + РНК-seq, имеют более высокую долю считываний, отображаемых на экзоны генов, кодирующих белок, чем наборы данных с истощенной рРНК или полиА-.Более того, не было обнаружено явных наборов данных с выбросами ни для одного из типов библиотек. Результаты этого анализа подтвердили, что в этом исследовании не использовались наборы данных с высоким содержанием геномной ДНК (рис. S2). Затем, как описано на рис. 2А и в разделе «Методы», мы применили пороговые значения как по размеру, так и по экспрессии для всех lincRNA. Ограничение по размеру предотвращает ошибочное считывание ошибочных одиночных считываний либо из-за загрязнения геномной ДНК, либо из-за артефактов картирования считывания как lincRNA, в то время как ограничение экспрессии удаляет lincRNA, которые собираются из редких считываний, полученных из геномной ДНК.Комбинация этих подходов позволила минимизировать вклад геномной ДНК в каталог lincRNA.

Анализ распределения LincRNA между полиаденилированной и неполиаденилированной РНК-seq данными

Были проанализированы данные

H9 ESC и HeLa RNA-seq из фракций, содержащих исключительно полиА- или полиА + транскрипты [46]. Транскрипты с считыванием RNA-seq во всех четырех наборах данных и с FPKM> 1 по крайней мере в одной из двух фракций для каждого типа клеток были проанализированы для рисунка 3B (16 819 генов NM и 127 lincRNA).Для рисунка S5 транскрипты с показаниями в обеих фракциях и FPKM> 1 в по крайней мере одной из двух фракций для определенного типа клеток были включены в анализ этого типа клеток (20 470 NM генов и 849 lincRNA в ESC H9; 18 294 NM генов. и 1009 линкРНК в HeLa). «Усы» прямоугольника и «усов» простираются в +/- 1,5 раза от межквартильного размаха или самой экстремальной точки данных.

Кластерный анализ парных цифровых тегов (ПЭТ)

Общедоступные кластерные аннотации парных тегов (PET), полученные из 7 клеточных линий или тканей, созданные в рамках проекта ENCODE, были загружены с http: // genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeGisRnaPet. Использовались файлы аннотаций кластера ПЭТ (по типу клеток или тканей):

A549 (wgEncodeGisRnaPetA549CellPapClusters.bedCluster),

h2_hESC (wgEncodeGisRnaPeth2hescCellPapClustersRep1.bed),

HeLa-S3 (wgEncodeGisRnaPetHelas3CellPapClustersRep1.bed),

IMR90 (wgEncodeGisRnaPetImr90CellPapClusters.bedCluster),

MCF-7 (wgEncodeGisRnaPetMcf7CellPapClusters.bedCluster),

Простата (wgEncodeGisRnaPetProstateCellPapClustersRep1.кровать),

СК-Н-Ш (wgEncodeGisRnaPetSknshCellPapClusters.bedCluster).

Дальнейшее описание этих ПЭТ-кластеров, включая способ создания аннотаций, доступно на сайте браузера генома UCSC здесь http://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=321010719&c=chr21&g=wgEncodeGisRnaPet. BEDTools использовался для вычисления перекрытия между lincRNA и 5 ‘и 3’ концами гена RefSeq NM и 5 ‘и 3’ концевыми ‘блоками’ кластера ПЭТ. В случае неоднозначных цепочечных lincRNAs обе потенциальные ориентации были разрешены для определения перекрытия с 5′- и 3′-концами PET-кластеров.

Анализ профиля рибосом

Данные профилирования рибосом и сопоставленные данные мРНК-seq из клеток HeLa, соответствующие экспериментам (фиктивная трансфицированная точка времени 12 часов), представленные в Guo et al. [22] были загружены из NCBI GEO (GSE22004). Уровень экспрессии отфильтрованного набора lincRNA и транскриптов RefSeq NM оценивали, как указано выше. 803 lincRNA, экспрессируемые при FPKM> 1, и образец из 1292 транскриптов RefSeq NM, экспрессируемых при FPKM> 1 (разделенных на составляющие их CDS и 3′-UTR области), были разбиты на окна 30 п.н. со смещением 1 п.н.Модифицированная версия HTSeq (описанная выше) использовалась для подсчета считываний, выравнивающихся по каждому окну, как для данных RNA-seq, так и для данных рибосомного профилирования. Соотношение считываний, связанных с рибосомами, и считываний последовательностей мРНК оценивали для каждого окна, и максимальное соотношение для данного транскрипта принимали в качестве меры взаимодействия с рибосомами. Усы прямоугольника и усов на рис. 2В простираются в +/- 1,5 раза от межквартильного размаха с выбросами, изображенными точками. Для вычисления значений P использовали критерий суммы рангов Вилкоксона.

Вычислительный анализ возможностей кодирования

Программа PhyloCSF (выпуск от 16.09.2010) [40] была использована для компьютерной оценки кодирующего потенциала отфильтрованных транскриптов lincRNA. BED-файл, описывающий эти транскрипты lincRNA, а также случайную выборку 8310 транскриптов RefSeq NM был загружен на веб-сервер Galaxy (https://main.g2.bx.psu.edu/) и использовался инструмент Stitch Gene Blocks. чтобы получить несколько файлов выравнивания с записями последовательности для следующего генома сборок на основе 44 пути выравнивания Multiz к hg18: hg18 panTro2 rheMac2 tarSyr1 micMur1 otoGar1 tupBel1 ММ9 RN4 dipOrd1 cavPor3 speTri1 oryCun1 ochPri2 vicPac1 turTru1 bosTau4 equCab2 felCat3 canFam2 myoLuc1 pteVam1 eriEur1 sorAra1 loxAfr2 proCap1 echTel1 dasNov2 choHof1.Имена сборки генома были преобразованы в общие имена, и PhyloCSF запускался с использованием параметров –orf = StopStop3 и –frames = 6.

Анализ модификации хроматина

Данные

ChIP-seq из ячеек IMR90 [28] были извлечены из NCBI SRA (Таблица 1) и выровнены с hg18 с помощью Bowtie v0.12.7, разрешающей только однозначно отображенные чтения (-k 1). Модифицированная версия HTSeq v0.5.3p (описанная выше) была использована для подсчета картирования считываний на lincRNAs и RefSeq NM гены. Отношение считываний IP к совпадающим считываниям входного контроля использовалось в качестве меры сигнала ChIP.Данные РНК-seq из клеток IMR90 [29] также были проанализированы для получения значений FPKM для lincRNAs и RefSeq NM генов с использованием той же процедуры, что и для обнаружения lincRNA. «Усы» прямоугольника и «усов» простираются в +/- 1,5 раза от межквартильного размаха или самой экстремальной точки данных.

Кластеризация тканей с помощью экспрессии LincRNA

Наборы данных

RNA-seq из B-клеток, h2 ESC и мозга (см. Таблицу S1) были сгруппированы по уровням экспрессии lincRNA. LincRNA с FPKM> 10 в одном или нескольких из 7 наборов данных RNA-seq, проанализированных на рисунке 3B, были использованы для создания тепловой карты и дендрограммы.Эти 7 наборов данных были выбраны для этого анализа, потому что они имеют реплики из каждой ткани и имеют счетчики глубокого считывания для всех реплик (Таблица S1), важные особенности для точного измерения дифференциальной экспрессии. Используя Gene Cluster 3.0, значения FPKM были преобразованы log 2 , а гены (строки) и образцы (столбцы) нормализованы путем умножения каждого log 2 преобразованного значения FPKM на масштабный коэффициент, так что сумма квадратов значений в каждой строке и столбце по 1.0. Евклидово расстояние с использованием центроидной связи было рассчитано для всех образцов, а тепловая карта и дендрограмма были созданы с помощью Java TreeView. Красный цвет соответствует полностью индуцированной экспрессии, а синий соответствует полностью подавленной экспрессии.

Анализ сохранения

Базовые оценки сохранения (оценка PhyloP, рассчитанная с помощью PHAST), основанная на множественном выравнивании геномов плацентарных млекопитающих, были загружены из браузера генома UCSC. Было идентифицировано окно 50 п.н. в каждом транскрипте lincRNA с наивысшим средним баллом PhyloP.Процесс повторяли для генов RefSeq NM и набора повторяющихся элементов, совпадающих по размеру (lincRNA), из RepeatMasker (UCSC Genome Browser). Показатели PhyloP для максимально консервативных окон размером 50 п.н. каждой линкРНК приведены в таблице S4.

Анализ SNP

Обогащение SNP, связанных с признаками.

Таблица, содержащая все связанные с признаками SNP с P <10 -8 , была загружена из обозревателя результатов ассоциации dbGaP NCBI (всего 3781 связанный с признаками SNP).Геномные координаты ассоциированных с признаками SNP были получены из dbSNP 130. Чтобы сравнить обогащение ассоциированных с признаками SNP в lincRNA по сравнению с фоновыми локусами (неэкспрессированные межгенные области), области уникально картируемого генома длиннее 200 п.н., которые исключают все доказательства транскрипции (РНК -seq читает, RefSeq NM, гены и псевдогены NR и XR, гены Ensembl v61, гены GENCODE v10, сплайсированные EST, сплайсированные кДНК H-Invitational, 5 ‘и 3’ UTR из UTRdb, расширенные гены RefSeq NM, полученные с использованием справочной аннотации Сборка транскриптома de novo (см. выше и набор данных S1) и все lincRNA) были скомпилированы и служили фоновыми локусами для этого анализа.Количество тестируемых SNP на массивах SNP Illumina (Illumina 1M) и Affymetrix (Affymetrix SNP Array 6.0) определяли для экзонов гена RefSeq NM, экзонов lincRNA и фоновых локусов. Количество тестируемых SNP на платформу было масштабировано путем дробного вклада платформ Illumina (58,6%) по сравнению с Affymetrix (41,4%) в полный набор GWAS в каталоге NHGRI GWAS [1]. Затем с использованием этого масштабированного числа протестированных SNP определяли количество связанных с признаками SNP на каждый протестированный SNP. Для расчета значений P использовался точный критерий Фишера, и планки ошибок на рисунке 4 представляют собой 95% доверительные интервалы биномиальной пропорции.

Общие SNP.

Таблица, содержащая все распространенные SNP (частота минорных аллелей> 0,05) из версии HapMap № 27 была загружена с сайта BioMart HapMap (http://hapmap.ncbi.nlm.nih.gov/biomart/martview) и количество Были определены общие SNP внутри экзонов гена RefSeq NM, экзонов lincRNA и фоновых локусов, разделенные на количество геномных оснований в каждой из этих категорий. Для вычисления значений P использовался точный критерий Фишера, и планки ошибок на рисунке S7 представляют собой 95% доверительные интервалы биномиальной пропорции.

Вспомогательная информация

Набор данных S8.

RNA-seq FPKM и счетчики чтения для всех lincRNA (из набора данных S2, FPKM> 1) и генов NM во всех отдельных наборах данных (TXT). Обратите внимание, что это большие файлы: сжатый файл FPKM имеет размер 32 МБ (94 МБ без сжатия), а сжатый файл счетчиков — 7 МБ (29 МБ без сжатия).

https://doi.org/10.1371/journal.pgen.1003569.s008

(ZIP)

Набор данных S9.

GENCODEv6 «линкРНК» и «обработанные транскрипты», которые удалялись на каждом этапе фильтрации.(A) Нефильтрованные GENCODEv6 «линкРНК» и «процессированные транскрипты» (39 472 транскрипта) (формат BED; hg18) (TXT). (B) GENCODEv6 «линкРНК» и «процессированные транскрипты», которые перекрывают гены RefSeq NM (кодирующие белки) по крайней мере на 1 пару оснований на каждой цепи (27 267 транскриптов) (формат BED; hg18) (TXT). (C) GENCODEv6 «линкРНК» и «процессированные транскрипты», которые перекрывают (см. Методы) один или несколько элементов расширенного набора генов, кодирующих белок (UCSC, RefSeq, Ensembl, GENCODE), псевдогенов, UTR (UTRdb) или не- lincRNA некодирующие РНК (33 245 транскриптов) (формат BED; hg18) (TXT).(D) GENCODEv6 «линкРНК» и «процессированные транскрипты», которые прошли белок / псевдоген / не линкРНК нкРНК / фильтр <200 нт, но содержат ORF> 100 аминокислот в длину (964 транскрипта) (формат BED; hg18) ( ТЕКСТ). (E) GENCODEv6 «линкРНК» и «процессированные транскрипты», которые сами по себе не содержат ORF> 100 аминокислот, но перекрывают другую аннотированную или de novo линкРНК, которая содержит ORF> 100 аминокислот (2700 транскриптов) (формат BED; hg18) (TXT). (F) GENCODEv6 «линкРНК» и «процессированные транскрипты», которые прошли предыдущие фильтры, но перекрывают расширенную структуру гена, кодирующего белок (149 транскриптов) (формат BED; hg18) (TXT).(G) GENCODEv6 «lincRNAs» и «обработанные транскрипты», прошедшие все предыдущие фильтры, за исключением не обнаруженных экспрессированных при FPKM> 1 ни в одном наборе данных (1469 транскриптов) (формат BED; hg18) (TXT). (H) GENCODEv6 «линкРНК» и «обработанные транскрипты» проходят все фильтры и экспрессируются при FPKM> 1 по крайней мере в одном наборе данных (945 транскриптов) (формат BED; hg18) (TXT).

https://doi.org/10.1371/journal.pgen.1003569.s009

(ZIP)

Рисунок S1.

Фракция человеческого генома с отображенными считываниями последовательностей РНК при различных минимальных порогах считывания.4,5 миллиарда отображенных считываний из всех 127 наборов данных RNA-seq были объединены и сопоставлены с уникально отображаемой частью генома человека (см. Методы). На графике нанесена доля уникально отображаемого генома с минимальным порогом чтения. Данные не выходят на плато при низких минимальных порогах считывания, что указывает на то, что более глубокое секвенирование приведет к дальнейшему увеличению доли покрытого генома. Для разделенных чтений (считываний, охватывающих интрон) промежуточная (интронная) последовательность либо предполагалась как транскрибируемая (включая предполагаемые основания), либо не транскрибировалась (за исключением предполагаемых оснований).При пороговом значении минимального числа считываний 1 считывание 67,1% и 78,9% генома имеют покрытие считыванием при исключении или включении предполагаемых оснований, соответственно.

https://doi.org/10.1371/journal.pgen.1003569.s011

(TIF)

Рисунок S2.

Фракция считывания RNA-seq, картирование экзонов гена, кодирующего белок (RefSeq NM), в сравнении с интронными и межгенными областями для 127 наборов данных RNA-seq, сгруппированных по типу библиотеки RNA-seq. Подсчет чтения производился с использованием модифицированной версии HTSeq v0.5.3p (см. Методы). Изоформы генов, кодирующих белок, были сглажены перед подсчетом считываний, так что считывания распределялись только один раз на ген, даже если существует несколько изоформ. Отобранные PolyA + библиотеки (обогащенные мРНК) содержат более высокую фракцию считываний, отображаемых на экзоны генов, кодирующих белок, в то время как библиотеки РНК-seq с обедненной рибосомной РНК и библиотеки, отобранные полиA-, содержат более высокую долю интронных и межгенных считываний. Во всех случаях из-за в целом высоких уровней экспрессии генов, кодирующих белок, экзоны генов, кодирующих белок, содержат непропорционально большое количество картированных считываний по сравнению с занимаемым ими пространством генома (<3%).

https://doi.org/10.1371/journal.pgen.1003569.s012

(TIF)

Рисунок S4.

LincRNAs обладают тканеспецифическими паттернами экспрессии. Уровни экспрессии LincRNA (FPKM) использовали для кластеризации реплик данных РНК-seq из B-клеток, эмбриональных стволовых клеток h2 и ткани мозга. Агломеративная иерархическая кластеризация как lincRNAs (строк), так и образцов (столбцов) по евклидову расстоянию была выполнена с log 2 трансформированных lincRNA значений FPKM для lincRNAs с FPKM> 10 по крайней мере в одном из проанализированных образцов.На тепловой карте отображается красный цвет для полностью индуцированных lincRNA и синий для полностью репрессированных lincRNA, где строки и столбцы были нормализованы (см. Методы).

https://doi.org/10.1371/journal.pgen.1003569.s014

(TIF)

Рисунок S5.

Полиаденилирование линкРНК по сравнению с генами, кодирующими белок. Распределение соотношений FPKM во фракциях polyA + / polyA- для lincRNAs и NM генов в ЭСК HeLa и H9. Транскрипты со считыванием в обеих фракциях и FPKM> 1 по крайней мере в одной из двух фракций для определенного типа клеток были включены в анализ этого типа клеток (20 470 генов NM и 849 lincRNA в ESCs H9; 18 294 гена NM и 1009 lincRNA в HeLa).Усы простираются до +/- 1,5 межквартильного размаха или самой экстремальной точки данных.

https://doi.org/10.1371/journal.pgen.1003569.s015

(TIF)

Рисунок S6.

Сравнение сохранности полного каталога lincRNA (53 864 lincRNA, набор данных S2, FPKM> 1) с lincRNA GENCODEv6. Определяли максимально консервативные окна размером 50 п.н. в каждом lincRNA, гене RefSeq NM и повторяющемся элементе (неконсервативные контрольные последовательности). Оценивались только линкРНК GENCODE, прошедшие все фильтры линкРНК (2414 линкРНК GENCODE, таблица S3).

https://doi.org/10.1371/journal.pgen.1003569.s016

(TIF)

Рисунок S7.

Распределение общих SNP между экзонами lincRNA, экзонами гена NM и неэкспрессируемыми межгенными участками. Подсчитывали SNP HapMap II с частотой минорных аллелей> 0,05, расположенные внутри экзонов гена NM, экзонов lincRNA или фоновых локусов (неэкспрессированные межгенные области), нормализованные по общему количеству пар оснований в каждой области (* P = 0,0173, ** P <2,2E-16; полосы ошибок представляют 95% доверительный интервал биномиальной пропорции).

https://doi.org/10.1371/journal.pgen.1003569.s017

(TIF)

Благодарности

Авторы благодарят Вен-Чи Сюэ за советы по статистическому анализу GWAS.

Вклад авторов

Задумал и спроектировал эксперименты: MJH IWV MTM. Проведены эксперименты: MJH IWV. Проанализированы данные: MJH IWV. Предоставленные реагенты / материалы / инструменты анализа: MJH IWV. Написал статью: MJH IWV MTM.

Ссылки

  1. 1.Hindorff LA, Sethupathy P, Junkins HA, Ramos EM, Mehta JP, et al. (2009) Возможные этиологические и функциональные последствия полногеномных ассоциативных локусов для болезней и признаков человека. Proc Natl Acad Sci U S A 106: 9362–9367.
  2. 2. Бертоне П., Столц В., Ройс Т.Э., Розовский Д.С., Урбан А.Е. и др. (2004) Глобальная идентификация транскрибируемых последовательностей человека с помощью массивов тайлинга генома. Наука 306: 2242–2246.
  3. 3. Ченг Дж., Капранов П., Дренкоу Дж., Дике С., Брубакер С. и др.(2005) Транскрипционные карты 10 хромосом человека с разрешением 5 нуклеотидов. Наука 308: 1149–1154.
  4. 4. Капранов П., Коули С.Е., Дренков Дж., Бекиранов С., Штраусберг Р.Л. и др. (2002) Крупномасштабная транскрипционная активность в хромосомах 21 и 22. Science 296: 916–919.
  5. 5. Капранов П., Ченг Дж., Дике С., Никс Д.А., Дуттагупта Р. и др. (2007) Карты РНК раскрывают новые классы РНК и возможную функцию всеобъемлющей транскрипции. Science 316: 1484–1488.
  6. 6.Birney E, Stamatoyannopoulos JA, Dutta A, Guigo R, Gingeras TR, et al. (2007) Идентификация и анализ функциональных элементов в 1% генома человека в рамках пилотного проекта ENCODE. Природа 447: 799–816.
  7. 7. Mercer TR, Gerhardt DJ, Dinger ME, Crawford J, Trapnell C и др. (2012) Целевое секвенирование РНК показывает глубокую сложность человеческого транскриптома. Nat Biotechnol 30: 99–104.
  8. 8. Маттик Дж. С. (2009) Генетические сигнатуры некодирующих РНК.PLoS Genet 5: e1000459.
  9. 9. Кларк МБ, Амарал П.П., Шлезингер Ф.Дж., Дингер М.Э., Тафт Р.Дж. и др. (2011) Реальность повсеместной транскрипции. PLoS Biol 9: e1000625 обсуждение e1001102.
  10. 10. Капранов П., Сен-Лоран Г. (2012) РНК темной материи: существование, функция и противоречие. Фронт Genet 3: 60.
  11. 11. ван Бакель Х., Нислоу С., Бленкоу Б.Дж., Хьюз Т.Р. (2011) Ответ на «Реальность всеобъемлющей транскрипции». PloS Biol 9: e1001102.
  12. 12. van Bakel H, Nislow C, Blencowe BJ, Hughes TR (2010) Большинство транскриптов «темной материи» связаны с известными генами. PLoS Biol 8: e1000371.
  13. 13. Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, et al. (2012) Интегрированная энциклопедия элементов ДНК в геноме человека. Природа 489: 57–74.
  14. 14. Джебали С., Дэвис К.А., Меркель А., Добин А., Лассманн Т. и др. (2012) Пейзаж транскрипции в клетках человека. Природа 489: 101–108.
  15. 15. Wang KC, Chang HY (2011) Молекулярные механизмы длинных некодирующих РНК. Mol Cell 43: 904–914.
  16. 16. Кабили М.Н., Трапнелл С., Гофф Л., Козиол М., Тазон-Вега Б. и др. (2011) Интегративная аннотация больших межгенных некодирующих РНК человека раскрывает глобальные свойства и специфические подклассы. Genes Dev 25: 1915–1927.
  17. 17. Флокхарт Р.Дж., Вебстер Д.Е., Ку К., Маскареньяс Н., Ковальский Дж. И др. (2012) BRAFV600E ремоделирует транскриптом меланоцитов и побуждает BANCR регулировать миграцию клеток меланомы.Genome Res 22: 1006–1014.
  18. 18. Халил А.М., Гуттман М., Уарте М., Гарбер М., Радж А. и др. (2009) Многие большие межгенные некодирующие РНК человека связаны с модифицирующими хроматин комплексами и влияют на экспрессию генов. Proc Natl Acad Sci U S A 106: 11667–11672.
  19. 19. Дерриен Т., Джонсон Р., Буссотти Дж., Танзер А., Джебали С. и др. (2012) Каталог длинных некодирующих РНК человека GENCODE v7: анализ их генной структуры, эволюции и экспрессии. Genome Res 22: 1775–1789.
  20. 20. Харроу Дж., Фрэнкиш А., Гонсалес Дж. М., Тапанари Э., Диханс М. и др. (2012) GENCODE: справочная аннотация генома человека для проекта ENCODE. Genome Res 22: 1760–1774.
  21. 21. Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B (2008) Картирование и количественная оценка транскриптомов млекопитающих с помощью RNA-Seq. Нат методы 5: 621–628.
  22. 22. Guo H, Ingolia NT, Weissman JS, Bartel DP (2010) МикроРНК млекопитающих преимущественно действуют, снижая уровни целевых мРНК.Природа 466: 835–840.
  23. 23. Банфай Б., Цзя Х., Хатун Дж., Вуд Э, Риск Б и др. (2012) Длинные некодирующие РНК редко транслируются в двух линиях клеток человека. Genome Res 22: 1646–1657.
  24. 24. Ingolia NT, Lareau LF, Weissman JS (2011) Профилирование рибосом эмбриональных стволовых клеток мыши показывает сложность и динамику протеомов млекопитающих. Cell 147: 789–802.
  25. 25. Ponjavic J, Ponting CP, Lunter G (2007) Функциональность или шум транскрипции? Доказательства отбора в составе длинных некодирующих РНК.Genome Res 17: 556–565.
  26. 26. Ором У.А., Дерриен Т., Берингер М., Гумиредди К., Гардини А. и др. (2010) Длинные некодирующие РНК с энхансероподобной функцией в клетках человека. Ячейка 143: 46–58.
  27. 27. Sati S, Ghosh S, Jain V, Scaria V, Sengupta S (2012) Полногеномный анализ выявляет различные паттерны эпигенетических особенностей в длинных некодирующих локусах РНК. Nucleic Acids Res 40: 10018–10031.
  28. 28. Хокинс Р.Д., Хон Г.К., Ли Л.К., Нго К., Листер Р. и др.(2010) Четкие эпигеномные ландшафты плюрипотентных и коммитированных клонов клеток человека. Стволовая клетка 6: 479–491.
  29. 29. Lister R, Pelizzola M, Dowen RH, Hawkins RD, Hon G, et al. (2009) Метиломы ДНК человека в базовом разрешении демонстрируют широко распространенные эпигеномные различия. Природа 462: 315–322.
  30. 30. Wilusz JE, Freier SM, Spector DL ​​(2008) Процессинг 3′-конца длинной некодирующей РНК с сохранением в ядре дает тРНК-подобную цитоплазматическую РНК. Ячейка 135: 919–932.
  31. 31.Гутман М., Амит И., Гарбер М., Френч К., Лин М.Ф. и др. (2009) Сигнатура хроматина обнаруживает более тысячи высококонсервативных больших некодирующих РНК у млекопитающих. Природа 458: 223–227.
  32. 32. Ulitsky I, Shkumatava A, Jan CH, Sive H, Bartel DP (2011) Консервированная функция lincRNAs в эмбриональном развитии позвоночных, несмотря на быструю эволюцию последовательности. Cell 147: 1537–1550.
  33. 33. Глинский А.Б., Ма Дж., Ма С., Грант Д., Лим К.Ю. и др. (2009) Идентификация межгенных трансрегуляторных РНК, содержащих последовательность SNP, связанных с заболеванием, и нацеленных на пути прогрессирования / дифференцировки клеточного цикла при множественных распространенных заболеваниях человека.Клеточный цикл 8: 3925–3942.
  34. 34. Джин Дж., Сун Дж., Айзекс С.Д., Вили К.Э., Ким С.Т. и др. (2011) Человеческий полиморфизм длинных некодирующих РНК (днРНК) и связь с риском рака простаты. Канцерогенез 32: 1655–1659.
  35. 35. Исии Н., Одзаки К., Сато Х., Мизуно Х., Сайто С. и др. (2006) Идентификация новой некодирующей РНК, MIAT, которая создает риск инфаркта миокарда. J Hum Genet 51: 1087–1099.
  36. 36. Jendrzejewski J, He H, Radomska HS, Li W, Tomsic J, et al.(2012) Полиморфизм rs944289 предрасполагает к папиллярной карциноме щитовидной железы через большой межгенный некодирующий ген РНК типа опухолевого супрессора. Proc Natl Acad Sci U S A 109: 8646–8651.
  37. 37. Ван К.С., Ян Ю.В., Лю Б., Саньял А., Корсес-Циммерман Р. и др. (2011) Длинная некодирующая РНК поддерживает активный хроматин для координации экспрессии гомеотических генов. Природа 472: 120–124.
  38. 38. Dinger ME, Pang KC, Mercer TR, Mattick JS (2008) Дифференциация кодирующей белок и некодирующей РНК: проблемы и неоднозначности.PLoS Comput Biol 4: e1000176.
  39. 39. Окадзаки Ю., Фуруно М., Касукава Т., Адачи Дж., Боно Х. и др. (2002) Анализ транскриптома мыши на основе функциональной аннотации 60 770 полноразмерных кДНК. Природа 420: 563–573.
  40. 40. Lin MF, Jungreis I, Kellis M (2011) PhyloCSF: метод сравнительной геномики для различения кодирующих и некодирующих областей белка. Биоинформатика 27: i275–282.
  41. 41. Гутман М., Гарбер М., Левин Дж. З., Донаги Дж., Робинсон Дж. И др.(2010) Ab initio реконструкция клеточных типоспецифичных транскриптомов у мышей выявляет консервативную мультиэкзонную структуру lincRNAs. Nat Biotechnol 28: 503–510.
  42. 42. Хатчинсон Дж. Н., Энсмингер А. В., Клемсон С. М., Линч С. Р., Лоуренс Дж. Б. и др. (2007) Скрининг ядерных транскриптов идентифицирует две связанные некодирующие РНК, связанные с доменами сплайсинга SC35. BMC Genomics 8: 39.
  43. 43. Dieci G, Fiorino G, Castelnuovo M, Teichmann M, Pagano A (2007) Транскриптом расширяющейся РНК-полимеразы III.Тенденции Genet 23: 614–622.
  44. 44. Тилгнер Х., Ноулз Д.Г., Джонсон Р., Дэвис С.А., Чакраборти С. и др. (2012) Глубокое секвенирование фракций субклеточной РНК показывает, что сплайсинг является преимущественно котранскрипционным в геноме человека, но неэффективен для днРНК.