Поиск публикаций  |  Научные конференции и семинары  |  Новости науки  |  Научная сеть
Новости науки - Комментарии ученых и экспертов, мнения, научные блоги
Реклама на проекте

Конъюнктура, группы Кляйна и генетический код

Monday, 01 August, 18:08, galicarnax.livejournal.com
Бывает, что исследуемый объект обладает некоторыми особенностями, которые не вписываются ни в одну из моделей, использующихся для описания этого объекта. Самый простой выход из такой ситуации - умалчивание. При этом другие, менее статистически значимые особенности обсуждаются годами, и на их основе даже строятся теории. Я не знаю, как часто такая конъюнктура встречается в науке, но один пример мне известен. Связан он с генетическим кодом.

Почти в любой статье по происхождению/эволюции кода найдется упоминание того, что кодоны с урацилом во второй позиции кодируют гидрофобные аминокислоты. Кажется, тут рукой подать до адаптивной и/или стереохимической модели кода. Однако, если учесть, что половина аминокислот в канонической двадцатке - гидрофобные, и что кодонам с U во второй позиции отведено всего 6 аминокислот, то статистическая значимость этой "особенности" окажется довольно сомнительной.

 Другой пример - "оптимальность" кода в плане передачи дополнительной информации. Два израильтянина в 2007 году показали, что универсальный код оптимальнее многих (случайным образом) сгенерированных кодов в плане учета такой дополнительной информации, как сигналы сплайсинга, вторичная структура РНК, позиционирование нуклеосом и т.п. [ Интересно, что многое из статьи израильтян было уже написано в другой статье за 6 лет до этого. Однако, в течение десяти лет на эту первую статью появилось всего 8 ссылок, тогда как на израильтян - 54 ссылки за 4 года. Пиар в науке тоже важен! ] .
Еще одна оптимальность - это, конечно, здорово. Но что насчет статистической значимости? В статье указано, что p-vale < 0.05 (p-value - вероятность того, что нулевая гипотеза верна, т.е. что наблюдаемый феномен - случайное совпадение). Достаточно сказать, что часто порог значимости принимают за 0.01. Если выше - фтопку, если ниже - статистически значимый феномен, достойный исследования.

Но существует одна особенность кода, p-value которой на несколько порядков (!) ниже, чем в упомянутых примерах, но которая находится в полном игноре в традиционных моделях. О ней пишут только отдельные чудаки, которые пытаются построить математическую абстрактную модель кода. 

Особенность эта была замечена в 1966 году (т.е. почти сразу после расшифровки кода) Юрием Борисовичем Румером - крупным физиком-теоретиком из одной банды с Ландау [ NB: еще один физик, одним из первых приложившийся к генетическому коду, наряду с Гамовым, Криком и Вёзе ] . Суть того, что Румер описал в заметке в Докладах Академии Наук СССР, проста. В таблице стандартного генетического кода имеется 16 групп триплетов, по 4 триплета в группе. При этом некоторые группы кодируют только одну аминокислоту - это полностью вырожденные, или "целые", группы. Другие группы кодируют две аминокислоты, либо, в одном случае, одну аминокислоту и стоп-сигнал, либо, в другом случае, - две аминокислоты и стоп-сигнал. Это "расщепленные" группы. Примечательно, что в коде 8 целых и 8 расщепленных групп. Румер приметил, что триплеты в этих двух половинках кода изящно связаны друг с другом простым преобразованием TG, AC. То есть, например, если триплет TGA находится в одной половинке, то триплет GTC обязательно будет во второй. На самом деле, т.к. в любой группе последние основания одни и те же, то их преобразование тривиально, и можно говорить о преобразовании только начальных дублетов, или "корней", как их называл Румер. Итого, получается два набора "корней" (дублеты, связанные упомянутым преобразованием, находятся в одном столбце):

Целые группыGGGCCGCCGTACCTTC
Расщепленные группыTTTAATAATGCAAGGA

Существуют еще два преобразования такого типа: AT, CG и AG, CT. Как они ведут себя в делении Румера по вырожденности? Несложный анализ показывает, что, если уже имеется одно полное преобразование, то наиболее вероятным распределением для оставшихся двух будет в отношении 6:2, когда по 6 дублетов из обеих половинок связаны одним преобразованием, и по 2 дублета - другим. Однако в генетическом коде эти оставшиеся два преобразования распределены наиболее упорядоченным (и менее вероятным) образом - поровну, 4:4.

В итоге, генетический код представляет собой весьма упорядоченную структуру, которая известна в высшей алгебре под названием четверной группы Кляйна. Этот факт приводит отдельных теоретиков в такой восторг, что они пытаются привлечь всю абстрактную теорию групп для описания генетического кода. Флаг в руки. Но беда в том, что когда я продираюсь через все эти икосаэдры в форме генетического кода или наоборот, или читаю об изоморфизме кода булеву гиперкубу, я не вижу самого главного - выводов. Как все эти ваши выкладки, если теперь спуститься на землю, что-то проясняют в происхождении кода? Этот вопрос вообще вам интересен?

Зато в традиционных моделях кода находка Румера не упоминается вообще. Несмотря на то, что она была переоткрыта двумя немцами в 1975 году и опубликована уже не на русском, а на английском языке, во всеми читаемом Journal of Molecular Evolution. Несмотря даже на то, что о находке Румера все-таки были в курсе некоторые "отцы" (Румер переписывался с Криком; в частности, они спорили, как лучше рисовать таблицу кода; Румер предлагал последовательность C,G,U,A - в этом случае явственнее видны закономерности, найденные им. Однако прижился все-таки криковский вариант - U,C,A,G). И еще несмотря на то, что и Румер, и два немца в конце своих статей выразили надежду, что эта особенность будет объяснена в рамках стандартных моделей, учитывающих физико-химические свойства кодонов.

Ну и насчет p-value. Статистической оценке румеровской находки даже посвящена отдельная заметка в журнале Origins of Life and Evolution of Biospheres (кстати, автор заметки, заменив в фамилии "ks" на "x", уже давно работает в группе профессора Ford-а Doolittle-а, который совсем не нуждается в представлении среди эволюционных биологов). В заметке приведен расчет, показывающий, что вероятность случайного появления одного полного преобразования равна ~ 10-32. Правда, там рассматриваются все возможные варианты кода. На самом деле, обычно в таких исследованиях учитываются только коды с такой же (или хотя бы с похожей) блочной структурой, как и в реальном коде. Но если даже допустить, что по вырожденности код всегда 100%-но разбивается ровно пополам, то и в этом случае вероятность появления кляйновской структуры равна всего 0.02. Домножьте на вероятность того, что код по вырожденности будет разделен именно пополам, получите величину, как минимум, на пару порядков меньше (точно оценить тут вряд ли можно, если требовать наличие у когда примерно-регулярной вырожденности).

Мораль сей басни такова. В теории - p-value, а на практике - дело вкуса :)

Читать полную новость с источника 

Комментарии (0)