Блогът на Николай Цветков: ДНК и телесната идентичност

Човешкият геном се състои от дезоксирибонуклеинова киселина (ДНК) и съдържа в себе си основната информация за изграждането на човешкото тяло. ДНК се намира в митохондриите и в 23 двойки хромозоми, разположени в клетъчното ядро. ДНК може да се представи като последователност от 4 вида нуклеотиди: аденин (A), цитозин (C), гуанин (G) и тимин (T). Така ДНК може да се представи като текст, написан само с буквите A,C,G и T.
В типичния човешки геном се съдържат общо 3 070 537 685 нуклеотидни двойки - "букви" от генетичния код, разположени в двойна спирала. Това прави 6 141 075 370 бита (по 2 бита на нуклеотид), или към 733 мегабайта.

Понякога се твърди, че това е малък обем информация, по-малък от обема на съвременния компютърен софтуер. Такива твърдения са неоснователни. Софтуерът се състои от програми, които представляват последователности от команди на съответния компютърен хардуер. А геномът се състои от ДНК, която задава последователност от команди към биологичните механизми за синтезиране на белтъци. Синтезираните белтъци образуват тримерни структури, които изграждат живото тяло.

Ако сравним по сложност двете "машини" - един компютърен процесор и биологичните механизми, се вижда голямата разлика в сложността им. Докато процесорът изпълнява само команди за елементарна обработка на данни (числа, символи), то биологичните механизми могат да бъдат представени като сложна "машина", която произвежда последователности от аминокиселини, изграждащи първичната структура на белтъците.
По-нататък, съгласно законите на физиката, белтъкът се деформира в глобула или друга тримерна структура, притежаваща сложни свойства, проявяващи се при взаимодействията с други молекули.
Така компютърната програма представлява последователност от команди към доста проста машина (процесор), а генетичният код от генома представлява последователност от команди към много по-сложна биофизична "машина".

Частите на генома, които кодират образуването на белтък, се наричат гени. Освен гени, в ДНК има и части, които изпълняват други функции.
Генетичният код - езикът, на който е записана генетичната информация, допуска синонимия - една и съща генетична информация може да бъде записана по различни начини, с различни кодови думи - синоними, означаващи едно и също нещо.

Поради това е възможно да съществуват двама човека, които имат напълно еднакви тела, но различен генетичен код.
Също така, ако някакво външно въздействие, например радиация, промени генетичния код, тялото може да не се промени (ако се е случило промяната в генетичния код да бъде синонимична).

Информацията в човешкия геном

Един практически пример. На следващия сайт се намират всички файлове с цифровото копие на генетичния код на представителен човешки геном - секвенцираната (разчетена с машина) последователност от нуклеотиди в цялата ДНК: http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/ .

Секвенциите са представени в отделни файлове с формат FASTA и ZIP-компресия. Общият обем на информацията в цялата директория с компресираните файлове е 948 746 377 байта, или приблизително 905 мегабайта.
Файловете се декомпресират с WinRAR, след което се вижда съдържанието им, представено в текстовия формат FASTA. Общият обем на декомпресираните файлове става 2.97 гигабайта.

Човешкият геном в основата си се състои от 22 автосомни хромозоми, чието съдържание (генетичен ДНК-код) е дадено във файловете:

chr1.fa.gz   70M

chr2.fa.gz   75M

...

chr21.fa.gz  11M

chr22.fa.gz  11M

Съдържанието на митохондриалната ДНК (mtDNA) е във файла:

chrM.fa.gz   5.4K

И накрая, съдържанието на половите хромозоми X и Y:

chrX.fa.gz   47M

chrY.fa.gz   7.9M

Тъй като в този конкретен геном има X и Y хромозома, значи това е мъжки геном (в един женски геном би трябвало да ЛИПСВА Y хромозома). От автосомните хромозоми (1 - 22) най-големи са хромозомите 1 и 2 (70 и 75 мегабайта съответно), а най-малки - 21 и 22 (по около 11 мегабайта). "Женската" хромозома X също е твърде голяма (47M), а "мъжката" Y е изключително малка - 7.9M. Най-малко информация се съдържа в митохондриалната ДНК - едва 5.4 килобайта.

Форматът за данни FASTA

За представянето на генетичните последователности в биоинформатиката се използва форматът за данни FASTA: http://en.wikipedia.org/wiki/FASTA_format .

Пример. Един ген представлява част от ДНК (последователност от нуклеотиди), която кодира образуването на верига от аминокиселини - полипептид или белтък. Например генът на човешкия миоглобин във FASTA формат изглежда така:

>ENA|CAA25109|CAA25109.1 Homo sapiens (human) myoglobin : Location:1..465

ATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGCTGAACGTCTGGGGGAAGGTGGAGGCT

GACATCCCAGGCCATGGGCAGGAAGTCCTCATCAGGCTCTTTAAGGGTCACCCAGAGACT

CTGGAGAAGTTTGACAAGTTCAAGCACCTGAAGTCAGAGGACGAGATGAAGGCATCTGAG

GACTTAAAGAAGCATGGTGCCACTGTGCTCACCGCCCTGGGTGGCATCCTTAAGAAGAAG

GGGCATCATGAGGCAGAGATTAAGCCCCTGGCACAGTCGCATGCCACCAAGCACAAGATC

CCCGTGAAGTACCTGGAGTTCATCTCGGAATGCATCATCCAGGTTCTGCAGAGCAAGCAT

CCCGGGGACTTTGGTGCTGATGCCCAGGGGGCCATGAACAAGGCCCTGGAGCTGTTCCGG

AAGGACATGGCCTCCAACTACAAGGAGCTGGGCTTCCAGGGCTAG

(Източник: http://www.ebi.ac.uk/ena/data/view/CAA25109)

Във формата за данни FASTA първият ред е служебен и започва със символа ">". Следва последователността (секвенцията, Sequence) от нуклеотиди, изграждаща тази част от ДНК. Всеки един от нуклеотидите (от общо 4 възможни) се означава така:

A - adenosine
C - cytidine
G - guanosine
T - thymidine

Синтезът на белтъци

Всяка аминокиселина (от всичките 20, които изграждат човешкото тяло) се кодира в ДНК с последователност от 3 нуклеотида (кодон) по следната кодова таблица на обратния ДНК-код:

Ala/A -> GCT, GCC, GCA, GCG

Arg/R -> CGT, CGC, CGA, CGG, AGA, AGG

Asn/N -> AAT, AAC

Asp/D -> GAT, GAC

Cys/C -> TGT, TGC

Gln/Q -> CAA, CAG

Glu/E -> GAA, GAG

Gly/G -> GGT, GGC, GGA, GGG

His/H -> CAT, CAC

Ile/I -> ATT, ATC, ATA

START -> ATG

Leu/L -> TTA, TTG, CTT, CTC, CTA, CTG

Lys/K -> AAA, AAG

Met/M -> ATG

Phe/F -> TTT, TTC

Pro/P -> CCT, CCC, CCA, CCG

Ser/S -> TCT, TCC, TCA, TCG, AGT, AGC

Thr/T -> ACT, ACC, ACA, ACG

Trp/W -> TGG

Tyr/Y -> TAT, TAC

Val/V -> GTT, GTC, GTA, GTG

STOP  -> TAA, TGA, TAG

Например, редът "Ala/A -> GCT, GCC, GCA, GCG" означава, че аминокиселината Alanine се кодира в генетичния код с една от последователностите от нуклеотиди GCT, GCC, GCA или GCG, които са СИНОНИМИ. Съответно, аминокиселината Tyrosine (Tyr/Y) се кодира с кодона TAT или TAC. Аминокиселината Tryptophan (Trp/W) може да се кодира с една единствена кодова дума - TGG, без възможност за СИНОНИМИЧНА замяна.

Генът започва с кодона ATG (START) и завършва с кодона TAG (STOP). Общата дължина на гена на човешкия миоглобин от примера е 465 символа и е кратна на 3: 465/3 = 155. Значи, първичната структура на този миоглобин е верига от 153 аминокиселинни остатъка:

Gly/G - Leu/L - Ser/S - ... - Gly/G

Така генетичният код представлява програма (последователност от команди) за синтезиране на белтъци, които образуват човешкото тяло.
Ако настъпи мутация (случайна промяна на някои букви), която е СИНОНИМИЧНА, като например ако TAT се превърне в TAC, това ще си остане пак кодът на аминокиселината Tyr/Y при което тялото няма да се промени, но генетичният код ще запази промяната, която може да се прояви при някакви труднопредсказуеми условия в бъдещето.

Блогът на Николай Цветков

вторник, 26 февруари 2013 г.

ДНК и телесната идентичност

Информацията в човешкия геном

Форматът за данни FASTA

Синтезът на белтъци

Няма коментари:

Публикуване на коментар

вторник, 26 февруари 2013 г.

ДНК и телесната идентичност

Информацията в човешкия геном

Форматът за данни FASTA

Синтезът на белтъци

Няма коментари:

Публикуване на коментар

вторник, 26 февруари 2013 г.