вторник, 26 февруари 2013 г.

ДНК и телесната идентичност


Човешкият геном се състои от дезоксирибонуклеинова киселина (ДНК) и съдържа в себе си основната информация за изграждането на човешкото тяло. ДНК се намира в митохондриите и в 23 двойки хромозоми, разположени в клетъчното ядро. ДНК може да се представи като последователност от 4 вида нуклеотиди:  аденин (A), цитозин (C), гуанин (G) и тимин (T). Така ДНК може да се представи като текст, написан само с буквите A,C,G и T.
В типичния човешки геном се съдържат общо 3 070 537 685 нуклеотидни двойки - "букви" от генетичния код, разположени в двойна спирала. Това прави 6 141 075 370 бита (по 2 бита на нуклеотид), или към 733 мегабайта.

Понякога се твърди, че това е малък обем информация, по-малък от обема на съвременния компютърен софтуер. Такива твърдения са неоснователни. Софтуерът се състои от програми, които представляват последователности от команди на съответния компютърен хардуер. А геномът се състои от ДНК, която задава последователност от команди към биологичните механизми за синтезиране на белтъци. Синтезираните белтъци образуват тримерни структури, които изграждат живото тяло.

Ако сравним по сложност двете "машини" - един компютърен процесор и биологичните механизми, се вижда голямата разлика в сложността им. Докато процесорът изпълнява само команди за елементарна обработка на данни (числа, символи), то биологичните механизми могат да бъдат представени като сложна "машина", която произвежда последователности от аминокиселини, изграждащи първичната структура на белтъците.
По-нататък, съгласно законите на физиката, белтъкът се деформира в глобула или друга тримерна структура, притежаваща сложни свойства, проявяващи се при взаимодействията с други молекули.
Така компютърната програма представлява последователност от команди към доста проста машина (процесор), а генетичният код от генома представлява последователност от команди към много по-сложна биофизична "машина".

Частите на генома, които кодират образуването на белтък, се наричат гени. Освен гени, в ДНК има и части, които изпълняват други функции.
Генетичният код - езикът, на който е записана генетичната информация, допуска синонимия - една и съща генетична информация може да бъде записана по различни начини, с различни кодови думи - синоними, означаващи едно и също нещо.

Поради това е възможно да съществуват двама човека, които имат напълно еднакви тела, но различен генетичен код.
Също така, ако някакво външно въздействие, например радиация, промени генетичния код, тялото може да не се промени (ако се е случило промяната в генетичния код да бъде синонимична).

Информацията в човешкия геном


Един практически пример. На следващия сайт се намират всички файлове с цифровото копие на генетичния код на представителен човешки геном - секвенцираната (разчетена с машина) последователност от нуклеотиди в цялата ДНК: http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/ .

Секвенциите са представени в отделни файлове с формат FASTA и ZIP-компресия. Общият обем на информацията в цялата директория с компресираните файлове е 948 746 377 байта, или приблизително 905 мегабайта.
Файловете се декомпресират с WinRAR, след което се вижда съдържанието им, представено в текстовия формат FASTA. Общият обем на декомпресираните файлове става 2.97 гигабайта.

Човешкият геном в основата си се състои от 22 автосомни хромозоми, чието съдържание (генетичен ДНК-код) е дадено във файловете:

chr1.fa.gz   70M
chr2.fa.gz   75M
...
chr21.fa.gz  11M
chr22.fa.gz  11M

Съдържанието на митохондриалната ДНК (mtDNA) е във файла:

chrM.fa.gz   5.4K

И накрая, съдържанието на половите хромозоми X и Y:

chrX.fa.gz   47M
chrY.fa.gz   7.9M

Тъй като в този конкретен геном има X и Y хромозома, значи това е мъжки геном  (в един женски геном би трябвало да ЛИПСВА Y хромозома). От автосомните хромозоми (1 - 22) най-големи са хромозомите 1 и 2 (70 и 75 мегабайта съответно), а най-малки - 21 и 22 (по около 11 мегабайта). "Женската" хромозома X също е твърде голяма (47M), а "мъжката" Y е изключително малка - 7.9M. Най-малко информация се съдържа в митохондриалната ДНК - едва 5.4 килобайта.

Форматът за данни FASTA


За представянето на генетичните последователности в биоинформатиката се използва форматът за данни FASTA: http://en.wikipedia.org/wiki/FASTA_format .

Пример. Един ген представлява част от ДНК (последователност от нуклеотиди), която кодира образуването на верига от аминокиселини - полипептид или белтък. Например генът на човешкия миоглобин във FASTA формат изглежда така:

>ENA|CAA25109|CAA25109.1 Homo sapiens (human) myoglobin : Location:1..465
ATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGCTGAACGTCTGGGGGAAGGTGGAGGCT
GACATCCCAGGCCATGGGCAGGAAGTCCTCATCAGGCTCTTTAAGGGTCACCCAGAGACT
CTGGAGAAGTTTGACAAGTTCAAGCACCTGAAGTCAGAGGACGAGATGAAGGCATCTGAG
GACTTAAAGAAGCATGGTGCCACTGTGCTCACCGCCCTGGGTGGCATCCTTAAGAAGAAG
GGGCATCATGAGGCAGAGATTAAGCCCCTGGCACAGTCGCATGCCACCAAGCACAAGATC
CCCGTGAAGTACCTGGAGTTCATCTCGGAATGCATCATCCAGGTTCTGCAGAGCAAGCAT
CCCGGGGACTTTGGTGCTGATGCCCAGGGGGCCATGAACAAGGCCCTGGAGCTGTTCCGG
AAGGACATGGCCTCCAACTACAAGGAGCTGGGCTTCCAGGGCTAG

(Източник: http://www.ebi.ac.uk/ena/data/view/CAA25109)

Във формата за данни FASTA първият ред е служебен и започва със символа ">". Следва последователността (секвенцията, Sequence) от нуклеотиди, изграждаща тази част от ДНК. Всеки един от нуклеотидите (от общо 4 възможни) се означава така:

A - adenosine
C - cytidine
G - guanosine
T - thymidine

Синтезът на белтъци


Всяка аминокиселина (от всичките 20, които изграждат човешкото тяло) се кодира в ДНК с последователност от 3 нуклеотида (кодон) по следната кодова таблица на обратния ДНК-код:

Ala/A -> GCT, GCC, GCA, GCG
Arg/R -> CGT, CGC, CGA, CGG, AGA, AGG
Asn/N -> AAT, AAC
Asp/D -> GAT, GAC
Cys/C -> TGT, TGC
Gln/Q -> CAA, CAG
Glu/E -> GAA, GAG
Gly/G -> GGT, GGC, GGA, GGG
His/H -> CAT, CAC
Ile/I -> ATT, ATC, ATA
START -> ATG
Leu/L -> TTA, TTG, CTT, CTC, CTA, CTG
Lys/K -> AAA, AAG
Met/M -> ATG
Phe/F -> TTT, TTC
Pro/P -> CCT, CCC, CCA, CCG
Ser/S -> TCT, TCC, TCA, TCG, AGT, AGC
Thr/T -> ACT, ACC, ACA, ACG
Trp/W -> TGG
Tyr/Y -> TAT, TAC
Val/V -> GTT, GTC, GTA, GTG
STOP  -> TAA, TGA, TAG

Например, редът "Ala/A -> GCT, GCC, GCA, GCG" означава, че аминокиселината Alanine се кодира в генетичния код с една от последователностите от нуклеотиди GCT, GCC, GCA или GCG, които са СИНОНИМИ. Съответно, аминокиселината Tyrosine (Tyr/Y) се кодира с кодона TAT или TAC. Аминокиселината Tryptophan (Trp/W) може да се кодира с една единствена кодова дума - TGG, без възможност за СИНОНИМИЧНА замяна.

Генът започва с кодона ATG (START) и завършва с кодона TAG (STOP). Общата дължина на гена на човешкия миоглобин от примера е 465 символа и е кратна на 3:  465/3 = 155. Значи, първичната структура на този миоглобин е верига от 153 аминокиселинни остатъка:

Gly/G - Leu/L - Ser/S - ... - Gly/G

Така генетичният код представлява програма (последователност от команди) за синтезиране на белтъци, които образуват човешкото тяло.
Ако настъпи мутация (случайна промяна на някои букви), която е СИНОНИМИЧНА, като например ако TAT се превърне в TAC, това ще си остане пак кодът на аминокиселината Tyr/Y при което тялото няма да се промени, но генетичният код ще запази промяната, която може да се прояви при някакви труднопредсказуеми условия в бъдещето.

Няма коментари:

Публикуване на коментар