Studijní materiály pro
bioinformatickou část ViBuChu
–
úloha II
Jan Komárek, Gabriel Demo
Adenin
Struktura DNA
Thymin
5´ konec
3´ konec
DNA
tvořena
dvěmi
řetězci
orientovanými antiparalelně (liší se
orientací – 5´→ 3´ a 3´→ 5´)
párování bazí na základě vzájemné
komplementarity:
cukrfosfátová
A=T
G≡C
páteř
podle konvence psána sekvence
DNA ve formě písmen, které
odpovídají jednotlivým nukleotidům,
a to ve směru 5´→ 3´ :
5´
3´ konec Guanin
atgttcaagatcgaaaatc
gtatatgtctggtagcatt
3´
Cytosine
5´ konec
http://en.wikipedia.org/wiki/DNA
5´
4´
1´
3´
2´
Proteosyntéza
DNA
1. transkripce
jádro
mRNA
tRNA nesoucí příslušnou
aminokyselinu
PROTEIN
transport mRNA do
cytoplasmy
2. translace
ribozom
http://en.wikipedia.org/wiki/Protein_biosynthesis
cytoplasmatická membrána
Genetický kód
genetický kód - soubor pravidel, podle kterých je genetická informace
uložená v DNA (respektive RNA) převáděna do pořadí aminokyselin v
polypeptidovém řetězci
standardní genetický kód:
 je univerzální = stejný pro
většinu organismů
 je tripletový = třípísmenný
 je degenerovaný = dva i více
kodonů mohou kódovat tutéž
aminokyselinu
iniciační kodon –
začátek translace
stop kodon –
konec translace
1.
nukleotid
2.
nukleotid
3.
nukleotid
také
inic. kodon
http://biology.kenyon.edu/courses/biol114/Chap05/Chapter05.html
Čtecí rámce
krátký úsek genomové DNA:
5'
3' ... ATCTAAAATGGGTGCC...
transkripce (přepis)
mRNA: 5' ...UAGAUUUUACCCACGG... 3'
translace (překlad)
Teoretický překlad části genomové DNA
(naznačeny možné čtecí rámce pro jeden
z řetězců DNA)
1.
mRNA:
...UAG AUU UUA CCC ACG G...
protein: .. stop - Ile - Leu - Pro - Thr ...
2.
3.
mRNA:
...U AGA UUU UAC CCA CGG...
protein
ale jak bioinformatika dokáže
poznat, od kterého nukleotidu
translace v buňkách skutečně
začíná (a jaký produkt tak
vzniká)?
Hledání ORF !
protein: ...... Arg - Phe - Tyr - Pro - Arg...
mRNA:
...UA GAU UUU ACC CAC GG...
protein: ...... Asp – Phe – Thr – His -
http://en.wikipedia.org/wiki/Open_reading_frame
(převzato a upraveno)
Čtecí rámce
čtecí rámec – způsob čtení nukleotidové sekvence po tripletech (trojicích)
otevřený čtecí rámec (ORF, open reading frame) – úsek DNA vymezený
iniciačním a terminačním kodonem kódující souvislý a dostatečně dlouhý
polypeptidový řetězec
- hledání dlouhých ORF užitečné pro predikci genů
Translate
nástroj pro převedení
sekvence nukleotidů
genomové DNA do
sekvence proteinů ve
všech šesti čtecích
rámcích
http:/expasy.org/tools/dna.html
vložení nukleotidové
sekvence jako holý
text „agttgatga“
Translate
výběr konkrétního
čtecího rámce
kliknutím
čtecí rámce
pro řetězec
5´3´
čtecí rámce
pro řetězec
3´5´
aminokyselinové sekvence získané teoretickým
překladem sekvence DNA ve všech 6 čtecích
rámcích s vyznačenými kodony pro methionin
(funguje také jako iniciační kodon) a stop kodony:
Translate
1.
výběr některého z kodonů pro methionin jako iniciačního kodonu
2.
zobrazení získané sekvence ve FASTA formátu
BLAST
http://blast.ncbi.nlm.nih.gov/Blast.cgi
(Basic Local Alignment Search Tool)
volba programu...
vyhledávání podobných sekvencí
k námi zadané sekvenci v
proteinových databázích
vyhledávání sekvencí na základě
lokálního párového přiložení hledání podobnosti a tvorba
přiložení nejdříve v rámci krátkých
úseků, následně je přiložení
rozšiřováno tak, aby proti sobě
pokud možno ležely odpovídající si
aminokyseliny
(shodné
nebo
alespoň ty s podobnými fyzikálněchemickými vlastnostmi)
pro přiložení sekvencí nutné
vkládání mezer (důsledek inzercí a
delecí)
BLAST
vložení sekvence ve FASTA
formátu...
výběr databáze – zvolena
nr
(non-redundant)
soubor několika databází,
ve kterých by se stejné
záznamy pocházející z
několika databází neměly
překrývat (měly by být
zahrnuty jenom jednou)
omezení vyhledávání
pro
určitý
úsek
zadávané sekvence
omezení vyhledávání
na určitý organismus
(volitelné)
další modifikace blastu
po rozkliknutí se dá nastavit maximální počet
nalezených sekvencí, které mají být zobrazeny a
parametry vyhledávání (výběr substituční matice, ...)
BLAST
znázornění konzervativních domén,
případně aktivních míst, pokud byly
detekovány
grafické znázornění nalezených
sekvencí (barva odpovídá stupni
podobnosti) s vyznačením, ve které
části sekvence podobnost je...
výstup z BLASTu ve formě tabulky:
přístupové
kódy
a
popisy
nalezených proteinů, dále uvedeno
skóre přiřazení a hodnota E
skóre udává, jak dobré přiložení
dostáváme – při výpočtu se bere
v úvahu stupeň podobnosti
námi zadaná
sekvence
nalezené
proteiny se
sekvenční
podobností
BLAST
= známa struktura
skóre
udává, jak dobré
přiložení dostáváme (čím vyšší
skóre, tím lepší přiložení) – při
jeho výpočtu se bere v úvahu
stupeň
podobnosti
odpovídajících si aminokyselin
mezi
oběma
sekvencemi
(hodnoceno
pomocí
tzv.
substituční matice), ale také
vkládání mezer
E-value (expectancy):
=
předpokládaný
počet
sekvencí
nalezených
při
prohledávání databáze o určité
velikosti
(statistická
veličina)
skóre
udává,
jak dobré
přiložení
S klesající –hodnotou
E roste
dostáváme
při výpočtu
se bere
významnost
přiložení
vstatistická
úvahu stupeň
podobnosti
jednotlivá párová
přiřazení...
ProtParam
www.expasy.org/tools/protparam.html
vložení přístupového čísla z
databáze
UniProt
nebo
vložení
aminokyselinové
sekvence (ne obojí)
nástoj pro výpočet a predikci
některých
fyzikálně-chemických
parametrů (molekulová hmotnost,
teoretické
pI,
aminokyselinové
složení,
extinkční
koeficient,
GRAVY index) na základě zadané
aminokyselinové sekvence
PsiPred
http://bioinf.cs.ucl.ac.uk/psipred/
predikce sekundární struktury proteinů (algoritmus využívá tzv. neuronové sítě)
1.
výběr typu predikce – kromě
sekundární
struktury
program
umožňuje
předpovídat
i
jiné
vlastnosti
(fold,
topologie
transmembránových proteinů)
vložení aminokyselinové sekvence
PsiPred
http://bioinf.cs.ucl.ac.uk/psipred/
2.
e-mail (není nutné uvádět)
krátká identifikace vstupních dat
PsiPred
vyznačená sekundární struktura + číselně vyjádřená
míra jistoty, že určitá aminokyselina je součástí αhelixu / β-řetězce / neuspořádané struktury (0nejmenší pravděpodobnost, 9-nejvyšší)
...výsledky ve formátu PDF
grafické znázornění
Cirkulární dichroismus (CD)
Využití CD spektroskopie
K2D2
http://www.ogic.ca/projects/k2d2/
výběr rozmezí vlnových délek
vložení
sady
experimentálních
hodnot
(elipticit θ) – nutno vkládat ve vzestupném
pořadí (od nejnižší vlnové délky po nejvyšší) –
program si k hodnotám elipticit následně sám
přiřadí jednotlivé vlnové délky (200, 201, 202
nm, ...) - a místo desetinných čárek používat
desetinné tečky
stanovení
procentuálního
zastoupení α-helixu a βřetězce z experimentálních
dat z CD spektrometrie
Download

Čtecí rámce