Hemoglobin a jemu podobní...
Studijní materiál
Jan Komárek
Bioinformatika
„Bioinformatika je vědní disciplína, která se zabývá
metodami pro shromážďování, analýzu a vizualizaci
rozsáhlých souborů biologických dat, zejména dat
molekulárně-biologických“ (http://cs.wikipedia.org/wiki/Bioinformatika)
...zabývá se mimo jiné sekvenční analýzou, anotací
genomu, zkoumáním evolučních vztahů mezi organismy,
předpovídáním struktury a funkce proteinů, ...
Struktura proteinů
q 
primární struktura = sekvence, dána pořadím aminokyselin
v polypeptidovém řetězci
N DALQLRIYAQKPDNTIQEYMWNGDGWKEGTNLGGALPGTGIGATSFRYTDYNGPS
IRIWFWYPDLVTIFDRAPPPVAATSKELKHIRVYTLTEGNTLQEFAYDSGTGWYN
GGLGGAKFQVAPYSCIAAVLAGTQTDDLKLVQRAYDPHKGRTAIAATSFGAGN C
zápis sekvence od N-konce (koncová aminokyselina s volnou NH2skupinou k C-konci (koncová aminokyselina s volnou COOHskupinou), aminokyseliny zapisovány pomocí jednopísmenných
zkratek:
alanin
arginin
asparagin
aspartát
cystein
glutamát
glutamin
glycin
histidin
A
R
N
D
C
E
Q
G
H
isoleucin
leucin
lysin
methionin
fenylalanin
prolin
serin
threonin
tryptofan
I
L
K
M
F
P
S
T
W
tyrosin
valin
Y
V
alifatické
drobné
malé
Vennův diagram pro 20
přirozeně se vyskytujících
aminokyselin vytvořený na
základě jejich fyzikálněchemických vlastností
aromatické
nepolární
http://www.ebi.ac.uk/Tools/clustalw2
pozitivně nabité
nabité
polární
Struktura proteinů
q 
sekundární struktura – opakující se strukturní uspořádání
proteinu v důsledku vazebných interakcí (vodíkové, iontové
nebo disulfidické můstky) mezi částmi proteinového řetězce
α-helix
znázornění pomocí
„cartoon“ modelu
β-skládaný list tvořený
ze čtyř řetězců
Struktura proteinů
q 
terciální struktura – celkové prostorové uspořádání jednoho
polypeptidového řetězce
q 
kvartérní struktura – uspořádání podjednotek (několika
polypeptidových řetězců) u oligomerních proteinů
homo- = složený ze stejných podjednotek
hetero- = složený z různých podjednotek
q 
homology – proteiny, jejichž sekvence mají původ ve
společném „prapředkovi“ – následek evoluční divergence
(vzájemného vzdalování):
q paralogy
– v rámci stejného druhu, pochází z jednoho
proteinu, u jehož genu došlo k duplikaci
q ortology – u různých druhů, postupně se vyvinuly z
„prapůvodního“ proteinu z „prapředka“
srovnání sekvencí ortologních proteinů → fylogenetická
analýza
Významné bioinformatické instituce
National Centre for Biotechnology information (NCBI)
www.ncbi.nlm.nih.gov
přístup k řadě databází
prostřednictvím vyhledávacího
systému Entrez
řada bioinformatických nástrojů
(BLAST)
součástí také databáze článků
s biomedicínskou tématikou
PubMed
Významné bioinformatické instituce
European Bioinformatics Institute (EBI)
www.ebi.ac.uk
přístup k řadě databází
prostřednictvím vyhledávacího
systému SRS
řada bioinformatických aplikací
(ClustalW2)
Vyhledávání v databázích vložením
přístupového kódu
start vyhledávání
vložení přístupového kódu
příklad vyhledávání záznamu
pro lidský lysozym
(P61625)
Vyhledávání v databázích vložením
přístupového kódu
počty nalezených záznamů v
různých databázích
Vyhledávání v databázích vložením
přístupového kódu
nalezené záznamy v databázi
UniprotKB
volba formátu zobrazení záznamu
Schéma záznamu zobrazeného ve
formátu SRS
obecné informace...
popis proteinu, z jakého
organismu pochází...
odkazy na vědecké články
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
popis vlastností proteinu
(pokud jsou známy)
odkazy na další databáze
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
jestli se jedná o prokázaný protein – např. důkaz na úrovni
proteinu/transkriptu, předpovězený na základě homologie, atd.
grafické vyznačení
sekundárních motivů,
aktivních míst, signálních
sekvencí...
Schéma záznamu zobrazeného ve
formátu SRS (pokračování)
informace o sekvenci (délka,
molekulová hmotnost)
zobrazení sekvence v různých
formátech
FASTA formát: textový formát pro zápis proteinových a nukleotidových sekvencí pomocí
jednopísmenných symbolů obsahující krátký popis sekvence(uvozen symbolem >)
LALIGN
http://www.ch.embnet.org/
software/LALIGN_form.html
výběr lokálního/globálního
párového přiložení dvou sekvencí
nastavení parametrů
přiložení
název proteinu
párové přiložení – přiložení dvou
sekvencí k sobě tak, aby si jejich
části co nejvíce odpovídaly
- globální (uvažována podobnost v
celé délce sekvence)
- lokální (uvažována podobnost
pouze v částech sekvence)
vložení sekvence... (holý text, ne
FASTA formát)
název proteinu
vložení druhé sekvence...
LALIGN
globálního párového přiložení pro
dvojici sekvencí
použití interpunkce u LALIGN:
: identické aminokyseliny
. podobné aminokyseliny
(konzervativní substituce)
ClustalW2
http://www.ebi.ac.uk/Tools/clustalw2/
mnohonásobné přiložení –
sekvenční přiložení pro více než
tři proteiny – řady vyjadřují
jednotlivé sekvence, sloupce
pozice aminokyselinových zbytků
v proteinu
- důležité pro identifikaci
konzervativních oblastí proteinu
(ty jsou obvykle strukturně nebo
funkčně důležité), identifikace
nových členů proteinovýh rodin
vložení sekvencí ve FASTA formátu
ClustalW2
aminokyseliny barevně znázorněny (ty s podobnými
fyzikálně – chemickými vlastnostmi stejnou barvou)
míra konzervovanosti přiřazených sekvencí vyjadřována několika symboly:
*
sloupce obsahující identické zbytky ve všech přiřazených sekvencích
:
sloupce obsahující konzervativní substituci
.
sloupce obsahující semikonzervativní substituci
ClustalW2
mnohonásobné přiložení se dá použít pro konstrukci fylogenetických
stromů (diagramy znázorňující fylogenetickou příbuznost)
délky větví úměrné evoluční změně
tvorba fylogramu v ClustalW2 po vytvoření mnohonásobného přiložení:
Protein Data Bank (PDB)
q 
databáze proteinových struktur určených pomocí
rentgenostrukturní analýzy nebo nukleární magnetické
rezonance
www.pdb.org
Protein Data Bank (PDB)
q 
všechny struktury uložené v databázi mají svůj jedinečný
čtyřmístný kód (například „1uv3“)
vložení pdb kódu
Protein Data Bank (PDB)
stáhnutí struktury
ve formátu pdb:
obecné informace,
autoři, abstrakt
Protein Data Bank (PDB)
organismus, ze kterého protein pochází
seznam a zkratky ligandů ve struktuře
odkazy na databáze
informace vztahující se
k metodě, pomocí které
byla struktura určena
Download

Bioinformatika - studijní materiál ViBuChu