Biologická olympiáda 2011–2012, školní kolo kategorie A
Číslo soutěžícího: ........
Analýza proteinových sekvencí (domácí úkol s použitím internetu)
Tabulka jednopísmenných kódů aminokyselin
Autor: Jaroslav Icha
alanin
A isoleucin
I
arginin
R leucin
L
asparagová kyselina
D lysin
K
asparagin
N methionin
M
cystein
C prolin
P
Veškeré vlastnosti proteinu jsou dány jeho primární strukturou,
tj. sekvencí aminokyselin. Ne všechny vlastnosti ale umíme ze sekvence
aminokyselin vyvodit. Některé už umíme odhadovat přesně, např.
izoelektrický bod (což je pH, při kterém má protein celkově nulový
náboj, zásadité proteiny mají vysoké pI a kyselé naopak nízké pI). Jiné
charakteristiky proteinů odhadujeme pořád dost špatně, např. 3D strukturu.
Pro zjišťování struktur proteinů jsou stále nepostradatelné experimentální
metody rentgenová krystalografie a nukleární magnetická rezonance, i když
nedávno získalo velkou publicitu vyřešení struktury virového enzymu čistě
teoretickým přístupem hráči hry foldit (web: fold.it). Umět zrekonstruovat
vlastnosti proteinu jen z jeho sekvence je užitečné, kupříkladu když objevíte
nový gen a chcete zjistit, jakou funkci by mohl mít protein, který se podle
genu vyrábí nebo když chcete odhadnout, jak se změní známý protein,
pokud v jeho sekvenci dojde k mutaci.
fenylalanin
F
serin
S
glutamová kyselina
E
threonin
T
glutamin
Q tryptofan
W
glycin
G tyrosin
Y
histidin
H valin
V
Sekvence nemusíte opisovat, najdete je na adrese: HTTP://goo.gl/uD97w
Sekvence 1
MARTKQTARKSTGGKAPRKQLATKAARKSAPATGGVKKPHRYRPGTVALREIRRYQKS
TELLIRKLPFQRLVREIAQDFKTDLRFQSSAVMALQEACEAYLVGLFEDTNLCAIHAKRV
TIMPKDIQLARRIRGERA
V této úloze si vyzkoušíte, kolik informací umíte zjistit o neznámé
aminokyselinové sekvenci pomocí několika programů volně dostupných
na internetu. Vaším úkolem bude získat co nejvíce informací o čtyřech
neznámých aminokyselinových sekvencích a na základě těchto dat je
přiřadit k nabízeným proteinům. V biologii se pro každou aminokyselinu
používá jednopísmenné označení, které si můžete přeložit podle přiložené
tabulky. Dále se v textu vyskytují pojmy N-konec a C-konec proteinu.
N-konec (podle NH2 skupiny první aminokyseliny) znamená začátek
proteinu a C-konec (podle COOH skupiny poslední aminokyseliny) je
konec proteinu. Informace můžete hledat volně na internetu, doporučuji
Wikipedii, spíše anglickou než českou (wikipedia.org) jako kvalitní zdroj
informací nebo detailnější proteinovou databázi Uniprot (uniprot.org) a
samozřejmě Google. Počítejte s tím, že vám práce s počítačem může zabrat
i více než hodinu, tak ji neodkládejte na poslední chvíli.
Sekvence 2
MYGKIIFVLLLSEIVSISASSTTGVAMHTSTSSSVTKSYISSQTNDTHKRDTYAATPRAHE
VSEISVRTVYPPEEETGERVQLAHHFSEPEITLIIFGVMAGVIGTILLISYGIRRLIKKSPSDV
KPLPSPDTDVPLSSVEIENPETSDQ
Sekvence 3
YNSTCGVSKFMWTKMMVDGHRMHIDRGLRWQVPQGSDMPMYTSRTAYMSEQVE
HHPPYDRFSHVELLCKALAFKFIKLRDGQKFNITHSFCCPRETPNVENFNNEAPNITW
LSWQFAAKYQALWKQIWCIYDCEGGYMNDEYQVCHIWVT
Sekvence 4
MSKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTTGKLPVPWP
TLVTTFSYGVQCFSRYPDHMKQHDFFKSAMPEGYVQERTIFFKDDGNYKTRAEVKFE
GDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNVYIMADKQKNGIKVNFKIRHNIEDG
SVQLADHYQQNTPIGDGPVLLPDNHYLSTQSALSKDPNEKRDHMVLLEFVTAAGITH
GMDELYK
strana 3
Biologická olympiáda 2011–2012, školní kolo kategorie A
Číslo soutěžícího: ........
Nejdříve si najděte na internetu základní informace o třech výše uvedených
proteinech a promyslete si, jaké by měly mít aminokyselinové složení a izoelektrický
bod (jsou kyselé nebo zásadité? apod.). Také se zamyslete, jak to bude u náhodné
sekvence. Poté spočítejte tyto parametry pro všechny čtyři sekvence a výsledky si
poznamenejte. Již na základě těchto informací jste schopní přiřadit jednu sekvenci
a pro ostatní přiřazení jste získali důležité indicie.
Proteiny
» GFP, zelený fluorescenční protein
» glycophorin A, transmembránový protein červených krvinek
» histon H3
» sekvence aminokyselin náhodně vygenerovaná počítačem
Návod
Programy, které budete používat:
1) ProtParam http://web.expasy.org/protparam/
Spočítá některé základní parametry aminokyselinové sekvence. Nakopírujte svou
sekvenci do většího ze dvou oken a zmáčkněte „compute parameters“ (spočítat
parametry).
2) PSIPRED http://bioinf.cs.ucl.ac.uk/psipred/
Předpovídá sekundární strukturu proteinu, tj. oblasti α-helixů a β-listů a
nestrukturované oblasti. Nakopírujte svou sekvenci do největšího okna, pojmenujte
sekvenci do okna „Short identifier for submission“ (krátký identifikátor pro vaši
sekvenci) a zmáčkněte „Predict“ (předpovědět). Žádné jiné nastavení neměňte.
Vás bude zajímat hlavně
aminokyselinové složení a z něj
vyplývající izoelektrický bod (pI)
proteinu.
strana 4
Biologická olympiáda 2011–2012, školní kolo kategorie A
Číslo soutěžícího: ........
Programu trvá několik minut než spočítá výsledek, takže mezitím můžete zjistit
(např. z obrázku na wikipedii nebo v databázi proteinových struktur PDB (pdb.
org), jakou sekundární strukturu nabízené čtyři proteiny doopravdy mají (převažují
α-helixy nebo β-listy? apod.). Věnujte pozornost i důvěryhodnosti předpovědi
„confidence of prediction“ zobrazené jako modrý graf v obrázku. Nezapomeňte si
výsledek uložit, ať nemusíte zdlouhavou analýzu opakovat.
3) Tmpred http://www.ch.embnet.org/software/TMPRED_form.html
Předpovídá, zda je protein transmembránový. Nakopírujte vaší sekvenci do
největšího okna a zmáčkněte „Run Tmpred“. Žádné jiné nastavení neměňte.
Výsledek:
Když se vám zobrazí výsledek, to nejdůležitější sdělení najdete až na spodu
stránky. Program předpoví, zda vůbec, a pokud ano, tak s jakou pravděpodobností
a kde v sekvenci se transmembránový úsek nachází. Opět si nejprve najděte, který
z proteinů je transmembránový a jaké mají transmembránové části proteinů
vlastnosti.
strana 5
Biologická olympiáda 2011–2012, školní kolo kategorie A
Číslo soutěžícího: ........
protein
GFP
glycophorin A
histon H3
náhodná sekvence
sekvence č.
Vysvětlení
Za správné vysvětlení se považuje to, které umožňuje jednoznačně přiřadit
aminokyselinovou sekvenci k proteinu. V některých případech může být jediná
informace dostatečná. V jiných případech je pro zisk plného počtu bodů nutno
uvést kombinaci alespoň dvou informací. Jako správné vysvětlení nelze uznat,
pokud si najdete na internetu přímo sekvenci proteinu a odpovíte např. sekvence
4 je GFP, protože se shoduje se sekvencí GFP, kterou jsem našel na internetu nebo
sekvence 4 je GFP, protože GFP je dlouhé 139 aminokyselin stejně jako sekvence
4. Vysvětlení by mělo být podloženo výsledkem analýzy v nějakém programu
např. v sekvenci 4 se podle programu PSIPRED střídají úseky α-helixů a β-listů,
což se shoduje se strukturou GFP, kterou jsem našel tam a tam a žádný další
protein z nabídky takovou strukturu nemá. Vaše přiřazení můžete doložit např. i
zkopírováním vašeho výsledku v konkrétním programu do řešení.
4) Pokud si ještě nejste jistí přiřazením, můžete si dále najít informace o doménách
a funkci proteinů. Nyní už byste měli mít dostatek informací k tomu, abyste
proteiny přiřadili k sekvencím a toto přiřazení správně odůvodnili. Můžete dále
použít jakýkoli program, který naleznete na internetu, pokud budete chtít zjišťovat
ještě další vlastnosti sekvencí.
» GFP, zelený fluorescenční protein
» glycophorin A, transmembránový protein červených krvinek
Řešení
Samotné správné přiřazení sekvencí k proteinům nebude bodováno, protože
sekvence těchto proteinů jsou snadno dohledatelné na internetu. Zajímat nás bude
až zdůvodnění, proč jste sekvence takto přiřadili. Rozhodně vám nezakazujeme
dohledat si sekvence těchto 4 proteinů na internetu (nebo můžete použít program
protein BLAST (http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins), který
k neznámé proteinové sekvenci najde nejpodobnější známé sekvence) může to být
pro vás dobrá kontrola, že jste uvažovali správně.
» histon H3
» sekvence aminokyselin náhodně vygenerovaná počítačem
10
strana 6
Download

Analýza proteinových sekvencí (domácí úkol s použitím internetu