Bioinformatika: novi “kabinet radoznalosti” Understand article

Anabela Oruči, Biološki fakultet Univerziteta u Beogradu. Čuvanje velikih podataka u molekularnoj biologiji menja način rada naučnika.

U šesnaestom veku, kabinet radoznalosti ( ili Wunderkammer) bio je popularan način da se istakne privatna kolekcija izvanrednih predmeta. Životinjski primerci, skeleti, minerali, neobični ručni radovi intrigantni antikviteti Novog sveta, mogli su biti otkrivani s ushićenjem, izazivajući kod posetilaca  priličan osećaj radoznalosti u novom vremenu čudesa.

Vremenom, kabineti radoznalosti su ustupili mesto modernijim muzejima. Kao i kabineti, muzeji su udovoljavali dvema dubokim ljudskim tendencijama: radoznalosti, i željom da se sakuplja i da se očuva znanje.

Danas, ove iste tendencije, uparene sa novim tehnologijama i cunamijem genetičkih podataka, pokreću veliku promenu u prirodnim naukama: demokratizacija pristupa. Kao što je kategorizacija vidljivog sveta bioloških vrsta moguća, naučnici sada mogu da vrše sekvenciju DNK milion vrsta i da uđu u trag bazi podataka, pored ostalih podataka molekularne biologije. Rezultat je novi vid menažerije: konstantno rastući spisak bioloških informacija koje svuda pomažu naučnicima da razumeju živi svet.

Ali svim ovim podacima je potrebno čuvanje, pa je disciplina bioinformatika – koja kombinuje biologiju sa računarskim naukama –  razvijena da se bavi time.

U prirodnim naukama, tradicionalni “kabinet radoznalosti” je zamenjen petabajtovima molekularnih podataka.
Spencer Phillips/EMBL-EBI

Otvaranje kabineta

Istraživačke laboratorije širom sveta stavaraju ogromnu količinu podataka, koje se zatim pakuju u specijalnim bazama podataka –  kao što su oni u evropskom institutu za bioinformatiku (EMBL-EBI), koji se nalazi blizu Kembridžaw1, u Ujedinjenom Kraljevstvu. Glavna odgovornost EMBL-EBI je da obezbedi da podaci koji se čuvaju, budu dostupni javnosti, tako da su kolekcije svuda dostupne naučnicima. ” Tek poslednjih nekoliko godina ovakav način dostupnosti podataka je postao realan, zbog boljih komunikacionih sredstava, ali sada se to očekuje od strane korisnika”, kaže Andy Yates, timski vodič za EMBL-EBI. ” Dostupnost podataka je krucijalno za bilo koga ko se bavi naukom. Sa tradicionalnim kabinetom radoznalosti, kolekcionar je bio krajnji autoritet. Mi pravimo sadržaje – i mi sami smo  otvoreni da se reanaliziramo i da se preispitujemo. To je neophodan potez ukoliko želimo da naši resursi budu zaista korisni”, kaže on.

Organizovanje podataka

Skladište podataka kod
EMBL-EBI: centar za podatke
skladišti ogromnu količinu
digitalnih podataka, koristeći
stotine servera.

EMBL-EBI

Tradicionalni kabineti radoznalosti oragnizuju predmete po vrstama. Moderna baza podataka organizuje biološke podatke na sličan način – u kategorije. U bazi podataka, informacije i kategorije su međusobno povezane, tako da je baza podataka ” pametan” iliti multidimenzionalni kabinet radoznalosti.

Slaganje podataka abecednim redom je glavno za resurse javnih podataka, baš kao što je to bilo i u ranijim kolekcijama, da bi se podaci lakše pronalazili među pentabajtovima podataka. Bez ovakvog organizovanja podataka, ne bi se znalo šta se nalazi u bazi podataka ili kako je dospelo tamo. A opisivanje skupova podataka – nazvanim metaskupovi – je takođe neopohodno: ” Bez matapodataka, istraživanje baze podataka je kao lutanje podrumom Luvra zavezanih očiju, nadajući se da ćes naći Mona Lizu”, kaže Yates.

Da bi se napravili ovakvi fenomenalni skupovi podataka, čuvari podataka pažljivo proveravaju potčinjenost podataka da bi bili sigurni da oni  ispunjavaju neophodne uslove. Ovakvi podaci su postavljeni u široko prihvaćenoj smernici, poznatoj po svojoj skraćenici, FAIR: da se lako pronalazi, da je pristupačno, interoperabilno i da se može koristiti ponovo. Istraživački skupovi podataka moraju takođe da budu stavljeni u kontekst i da budu povezani sa naučnim publikacijama koje ih opisuju.

Vizualizacija podataka

Uporedo sa organizacijom, načini vizualizacije podataka su takođe bitni: biti u mogućnosti da se vide veze unutar podataka inspiriše ljude da dalje istražuju. “Prva očigledna razlika između kabineta radoznalosti i baze podataka je sadržaj”, objašnjava Jee- Hyub-Kim, bivši radnik pretraživač podataka u EMBL-EBI. ” Na drugu ruku, kolekcija fizičkih objekata čini da osećaš nešto odmah. Zamisli samo kakav je osećaj bio za nekoga ko možda nikada nije video okean da vidi i dodirne morsku zvezdu ili koral. Teško je stvoriti ovakvu prisnost sa nečim neopipljivim kao što su podaci. Zato ti treba dobar interfejs i alatke za vizuelizaciju – da se omogući da korisnik istraži i interaguje sa skupovima podataka ili digitalnim objektom”.

Jedan primer instrumenta vizualizacije podataka je proteinska banka podataka u Evropi ( PDBe)w2, resurs za skladištenje, organizaciju i širenje podataka makromolekulskih struktura, kao što su proteini. Pored toga što je centralno skladište za naučnike koji izučavaju proteine, PDBe dozvoljava korisnicima da vide i da interaguju sa digitalnim, trodimenzionalnim modelima proteina. Ove vizualizacije su dostupne za bilo koji uređaj koji je priključen na ineternet, širom sveta, uključujući mobilne telefone i tablet računare

Proteinska banka podataka u Evropi (PDBe) skaldišti hiljade digitalnih 3D modela proteina, uključujući sliku ljudskog molekula hemoglobina, prikazujući 4 subjedinice.
PDBe

Nove metode, novi uvidi

Primerak planktona
Histioneis elongata
prikupljenog od strane Tara
tima u južnom delu Tihog
okeana

tintinnidguy/Flickr
 

Kako dostupnost tolikog broja podataka menja način na koji vidimo nauku? Prema Chuck Cook-u, naučnom menadžeru koji radi u EMBL- EBI, naučnici će postati zavisniji od velikih podataka – a oni koji ne koriste te važne podatke neće biti profesionalni. ” Kako postajemo specijalizovaniji, voditi izolovane eksperimente postaje teže. Da bi “kopali” dublje u istaživanje, moraćemo da sarađujemo sa ljudima iz različitih oblasti.“ 

” Biolozi moraju da se do određene mere pretvore u programere”, slaže se Yates. “Tako se menjaju naučna pitanja. Naučnik će doći do hipoteze i onda će je potvrditi ili ne pomoću pretrage podataka velikih resursa podataka. To zahteva odeređeni stepen programerskog znanja.”

Kako naučnici počinju da analiziraju ove skupove podataka na masivnoj skali, oni duboko otkrivaju nove uvide. Na primer, podaci Tara Okean ekspeditora, u kojem je naučni brod plovio više od 300.000 km širom sveta od 2004., su doveli do otkrića novih 40 miliona gena i to pomaže naučnicima da razumeju nevidljive ekosisteme koji čine globalni lanac ishrane.

Naučnici su na putovanju sistematski sakupili uzorke planktona svih svetskih okeana, onda su ih poslali nazad na kopno da bi uradili DNK sekvenciranje i analizu. ” Sekvenciranje uzoraka sa Tara istraživanja nam dozvoljava da vidimo nešto od diverziteta života u okeanima”, kaže Rob Finn,  lider tima u EMBL-EBI metagenomičkih resursa . ” Prvi set 40 miliona gena idenifikovanih uzoraka sa Tara Okeanskog putovanja su uglavnom prokarioti – bakterijske vrste koje nismo videli nikada pre. Ali u drugom talasu podataka, otkrili smo više od 117 miliona eukariota do sada i postoji još nade za dalje otkrivanje”, kaže on.

Suštinski  podaci

U svetlu ovih stalno rastućih priliva podataka, koji su veliki izazovi koji čekaju biologiji u narednim godinama? “Pre javnih podataka, naučnici su radili na jednom proteinu, genu ili eksperimetalnom sistemu, verovatno tokom čitave karijere.”, kaže viši naučnik Janet Thornton, penzionisani direktor EMBL-EBI-a. ” Praktično je bilo nemoguće da se vidi veća slika. Danas  možemo napraviti dalekosežna opažanja kao što je to na nivou genoma ili vrsta”, kaže ona. Ali Thornton misli da ova smena takođe postavlja najveći izazov: zaista važna otkrića u biologiji i dalje leže u suštinskim detaljima.

“Ipak ćemo morati da pomno pogledamo ove detalje da bismo razumeli mnoga fundamentalna pitanja, kao što su zašto oragnizmi stare?”, kaže ona. “Inicijative kao “Ljudski ćelijski atlas”w3, su veoma dobri primeri svih nedostajućih detalja koji su nam i dalje potrebni pre nego što počnemo da objašnjavamo kako stvari funcionišu. Sledeći korak će biti da prevedemo ovo znanje u svakodnevne oblasti, kao što su medicina, agrikultura i biodiverzitet.”

Slično nalik kolekcionarima koji su osnovali prve kabinete radoznalosti, naučnici i dalje pažljivo kategorizuju sve što nauče o formi i funkciji života, i povezuju sve da bi im to pomoglo za dalja istraživanja.

Priznanje

Ovaj tekst je baziran na originalnom objavljenom u EMBL etc., prikazan sa dozvolom.

Download

Download this article as a PDF

Web References

  • w1 – EMBL-EBI je kuća velikog broja podataka u biologiji. Institut čuva i deli podatke ekperimenata prirodnih nauka izvedenih širom sveta, a njegovi naučnici sprovode osnovna istaživanja u računarskoj biologiji.
  • w2 – PDBe je baza podataka za trodimenzionalne strukturne podatke koji se odnose na velike biološke molekule, kao što su proteini i nukleinske kiseline. Modeli su napravljeni da budu besplatno dostupni za naučnike i studente širom sveta.
  • w3 ­– Ljudski ćelijski atlas teži da mapira svaku pojedinačnu ćeliju u ljudskom telu koristeći pojedinačne ćelijske tehnologije sekvenciranja. Ova saradnja između intrenacionalnih naučnih zajednica povezuje biologe, lekare, genetičare, softverske inženjere i druge stručnjake.

Resources

  • Saznaj više o Tara ekspeditorima i ekološkom istaživanju na Tara website.
  • Za čitanje “Science in school” članka o Tara ekpeditorima, vidi:

Institution

EMBL

Author(s)

Oana Stroe je službenik za komunikacije  u Evropskom bioinformatičkom institutu. Nakon završetka master studija u oblasti komunikacija, kulture i medija, Oana je godinama radila odnosima sa javnošću u oblasti tehnologije i inženjerstva, pre nego što se priključila  EMBL-EBI.


Review

Ovaj članak ilustruje ideju koja je fundamentalna za mnoge discipline, od prirodnih nauka do ekonomije: ogromnoj količini podataka i znanja koje sada posedujemo je potrebno da se profesionalno organizuje da bi bilo dostupno istraživačima širom sveta.

Ovaj članak ilustruje ideju koja je fundamentalna za mnoge discipline, od prirodnih nauka do ekonomije: ogromnoj količini podataka i znanja koje sada posedujemo je potrebno da se profesionalno organizuje da bi bilo dostupno istraživačima širom sveta.

Ovaj članak se takođe može koristiti da skrene pažnju na svet neverovatnog biodiverziteta koji još uvek nije otkriven u okeanima i ostalim neistraženim prirodnim staništima.


Jesús López Alonso, nastavnik biologije, IES La Gándara High School, Spain




License

CC-BY