Bioinformatika

Mi a bioinformatika?

A bioinformatika határterületi tudományág, tehát több, különböző tudományág ismereteit és módszereit egyesíti. A biológia és informatika kézenfekvő módon ilyen tudományág, de a bioinformatika szintén átfedésben van a matematika, orvostudomány kémia és fizika területeivel. A bioinformatikát lehet a biotechnológia egy részterületeként is értelmezni, de ez inkább definíció kérdése, mintsem konszenzusra alapuló besorolás. A bioinformatika kiindulási adatai biológiai vagy orvosi eredetűek, és ezen adatok rendszerezéséhez, elemzéséhez, interpretálásához és közzétételéhez kínál informatikai, matematikai és statisztikai alapokon nyugvó módszereket és szoftvereket. A bioinformatikai adatfeldolgozás alapvető célja, hogy viszonylag könnyen értelmezhető eredményekkel lássa el a biológiai és orvostudományi kutatásokat, illetve egyre elterjedtebben, a gyógyászatot. Bioinformatikai módszereket és szoftvereket szerteágazó biológiai és orvosi területen alkalmaznak, de ezek közül a dezoxiribonukleinsavhoz (DNS) kötődő területek kiemelkedőek.

DNS szekvencia és szekvenálás

Általánosságban szekvenciának nevezik valamilyen dolgoknak az egymásra következését, sorrendjét. Egy DNS szál a nukleotidmolekulák láncszerű sorba kapcsolódásával épül fel. A DNS lánc négyféle nukleotidból áll, így a DNS láncot elképzelhetjük, mint egy gyöngysort, ahol a nukleotidok gyöngyök, és ami négy különböző színű gyöngyből áll. A gyöngysor lehet rövidebb vagy hosszabb, és a négyféle gyöngy sorrendje, tehát a szekvenciája, teljesen szabálytalan is lehet. Ha egy DNS lánc szekvenciáját elemezik, akkor a négyféle nukleotidot, vagy az előző példában szereplő négy különböző színű gyöngyöt, A, C, G és T betűvel jelölik. Tehát a négyfajta nukleotid szekvenciáját, amelyek a fizikai valóságban felépítik a DNS láncot, elvont formában a nukleotidokat jelölő betűk egymás mellé helyezésével írják le. Egy adott, fizikailag létező DNS lánc vagy láncrészlet szekvenálása a négyféle nukleotid betűjeléből felépülő, hosszú betűlánc laboratóriumi meghatározását jelenti. Ez igencsak leegyszerűsítve hasonlít arra, mintha a gyöngyök sorrendjét írnák betűk sorozatával. A fizikailag létező DNS lánc szekvenciáját elvont módon, betűk sorozataként is ismerni fogjuk a szekvenálás után.

DNS szekvencia annotálása

A DNS a sejtek örökítőanyaga, amely a sejtek felépítéséhez szükséges információkat tárolja. Az egymástól eltérő információkat egymástól többé vagy kevésbé eltérő DNS láncrészletek tartalmazzák. Például a TATA-box a névben szereplő négy darab nukleotidot tartalmazza a megfelelő sorrendben. A TATA-box egy bizonyos sejtműködést fog aktiválni, tehát az adott működésre vonatkozó információt tárolja. A TATA-box előtti és utáni közvetlen nukleotidok általában nem hordoznak semmilyen jelentést, és ennek megfelelően véletlenszerűeknek tekinthetőek. Annotációnak hívjuk a jelentéssel bíró DNS láncrészletek megjelölését a teljes DNS lánc nukleotidjai között. Például vegyük a CCTGAAGGATCTAGTC szekvenciájú DNS láncot. A lánc középen tartalmazza az AGGAT szekvenciát, ami, tételezzük fel, azt a jelentést hordozza, hogy a ki kell teregetni (fel kell aggatni) a kimosott ruhát. A DNS láncrészlet többi nukleotidja nem tartalmaz semmilyen információt. Tehát ha megjelöljük az AGGAT nukleotid ötöst a DNS láncon, és hozzátársítjuk az általa hordozott információt, akkor annotáljuk. A DNS szekvenálás önmagában nem fogja feltárni a különböző láncrészletekben rejlő biológiai információt. Az annotáláshoz szükséges információkat a szekvenálást kiegészítő laboratóriumi módszerekkel lehet meghatározni, vagy bioinformatikai módszerekkel prediktálni (megjósolni).

A betegségek és a DNS szekvencia kapcsolata

Az előző bekezdések alapján felmerülhet a kérdés, hogy mi tudja értelmezni és felhasználni a DNS láncrészletekben rejlő információt. A DNS-ben tárolt információt legtöbbször fehérjék tudják felhasználni. Ha a DNS láncot egy könyvnek tekintjük, ami a sejt felépítésére vonatkozó információkat tartalmazza, akkor a fehérjék a robotok, amelyek a sejt felépítését elvégzik. A fehérjék viszont szintén a sejt részei, tehát a fehérjék felépítésének az információit is a DNS lánc tárolja. Egy DNS láncrészletet, amely egy fehérjelánc felépítésének az információját tartalmazza, génnek nevezik. Egyszerűsítsük most le az ember genetikáját, és tételezzük fel, hogy a sejt felépítésének információját egyetlen egy DNS lánc tartalmazza. Két ember egy adott génjének DNS szekvenciája kis mértékben eltérhet egymástól, ami az adott fehérje felépítésében szintén megmutatkozhat. Szerencsétlen esetben a gén szekvenciája olyan fehérjeláncot kódol, amely nem tudja ellátni a feladatát a sejt felépítésében. Például tételezzük fel, hogy egészséges emberekben AGCCATGCCCTGATTCA DNS láncon az ATGCCCTGA nukleotidok tartalmazzák egy fehérjelánc felépítésének az információját. Az emberek egy kis hányada, viszont az ATGTCCTGA láncrészletet hordozza, amelyben a negyedik nukleotid T az egészséges emberekben megtalálható C helyett. Ez az egyetlen nukleotid különbség működésképtelenné teszi a fehérjét. Tehát a fehérjét kódoló láncrészletben, a génben csak egyetlen nukleotid hiba van, de ez mégis kihatással lesz az egész sejt vagy szervezet működésére. Egy működésképtelen fehérje betegséghez vezethet, amelynek a tünetei összefüggésben lesznek a működésképtelen fehérje sejten belüli feladataival. Genetikai betegségnek hívjuk az ilyen rendellenességeket, mivel a betegség az örökítőanyagból, a DNS láncból ered. A bioinformatikának egyik legjelentősebb vívmánya az ember genetikai betegségeinek megértésében és gyógyításában van, de ezen kívül más területeket is forradalmasított.

A bioinformatika más felhasználási területei

Röviden, a teljesség igénye nélkül felsorolunk néhány jelentős bioinformatikai területet, amelyet az előző bekezdésekben nem tárgyaltunk.

Biológiai adatbázisok

A bioinformatika egyik alapvető célja, hogy a különböző természetű adatokat viszonylag könnyen átlátható és érthető formában elérhetővé tegye a megfelelő szakembereknek. Az adatelemző és informatikai módszerekkel összegyűjtött és rendszerezett adatokat biológia adatbázisokban teszik elérhetővé. Rengeteg különböző tematikájú adatbázis érhető el ingyen vagy előfizetéssel, amelyek a különböző élőlények DNS szekvenciáitól kezdve a fehérje térszerkezetekig ezerféle dologról tartalmaznak információkat.

Evolúciós törzsfák

Különböző fajok, egymásnak megfelelő DNS szekvenciáinak az összehasonlításával a fajok evolúciós kapcsolataiba lehet betekintést nyerni, ami különösen fontos a modern rendszertan számára. Az eljárás során azzal az alapfeltételezéssel élünk, hogy a DNS-nek a sejt vagy az élőlény működését nem befolyásoló változásainak a száma arányos az eltelt idővel. Tehát ha két rokon faj megfelelő DNS szekvenciái kevesebb DNS szekvencia különbséget tartalmaznak, akkor időben is közelebb vannak a jelenhez, amikor a két faj még nem különült el egymástól. Ha két rokon faj között több DNS szekvencia különbség van, akkor a két faj elkülönülése régebben történt meg. Több rokon faj evolúciós kapcsolatainak ábrázolására gyakran törzsfát használnak, amelyről az egyes fajok rokonsági foka, azaz melyek a közelebbi, és melyek a távolabbi rokonok, illetve akár a fajok szétválásának a hozzávetőleges ideje is leolvasható.

Nagy méretű adathalmazok bioinformatikája

A fejlett laboratóriumi eljárások már képesek egy sejt vagy egyed teljes örökítőanyag állományát, szaknevén genomját, meghatározni (megszekvenálni). A genomhoz hasonlóan egy sejt vagy szövet teljes fehérjetartalmát, sőt, a DNS és fehérjék közé funkcionálisan beékelődő összes hírvivő (messenger) ribonukleinsavját (mRNS-ét), is képesek vagyunk már átfogóan feltérképezni. (Egy sejt vagy szövet teljes mRNS tartalmát hívjuk transzkriptomnak, amíg a teljes fehérje tartalmát proteomnak.) Mivel a különböző élőlények genomjai több milliárd DNS nukleotidot is tartalmazhatnak, illetve egy sejtben sok ezer különböző mRNS és fehérje is lehet, a fejlett laboratóriumi eljárások igen nagy mennyiségű adatot eredményeznek. A nagy méretű adathalmazok (big data) elemzése komplex módszereket igényelnek általánosságban az informatika egész területén, hiszen nem feltétlen csak a biológia laboratóriumokból származhat nagy mennyiségű adat. Összefoglalva, a bioinformatika módszerek jelentős hányada a picivel feljebb említett „big data” elemzésével van átfedésben.

Bioinformatikai predikciók

A bioinformatikai predikciók különösen fontosak azokon a területeken, ahol a biológiai adatok kísérletes vizsgálata az átlaghoz képest is munka- és időigényes. Ilyen terület például a fehérjék térszerkezetének vagy a gyógyszermolekulák bioinformatikai predikciója. A predikció szakszó nagyjából jóslást jelent, tehát a predikcióval kapott eredmény jellemzően sokkal több bizonytalanságot hordoz, mint a kísérletes eredmény. A predikciók a nagyobb bizonytalanság ellenére is sokat segíthetnek. Például predikció alapján meg lehet határozni, hogy valószínűleg melyik gyógyszermolekula lesz hatékony. Tehát a munka- és időigényes kísérleteket a predikció által kiválasztott gyógyszermolekulákon lehet elkezdeni, ami sokkal hamarabb vezethet valós eredményhez, mintha csak véletlenszerűen tesztelnénk a molekulákat.

Rendszerbiológia és hálózatelemzés

Különböző sejtalrendszerek összetett kapcsolatainak a bioinformatikai elemzésével és megjelenítésével foglalkozik a rendszerbiológia, amely megpróbálja a rendszert egységes egészként vizsgálni, mintsem az alrendszereket egymástól elkülönítve. Gyakran a hálózatelemzés módszerét használja a rendszerbiológia, de a hálózatelemzés szintén felhasználható egy alrendszer vizsgálata esetén is, mint például a jelátvitel modellezésénél. A rendszerszemlélet vagy hálózatelemzés természetesen nem csak a biológia területén alkalmazható, tehát ezek általános módszerek, amelyeket teljesen más tudományágakban is fel lehet használni, mint a biológia.