Komplexní analýza údajů z genových expresních map: výzva onkologického výzkumu pro současnou analýzu dat

Konference: 2005 XXIX. Brněnské onkologické dny a XIX. Konference pro sestry a laboranty

Kategorie: Nádorová biologie/imunologie/genetika a buněčná terapie

Téma: Pokroky v molekulární biologii nádorů

Číslo abstraktu: 039

Autoři: Mgr. Eva Budinská, Ph.D.; RNDr. Jiří Jarkovský, Ph.D.; P. Lidman; Doc. RNDr. Ladislav Dušek, Ph.D.

Úvod
Technika microarrays je v dnešní době jednou z nejperspektivnějších metod analýzy genomu. Svou schopností studia tisíců genů v jedné hybridizaci umožňuje efektivní zjišťování přítomnosti jak genomových či genetických aberací, tak i změn v genové expresi. Tím se stává významným prostředkem v diagnostice, epidemiologii či třídění nádorových onemocnění.
Na základě znalosti genové exprese několika tisíc genů můžeme najít ty, které jsou svojí aktivitou specifické pro jednotlivé typy nádorů, čímž nacházíme nástroj pro jejich diagnostiku. Analýza genové exprese může dát tak odpověď na otázku proč jinak nerozlišitelné nádory dávají odlišné odpovědi na tutéž terapii. Klasifikace nádorů, predikce odpovědi na terapii, nalezení nových podtypů diagnóz, to je jen málo z mnoha možností využití microarray technologie v onkologii.

Microarrays – základní principy
Základním principem je hybridizace nukleových kyselin, se sondami umístěnými na podložním skle (tzv. spoty). Zdrojem informace je buď mRNA (expresní arraye) nebo jaderná DNA (CGH arraye) ze dvou nebo jedné tkáně (případně buněčné linie). Hybridizované NA jsou přitom obarveny různými fluorescenčními barvivy (nejčastěji červená – tkáň, kterou zkoumáme, zelená - kontrola), po jejichž excitaci laserem o příslušné vlnové délce je získána intenzita světla. Tato intenzita je úměrná množství NA přichycené k sondě a tedy přeneseně i expresi genu ve zdrojové tkáni. Takto získaný obraz microarrays sklíčka (tzv. microarray čip) je dále analyzován a jednotlivé fluorescenční intenzity (tedy množství NA přichycené na odpovídajících sondách) jsou převedeny do číselné podoby, která podstupuje další matematické a statistické zpracování vedoucí k závěrům a interpretacím.

Celý microarrays experiment lze rozdělit na několik kroků:
0. Design experimentu
1. Hybridizace a další molekulární techniky vedoucí k vytvoření využitelného microarray čipu
2. Skenování microarray čipů, analýza obrazu a vytvoření základního datového souboru
3. Úpravy základního datového souboru, tzv. normalizace – cílem je umožnit srovnatelnost různých čipů, odstranění vlivu různé excitace u použitých fluorescenčních barviv, odlišení hybridizovaných sond a přirozené excitace pozadí atd.
4. Vztahy mezi geny – statistická analýza vztahu mezi expresí nebo výskytem různých genů
5. Klasifikace microarrays čipů – analýzy hodnotící vztah mezi jednotlivými čipy a geny typické pro různé skupiny čipů
6. Interpretace výsledků

U většiny z těchto kroků je nezbytné nasadit nejrůznější informatické, matematické a statistické metody, problém je o to závažnější, že každý krok v analýze microarrays může být zdrojem chyb. Specifikem microarrays experimentů je produkce obrovského množství dat se strukturou znesnadňující až zabraňující nasazení běžných statistických metod. Jedná se o tzv. “široká a krátká“ data, tzn. že máme málo případů (desítky, pacienti) a hodně proměnných (tisíce, geny).
  1. Design experimentu:
    Dříve než se microarray experiment rozběhne, je potřebné zvolit jeho vhodný design. Pokud má studie od počátku nevhodný design, nedají se obvykle takto získaná data vůbec analyzovat. Proto je nezbytné, aby se věnovala náležitá pozornost nejen všem krokům analýzy ale i designu studie, který celému experimentu předchází. Tento se volí v závislosti na tom, jaké jsou hypotézy které má studie potvrdit, s čímž bezprostředně souvisí i následující analýzy.

  2. Skenování microarray čipů, analýza obrazu a vytvoření základního datového souboru
    Analýza obrazu získaných snímáním Microarrays je v současné době asi nejvíce přehlíženou fází celkového zpracování biologických dat, získaných touto metodou. To ovšem neznamená, že jde o fázi zanedbatelné důležitosti. Praxe naopak ukazuje, že správnost volby metod obrazové analýzy má zásadní vliv na úspěšnost celého experimentu.

    Analýza obrazu se dá rozdělit na několik fází:
    • filtrace - odstranění kontaminací, rozeznání „špíny“

    • mřížkování (gridding) – lokalizace centra každého spotu microarray čipu

    • segmentace – odlišení pixelů popředí od pixelů pozadí (background)

    • Nejznámější algoritmy:
      Fixed circle segmentation
      Adaptive circle segmentation
      Adaptive shape
      Histogram segmentation
    • kvantifikace – sumarizace intenzit pixelů popředí a pozadí pro každý spot

    Poslední dva kroky jsou nejdůležitější. Algoritmy pro tyto fáze jsou různé a každý má své výhody i nevýhody. Různé software pro analýzu obrazu implementují různé z nich, a zjednodušeně lze říci, že čím víc má uživatel možností na výběr, tím je program lepší.

  3. Úpravy základního datového souboru, tzv. normalizace – cílem je umožnit srovnatelnost různých čipů, odstranění vlivu různé excitace u použitých fluorescenčních barviv, odlišení hybridizovaných sond a přirozené excitace pozadí atd.
    V microarrays datech existuje mnoho systematických odchylek, které ovlivňují naměřenou expresi genů. Tyto odchylky nemusí být způsobeny biologickými vlastnostmi zkoumaných materiálů a jejich potlačení se obecně nazývá normalizací. Tato fáze je důležitá při zpracování biologických dat a důležitý je rovněž výběr vhodné normalizační metody. Normalizace se provádí na několika úrovních:
    • Korekce mezi geny (uvnitř čipu)
      i. prostorová korekce (spatial correction)
      ii. korekce vůči pozadí (background correction)
      iii. korekce vůči rozličným fluorescenčním barvivům (dye-effect correction)

    • Korekce mezi čipy či mezi různými experimenty


  4. a 5. Vlastní analýza microarray dat.
    V těchto krocích microarray analýzy se využívají statistická analýza a techniky data-miningu. Podle toho, jaký byl cíl experimentu je možno rozdělit tuto fázi do následujících skupin analýz:
    • Nalezení odlišně exprimovaných genů
      Pomocí testových statistik (napr. T-test) se snažíme určit skupinu těch genů, které jsou odlišně exprimované. Je to obvykle první fáze, která se snaží zmenšit velkou množinu proměnných (genů) pro pozdější fáze analýz.

    • Shlukování – má za cíl hledat na základě naměřených hodnot proměnných nové skupiny. Proměnné mohou být jak geny, tak i jednotliví pacienti, shlukovat tedy můžeme skupiny genů, které se u všech pacientů exprimují shodně, nebo můžeme hledat skupiny pacientů, kteří se na základe genové exprese liší.

    • V této fázi se využívají metody tzv. clusteringu (K-means clustering, hierarchické shlukování…)
    • Klasifikace - na základě známého zařazení pacientů do známých skupin se hledají na trénovací množině takové proměnné (geny), které umožní co nejlepší rozlišení těchto skupin.
      V této fázi se využívají data-miningové metody

      • tzv. strojového učení s učitelem (rozhodovací stromy, neuronové sítě, k-nejbližších sousedů),
        i metody statistické, nejčastěji

      • regresní analýza

Klasifikace je úzce spojená s problémem predikce a metody v těchto dvou fázích se prolínají.
  • Predikce – se snaží na základě modelu vytvořeného klasifikací zařadit pacienty do jednotlivých skupin, případně také předikovat pravděpodobnost s jakou do dané skupiny patří. Mezi metody, které dokáží předikovat pravděpodobnost patří například logistická regrese.


  • Analytický microarray tým na Masarykově Univerzitě

    Vzhledem k narůstajícímu počtu experimentů využívajících techniku microarrays a jejímu významu pro vědecký vývoj i pro praktické užití např. v onkologii byla na MU vytvořena pracovní skupina, jejíž náplní je ve spolupráci s molekulárními biology a lékaři zpracování microarrays experimentů ve všech krocích následujících po molekulárně-biologické části experimentu. Týká se to tedy těch částí analýzy microarrays, kdy je možné uplatnit informatické, matematické a statistické postupy.
    Díky tomu, že tyto postupy nejsou molekulárním biologům zcela vlastní a existuje zde obrovský prostor pro další vývoj analytických metod, věříme, že vznik naší skupiny bude pro celou oblast analýzy microarrays významným přínosem.
    U vzniku skupiny stála dvě pracoviště, jejichž potenciál v oblasti analýzy microarray čipů se významně doplňuje a to:
  • Laboratoř optické mikroskopie a vysokorozlišovací cytometrie (Doc. RNDr. M. Kozubek, Ph.D., www.fi.muni.cz/lom/) umístěná na Fakultě informatiky MU a zabývající se zejména problematikou analýzy obrazu a normalizace získaných dat a vývojem software pokrývajícím tyto oblasti. Pracoviště má již řadu zkušeností s hodnocením vlastních microarray čipů a kromě odborných informatiků zaměstnává i biology schopné propojit požadavky molekulární biologie s možnostmi informatiky.

  • Centrum biostatistiky a analýz (Doc. RNDr. L. Dušek, Ph.D, www.cba.muni.cz) spadající mezi Přírodovědeckou a Lékařskou fakultu Masarykovy univerzity s rozsáhlými zkušenostmi z analýzy a interpretace jednak vícerozměrných biologických dat obecně, jednak reálných medicínských dat zejména z oblasti onkologie. Pracovníci centra pochází jak z odborné biologie a matematiky, tak medicíny a jsou schopni skloubit vývoj a aplikaci nových analytických metod s požadavky praxe.

Centrum biostatistiky a analýz se zaměřuje především na finální analýzu microarray experimentů a jejich následnou interpretací. Kromě využití již existujících metod se snažíme zůstat v kontaktu i s nejnovějším vývojem, kdy ve spolupráci s ÚVT je v rámci projektu UIRON (projekt doménizace umělé inteligence v onkologii) vyvíjen projekt EMILEffective Microarray InteLligence, který má za úkol využít robota umělé inteligence pro kompletní design analýzy studií microarrays.
V rámci FRVŠ dále CBA rozbíhá projekt e-learningu v oblasti využití data-minigu a zároveň jeho aplikací na microarray analýzu. Ve spolupráci s LOM také pořádá výukový cyklus přednášek zaměřený na jednotlivé kroky analýzy microarrays.

V našem příspěvku bychom rádi popsali celý postup analýzy microarrays od designu po konečné hodnocení, a na příkladech ukázali jednotlivé problémy v každém z jejích kroků. Zároveň představíme Analytický tým microarrays.

Literatura:
  1. Parmigiani G, Garrett ES, Irizarry RA, Zeger SL. The analysis of Gene Expression Data. Methods and Software. New York, Springer Verlag; 2003.
  2. Simon R, Korn EL, McShane LM, Radmacher MD, Wright G, Zhao Y. Design and Analysis of DNA Microarray Investigations. New York, Springer Verlag; 2004.
  3. Stekel D. Microarray Bioinformatics. Cambridge University Press; 2003.
  4. Wit E, McClure J. Statistics for Microarrays. Design, analysis and inference. Sussex, Wiley; 2004.

Datum přednesení příspěvku: 26. 5. 2004