| Til september starter bioinformatikuddannelsen på
Københavns Universitet. Det er en kandidatuddannelse, hvorpå man
kan blive optaget med en Bachelorgrad i et naturvidenskabeligt fag
eller tilsvarende. Uddannelsen vil give en grundig indføring i teoretisk
og praktisk molekylær bioinformatik, som jeg vil forsøge at give
et overblik over nedenfor.
Hvad er bioinformatik?
Bioinformatikken er blevet drevet frem af den moderne
molekylærbiologiske og genetiske forskning, som ganske enkelt ikke
har kunnet klare sig uden. Specielt genomprojekterne er afhængige
af computere til lagring og analyse af data. Mange introduktioner
til bioinformatik starter med historien om den eksplosive vækst
af DNA- og protein- databaserne, hvor alene det at holde bare nogenlunde
styr på disse data er en stor opgave. Bioinformatikkens vigtigste
mission er imidlertid i analysen af data: de enorme mængder af gener,
proteiner, DNA og RNA molekyler betyder nemlig, at det er umuligt
at analysere dem alle med de traditionelle eksperimentelle metoder.
De fleste forbinder nok bioinformatik med denne molekylære
bioinformatik, og det er da også den type bioinformatik, vi vil
beskæftige os med, selvom informatik naturligvis også vinder indpas
i andre grene af biologien. Bioinformatik er et relativt nyt begreb
og stadig ikke fuldt defineret. For nogle handler det om at bruge
datalogiske metoder i biologien og spørgsmålet ’hvorfor kan man
ikke bare ansætte en datalog?’ er ikke helt ualmindeligt. For andre
drejer bioinformatikken om avancerede matematiske og statistiske
metoder til analyse af biologiske sekvenser eller om at bygge fysisk
inspirerede modeller af biologiske systemer. Og for en hulens masse
handler bioinformatik om at surfe på nettet og bruge de tilgængelige
metoder til at analysere deres favorit-protein eller genom. Alle
disse holdninger er for snævre, selvom de hver især beskriver et
hjørne af bioinformatikken. Bioinformatik går ud på at anvende metoder
fra de matematisk-fysisk-datalogiske fag til at analysere (molekylær-)
biologiske, biokemiske og medicinske problemstillinger. For at kalde
sig bioinformatiker, mener jeg, at man skal have et rimeligt indgående
kendskab til områder af biologi/biokemi såvel som områder af de
matematisk-fysisk-datalogiske fag.
Lad os tage et par eksempler. Jeg har allerede nævnt
genomprojekterne, hvor man med større og større hastighed sekventerer
genomer. Nogle af genomprojekterne foregår i kæmpestore laboratorier,
som nærmest minder om fabrikker, hvor snesevis af sekventeringsmaskiner
kører døgnet rundt. Da DNA sekvenserne bliver aflæst i tilfældige
bidder af 500-1000 baser, er det første spørgsmål, som melder sig,
hvordan alle disse stumper passer sammen. Dette gigantiske puslespil
kaldes assembly problemet, og er en af bioinformatikkens klassikere.
Der er blevet udviklet algoritmer til at løse problemet effektivt,
og de bruges rutinemæssigt i sekventeringslaboratorierne. Der er
dog begrænsninger på hvor lange DNA sekvenser man kan assemble udfra
sådanne tilfældige stumper, og specielt når sekvensen indeholder
gentagne sekvenser, som for eksempel det humane genom gør til overflod.
Derfor var mange skeptiske overfor om firmaet Celera Genomics kunne
sekventere det humane genom med såkaldt whole genome shot-gun. Det
var kun takket være en samtænkning af den eksperimentelle metode
og assembly algoritmen, at det kunne lade sig gøre. De viste, at
problemet med repeterede sekvenser (og andre assembly problemer)
blev løst ved at sekventere begge ender af sekvenser af kendt længde.
Bioinformatikken blev inddraget fra begyndelsen, i stedet for, at
man købte en computer og ansatte en datalog da man stod med alle
stumperne og ikke anede hvad man skulle stille op.
Det primære produkt fra genomprojekterne er DNA sekvenser
og det næste store spørgsmål er, hvordan man herefter ’læser’ disse
sekvenser. Fra for eksempel den medicinske forskning og den farmaceutiske
industri er der naturligvis en enorm interesse i at lokalisere de
proteinkodende gener. Det er ikke så let som man ofte får indtryk
af – bare tænk på kontroversen om antallet af gener i det humane
genom. Man kender stort set hele DNA sekvensen, men diskuterer stadig,
om der er 30, 40 eller 50 tusinde gener. Der er udviklet mange
bioinformatiske metoder til at analysere DNA sekvenserne med, og
de gør det muligt, at finde en meget stor del af de protein-kodende
gener. Nogle af de gener, som ikke ligner kendte proteiner, er dog
svære at identificere korrekt, og det er det, som giver anledning
til kontroversen. Der ligger meget arbejde forude med at forbedre
metoderne til identifikation af gener og for eksempel kunne identificere
alternativ splejsning, som formodentlig er langt mere udbredt, end
man forventede for blot få år siden. Der ligger imidlertid endnu
større udfordringer i at afkode alt det, som IKKE er proteinkodende,
og her ligger der formodentlig store opdagelser. Det bliver for
eksempel mere og mere klart, at der findes masser af ukendte ikke-kodende
RNA gener, og det vil være et af bioinformatikkens spændende felter
de kommende år, se figur 1.
 |
| |
Figur 1. Ikke-kodende RNA gener har en
struktur, som primært er bestemt af base-parringsmønstret
i molekylet. Dette vises ofte som her i en flad såkaldt sekundærstruktur.
Sådanne gener har ikke kodon-strukturen som de protein-kodende
gener, så man må i stedet lede efter base-parringsmønstre,
når man søger efter sådanne gener. Dette er svært rent algoritmisk,
men det viser sig også, at mange tilfældigt udklippede genomiske
DNA sekvenser kan folde til noget, som ser ganske tilforladeligt
ud og har lige så lav beregnet fri energi som rigtige RNA
strukturer. Den her viste ”struktur” er for eksempel en tilfældig
genereret RNA sekvens (fra Workman & Krogh, Nucl. Acids
Res., 27, 4816 (2002)). |
Det, at finde gener og andre ting i genomer, er naturligvis
kun det første spæde skridt til en forståelse af biologien. Det
lidt stalinistisk klingende begreb ’systembiologi’ dækker over forsøg
på at finde sammenhængene imellem alle disse gener, proteiner, RNA
molekyler o.s.v., og forstå hvordan smådelene spiller sammen for
at skabe en celle og holde de biologiske processer i gang. Nogle
af de nye eksperimentelle teknikker åbner mulighed for at arbejde
i denne retning. I DNA array eksperimenter kan man for eksempel
måle ekspressionen af tusinder af gener samtidigt og herudfra i
princippet finde ud af, hvordan og hvor meget de forskellige gener
vekselvirker. Reelt er det dog vanskeligt, og her i systembiologiens
barndom må man nok nøjes med at udrede sammenhængene i lidt mindre
genetiske netværk.
Ind imellem gen-identifikation og systembiologi ligger
der selvfølgelig mange andre spændende bioinformatiske opgaver.
Tænk bare på det klassiske proteinfoldningsproblem: hvordan finder
man den tre-dimesionelle struktur af et protein udfra aminosyre
sekvensen? Fra den ene kant har man brugt kendte strukturer til
at forudsige strukturen med såkaldt homologi-modelering, men det
siger sig selv, at man her er begrænset til proteiner, som ligner
en kendt struktur. Fra en anden kant har man angrebet problemet
med fysiske metoder og forsøgt at konstruere generelle kraftfelter
og simulere proteinfoldningen i computeren. Idag er man nået et
skridt videre ved at kombinere disse to metoder på nye måder. Med
det stadigt voksende arsenal af kendte strukturer er det ikke helt
urealistisk, at man om relativt få år kan forudsige de fleste proteinstrukturer.
Uddannelsen
Uddannelsen på KU er en to-årig overbygningsuddannelse,
hvor man som sagt kan blive optaget med en bachelor i et naturvidenskabligt
fag (geo fagene dog undtaget) eller noget tilsvarende, så som ingeniør
eller medicin. I de første tre semestre følges kurser af tre forskellige
typer: bioinformatiske kernekurser, redskabskurser og specialkurser
(se tabellen). Man skal have cirka lige mange points fra hver af
de tre kursustyper. I det sidste semester laves speciale. Det er
målet, at alle kandidater når op på et fælles grund-niveau i biologi,
datalogi og statistik. Det gøres ved at tilbyde introduktionskurser
i de tre fag, så de studerende får det de mangler fra deres grunduddannelse.
På længere sigt, vil der blive krævet, at de studerende, der optages,
allerede har en vis baggrund i alle tre områder. Der vil både i
kursusvalg og gennem specialet være mulighed for at specialisere
sig i mange retninger, teoretiske såvel som anvendelses-orienterede.
Bioinformatiske Kernekurser
Bioinformatiske grundfag som indeholder alignment-metoder,
søgning efter sekvensmotiver, fylogenetisk analyse,
protein- og RNA-struktur analyse og forudsigelse, analyse
af ekspressionsdata og meget mere.
|
Bioinformatiske Redskabskurser
Kurser, som kan styrke de studerendes forudsætinger
indenfor biologi, datalogi, fysik, kemi,matematik og statistik.
Primært eksisterende kurser på Fakultetet andre
fag.
|
Bioinformatiske Specialkurser
Kurser i mere specialicerede bioinformatiske emner. Det
kan være almindelige kurser eller projektarbejde og
kan foregå på KU eller en anden institution eller
virksomhed.
|
Uddannelsen bliver koordineret af Bioinformatik-centret,
der blev etableret i marts i år på initiativ af flere af de naturvidenskabelige
fag under det Naturvidenskabelige Fakultet ved KU. Centret hører
under Molekylærbiologisk Institut, men er fysisk placeret på Zoologisk
Institut i Universitetsparken, indtil det nye BioCenter på Tagensvej
er klar til indflytning i 2005, hvorefter centret flytter sammen
med Molekylærbiologisk Institut. Bioinformatikcentret er stadig
under etablering, men vil allerede om et halvt års tid bestå af
en professor, en adjunkt, en forskningslektor og 3-4 ph. d. studerende.
Cirka halvdelen af disse stillinger er betalt af det Naturvidenskabelige
Fakultet og den anden halvdel af midler fra forskningsrådene og
EU. Centret sigter imod en tværvidenskabelig sammensætning med både
teoretisk og anvendt bioinformatisk forskning.
Det er vigtigt både for bioinformatik og biologi, at
de to fag er tæt knyttet, og noget af det mest spændende er, når
eksperimenter og bioinformatik spiller tæt sammen. Selvom jeg også
er en stor tilhænger af teoretisk bioinformatik, synes jeg det er
et vigtigt mål at få bioinformatik ud i laboratorierne. Derfor ser
jeg det som en positiv udvikling, at de fleste danske universiteter
har lavet bioinformatik-uddannelser, for på den måde at få bioinformatisk
forskning såvel som uddannede kandidater. Da bioinformatik tilmed
ikke på nogen måde er instrument-tung, er der al mulig grund til
at satse på, at alle landets universiteter får opbygget stærk forskning
på dette område.
Yderligere information om kandidatuddannelsen og Bioinformatik-centret
kan findes på vores hjemmeside www.binf.ku.dk.
|