Gennem de sidste seneste 20 år er mængden af tilgængelige biologisk
data vokset eksplosivt. På trods af en næsten tilsvarende vækst
i computeres regnekraft og informationsteknologiens formåen generelt,
kræver analyse og håndtering af de hastigt voksende mængder af
data stadig særdeles effektive beregningsmetoder samt computerbaserede
værktøjer, der udnytter den tilgængelige informationsteknologi
til det yderste. Udvikling af sådanne værktøjer kræver solide
kundskaber inden for en lang række traditionelle discipliner,
heriblandt biologi, statistik og datalogi. Kombinationen af disse
fagkundskaber betegnes ofte som bioinformatik.
Mere generelt kan man sige at bioinformatik er en
flerfaglig disciplin med fokus på udvikling og anvendelse af beregningsmetoder
og computerbaserede værktøjer til indsamling, håndtering og analyse
af biologisk data. Behovet for sådanne værktøjer vokser hastigt
i takt med den fortsatte udvikling af eksperimentelle teknikker
til indsamling af biologisk data; eksempelvis teknikker til aflæsning
og sammensætning af korte DNA fragmenter, som anvendes ved kortlægning
af genomer, eller teknikker til undersøgelse af genetisk variation
eller geners udtryksmønstre i forskellige individer og under forskellige
forhold, som blandt andet kan anvendes til kortlægning af sammenhænge
mellem genetiske egenskaber og sygdomsmønstre. I de kommende år
vil der være et fortsat voksende behov for effektive metoder til
analyse af biologisk dette samt tilsvarende data, eksempelvis
til identifikation af ligheder mellem to eller flere genomer,
eller til søgning efter karakteristika blandt en mængde geners
udtryksmønstre over et sygdomsforløb.
Bioinformatik er mange ting
De aktiviteter der typisk betegnes som bioinformatik
spænder bredt og kan med fordel opdeles med udgangspunkt i deres
primære formål; at anvende eller udvikle computerbaserede værktøjer
til indsamling, håndtering eller analyse af biologisk data. Der
skelnes altså mellem brugere og udviklere, hvor en bruger er en
person, der anvender computerbaserede værktøjer til analyse af
data i forbindelse med et biologisk eller medicinsk arbejde, mens
en udvikler er en person, der udvikler nye beregningsmetoder og
computerbaserede værktøjer til analyse af biologisk data. En væsentlig
drivkraft bag bioinformatik er selvfølgelig samspillet mellem
brugere og udviklere, hvor brugernes behov for værktøjer til stadighed
motiverer nye problemstillinger, som undersøges af udviklere med
henblik på konstruktion af effektive værktøjer, der forhåbentlig
gør det muligt for brugerne at overveje nye biologiske eller medicinske
problemstillinger.
Den beskrevne opdeling i brugere og udviklere er grov
og skal ikke forstås som en enten-eller opdeling; en forsker kan
sagtens være både bruger og udvikler i forskellige dele af sit
arbejde, ofte er det dog klart hvilken af de to aktiviteter der
udgør tyngden i arbejdet. Det er ligeledes vigtigt at understrege,
at udvikling spænder fra teoretisk arbejde indenfor matematik,
statistik eller datalogi, over mere praktiske aktiviteter i forbindelse
med softwareudvikling, til opsætning og sammensætning af eksisterende
programmer og databaser. Arbejdet med at udvikle et bioinformatisk
værktøj tager ofte sit udgangspunkt i en statistisk modellering
og beskrivelse af den biologiske problemstilling, efterfulgt af
overvejelser om de algoritmer og datastrukturer, der skal udgøre
det beregningsmæssige fundament i løsningen. Herefter følger udvikling
og indkøring af den software, der implementerer den beskrevne
løsning. Typisk skal det færdige program kunne bruge data fra
en række gængse databaser samt betjenes via en www-grænseflade.
Alt i alt kræver udvikling af et bioinformatisk værktøj en lang
række teoretiske og praktiske færdigheder fra både biologi, molekylær
biologi, statistik og datalogi. Behovet for udvikling af teoretisk
velfunderede værktøjer vil vokse i takt med datamængden og de
mere komplicerede biologiske spørgsmål der ønskes besvaret.
Etablering af Center for Bioinformatik
Aarhus Universitet har en lang tradition for forskning
og undervisning indenfor bioinformatik. Jotun Hein, som indtil
1. september 2001 var lektor ved Afdeling for Genetik og Økologi,
Aarhus Universitet, men nu er professor i bioinformatik ved Oxford
University, har undervist en lang række kurser indenfor bioinformatiske
emner. Disse kurser er blevet fulgt af forskere og studerende
fra både biologi, datalogi og statistik, hvilket tidligt førte
til etableringen af en gruppe på tværs af eksisterende institutter
med en fælles interesse for bioinformatik. Ved Datalogisk Institut
har der f.eks. gennem forskelllige samarbejder været aktiviteter
indenfor bioinformatik i snart 10 år; dels gennem studerende,
der har arbejdet som studenterprogrammører på bioinformatik relaterede
projekter, dels gennem en række kandidat- og Ph.D.-projekter.
Center for Bioinformatik, eller Bioinformatics Research
Center (BiRC), ved Aarhus Universitet blev etableret i januar
2001 som et samarbejde mellem Det Naturvidenskabelige Fakultet,
Det Sundhedsvidenskabelige Fakultet og Aarhus Universitetshospital.
Centerets aktiviteter er for nuværende baseret på en bevilling
fra Aarhus Universitets forskningsfond fordelt over fire år. Etableringen
af BiRC er i stor udstrækning foretaget med udgangspunkt i den
gruppe af, der blev etableret omkring Jotun Heins tidlige aktiviteter
indenfor bioinformatik.
I marts 2001 flyttede BiRC ind i Officersbygningen
beliggende i den sydlige del af Universitetsparken. For tiden
er der otte videnskabelige medarbejdere, seks kandidat- og Ph.D.-studerende,
samt otte studenterprogrammører, som har kontorplads i Officersbygningen.
Herudover er der en række forskere og studerende fra både datalogi,
biologi, molekylær biologi, statistik og medicin, som er tæt knyttet
til BiRC gennem forskellige samarbejder. Endvidere huser Officersbygningen
to medarbejdere fra Biobasen ved Aarhus Universitet samt to medarbejdere
fra en nystartet bioinformatik virksomhed, som arbejder med softwareudvikling.
Siden etableringen af BiRC er de lokale aktiviteter
indenfor bioinformatik blevet styrket, såvel i form af nyansættelser
af både forskere og studenterprogrammører, som i form af nye interne
og eksterne samarbejdspartnere, heriblandt det tætte samarbejde
med Biobasen. Hovedparten af de forskere og studerende der for
tiden er direkte knytte til BiRC er udviklere, hvilket afspejler
den ønskede profil, som et center for udvikling af bioinformatiske
metoder i bred forstand.
En kandidatuddannelse i bioinformatik
Gennem årene er der ved Aarhus Universitet blevet
udbudt en række kurser indenfor bioinformatik (se vores www-side
http://www.birc.dk/Sstudies for en delvis oversigt). I forbindelse
med etableringen af BiRC var det naturligt også at overveje at
etablere et sammenhængende uddannelsesforløb i bioinformatik.
Uddannelsesforløbet blev tilrettelagt som en 2-årig kandidatuddannelse
ved IT-Vest og Aarhus Universitet, der bygger på en bacheloruddannelse
i biologi, molekylærbiologi, medicin, datalogi, statistik, matematik,
eller lignende uddannelser. Uddannelsen er struktureret som halvandet
år med fag i et omfang af 18 studiepoint (960 ECTS) efterfulgt
af et specialeprojekt på et halvt år. Samarbejdet med IT-Vest
var naturligt, da de i samarbejde med bl.a. Aarhus Universitet,
Aalborg Universitet, Syddansk Universitet og Handelshøjskolen
i Aarhus udbyder en lang række andre informationsteknologiske
overbygningsuddannelser, se www.it-vest.dk for yderligere information
om IT-Vest.
Formålet med kandidatuddannelsen i bioinformatik ved
Aarhus Universitet er at give studerende med en forudgående akademisk
baggrund på mindst bachelorniveau en videregående uddannelsen
indenfor bioinformatik, hvor d. Der fokuseres på softwareudvikling
og centrale emner inden for biologi og statistik. De studerende
uddannes til udviklere med en god forståelse for de problemstilling
som brugere arbejder med. Uddannelsens kerneområder er: Programmering,
algoritmer og datastrukturer, udvikling af store software systemer,
håndtering af store datamængder, analyse af biologiske sekvenser
og strukturer, molekylær evolution og statistiske modeller. Disse
emner dækkes gennem et 2-årigt fuldtidsstudium bestående af omkring
ti kurser og et speciale projekt. Undervisningen tilrettelægges
som en kombination af forelæsninger og øvelsestimer på mindre
hold, hvor der under hele forløbet lægges lige vægt på teori og
praksis.
Sammensætning af et 2-årigt uddannelsesforløb
Med udgangspunkt i de kvalifikationer der findes i
BiRC valgte vi at fokusere på et uddannelsesforløb der sigter
mod at uddanne udviklere af bioinformatiske metoder med et solidt
kendskab til brugernes behov. Uddannelsesforløbet er derfor tilrettelagt
så det giver den studerende specielle forudsætninger for at medvirke
ved udviklingen af bioinformatiske værktøjer og deltage i analysen
af de store mængder af genetiske og molekylærbiologiske data som
er tilgængelige og som bliver indsamlet over de næste mange år.
Derudover kvalificerer uddannelsen den studerende til at løse
tekniske og designmæssige opgaver indenfor IT-området generelt,
selvom studiet først og fremmest fokuserer på opgaver der relaterer
sig til anvendelse af IT indenfor bioteknologi.
Speciale projekt |
Bioinformatik og algoritmer |
Sammensatte systemer |
Genomanalyse |
Algoritmer og datastrukturer |
Molekylær populationsgenetik og evolution |
Proteinstruktur |
Grundlæggende programmering |
Markov modeller |
Biostatistik |
Mat./Bio. begreber |
Tabel 1: Uddannelsesforløbet i bioinformatik består
af 10 kurser og et specialeprojekt fordelt over fire semestre.
Udvikling af effektive værktøjer til analyse og håndtering
af store mængder biologisk data kræver solid fagkundskab til områder
inden for biologi og statistik kombineret med stor ekspertise
inden for softwareudvikling. Dette er hvad vi sigter mod at formidle
i de ti kurser der sammen med et specialeprojekt udgør vores uddannelsesforløb
i bioinformatik. Kurserne tager udgangspunkt i emner inden for
datalogi, biologi og statistik som beskrevet nedenfor og sammensættes
som vist i tabellen ovenfor.
Følgende kurser har udgangspunkt i datalogiske emner:
Grundlæggende Programmering: Indføring i UNIX
omgivelser samt introduktion til programmeringsbegreber og metoder
til systematisk udvikling og afprøvning af mindre programmer.
Sideløbende fokus på grundlæggende bioinformatiske problemstillinger
samt programmer der kan anvendes til løsning af disse.
Algoritmer og Datastrukturer: Indføring i grundlæggende
algoritmer og datastrukturer, herunder søgning, fletning, sortering,
lister, køer, stakke, træer. Derudover basal teori om korrekthed
og effektivitet af algoritmer samt gennemgang af grundlæggende
beregningsparadigmer, herunder del-og-kombiner, dynamisk programmering,
samt kombinatorisk søgning.
Bioinformatik og Algoritmer: Indføring i effektive
algoritmer, der løser specifikke biologiske problemstillinger.
Indledningsvist fokus på metoder til sammenligning af to eller
flere biologiske sekvenser, dels klassiske metoder, dels probabilistiske
metoder baseret på skjulte Markov-modeller. Dernæst fokus på metoder
til strukturforudsigelse og analyse af store datamængder, f.eks.
clustering. Desuden teori om kompleksitet af problemer, specielt
NP fuldstændige problemstillinger i forbindelse med sammenligning
af flere sekvenser og forudsigelse af struktur. Ved øvelserne
lægges vægt på implementation af metoder og eksperimentel undersøgelse
af disses opførelse i praksis.
Sammensatte Systemer: Fokus på problemstillinger,
der opstår når en programmeringsløsning kræver at flere komponenter
kombineres. Indføring i brug og udvikling af større programbiblioteker,
kobling af eksisterende programmer med egne programmer ved brug
af script-sprog, udvikling af brugergrænseflader samt brug af
databaser til håndtering af store datamængder.
Følgende kurser har udgangspunkt i matematiske og
statistiske emner:
Biostatistik: Elementær indføring i sandsynlighedsregning
og statistik med henblik på biologiske anvendelser. Sandsynlighedsregning
behandles med henblik på de statistiske anvendelser. De statistiske
modeller præsenteres i forbindelse med biologiske eksempler.
Matematiske Begreber: Introduktion, eller genopfriskning,
af matematiske begreber. Eksempelvis lineær algebra, uendelige
summer og integraler.
Markov Modeller: Introduktion til Markov-kæder
og skjulte Markov-modeller, som i stor udstrækning anvendes til
modellering af biologiske systemer.
Følgende kurser har udgangspunkt i biologiske emner:
Biologiske Begreber: Introduktion, eller genopfriskning,
af molekylær biologiske begreber og arbejdsmetoder.
Molekylær Populationsgenetik og Evolution:
Belyser hvordan DNA sekvenser kan benyttes til at undersøge evolutionære
processer i populationer samt fylogenetiske sammenhænge mellem
organismer. M. Modeller, metoder og problemer i analysen af DNA
sekvenser vil blive gennemgået og diskuteret, og der vil blive
lagt vægt på metodernes anvendelse på sekvensdata fra vidt forskellige
typer organismer. Computere vil blive benyttet til visualisering
af modeller samt løsning af opgaver.
Proteinstruktur: Indføring i de begreber, der
anvendes inden for moderne biomolekylær strukturbeskrivelse samt
nogle af de principper, der ligger til grund for makromolekylers
foldning og deres vekselvirkning med andre molekyler. Desuden
søgning efter strukturel information ved anvendelse af strukturdatabaser.
Genomanalyse: Metoder til analyse af hele genomer;
herunder gen-finding, søgning efter regulatoriske sekvenser, rekonstruktion
af metabolske pathways samt funktionel klassifikation af gener.
Anvendelse af DNA-chip teknologi. Desuden fokus på udvikling
af genomer, eksempelvis populationsvariation og homologimodellering
på genomniveau. Endelige anvendes computerprogrammer til analyse
af tilgængelig genomdata.
Et fleksibelt studieforløb
Da bioinformatik spænder over en række forskellige
fagområder vil en uddannelse i bioinformatik naturligvis henvende
sig til studerende med forskellige baggrunde såsom datalogi, biologi,
statistik eller ingeniørvidenskab eller. Vi har forsøgt at tilrettelagt
vores uddannelsesforløb således at studerende med en baggrund
der betyder at de allerede har kundskaber svarende til et eller
flere kurser kan følge øvrige kurser ved Aarhus Universitet. Eksempelvis
vil en studerende med en bachelorgrad i datalogi ikke have behov
for at følge Grundlæggende Programmering og Algoritmer og Datastrukturer,
men kan så vælge at følge nogle af de øvrige kurser der udbydes
ved Datalogisk Institut.
Denne fleksibilitet i sammensætning af kurser betyder
at vi forholdsvist nemt kan sammensætte et relevant uddannelsesforløb
for studerende med meget forskellige baggrunde. Kurser som Bioinformatik
og Algoritmer, Sammensatte Systemer og Genomanalyse vil dog være
nye for hovedparten af de studerende og vil således være med til
at binde en inhomogen gruppe af studerende sammen.
Konklusion
Det beskrevne uddannelsesforløb i bioinformatik blev
godkendt af ministeriet i sommeren 2001 med henblik på opstart
i 2002. I det forgange forårssemester har vi haft et par studerende,
der har fulgt nogle af de kurser der allerede udbydes. I løbet
af foråret har vi ad forskellige kanaler reklameret for uddannelsen
og bioinformatik, hvilket har resulteret i et optag på i alt 8
studerende, der starter på uddannelsen i september 2002. Dette
tal forventes at stige i takt med at kendskabet til uddannelsen
samt bioinformatik generelt efter al sandsynlighed vil øges.