Le copiose informazioni di sequenza di molecole di interesse biologico che provengono da numerosi progetti di sequenziamento di genomi interi o di banche a cDNA hanno contribuito in modo decisivo alla crescita della Genomica come disciplina a sé stante, ed hanno fornito al ricercatore la possibilità di analizzare da prospettive diverse i sistemi biologici. Le banche dati gemelle dell’NCBI (www.ncbi.nlm.nih.gov) e dell’EMBL-EBI (www.ebi.ac.uk) forniscono la fonte centrale di informazione relativa a sequenze nucleotidiche e aminoacidiche, oltre a provvedere strumenti per il recupero dei dati. La disponibilità di banche dati complete e ben integrate tra i diversi aspetti dell’informazione di sequenza, dell’espressione genica, dell’interazione tra proteine e della variabilità genetica, rende possibile nuovi approcci per la scoperta di nuovi geni o nuove relazioni tra geni basati su metodi computazionali. La massa di informazioni disponibili rende necessari lo sviluppo e l’uso di sistemi bioinformatici per mettere a disposizione i dati alla comunità scientifica, in modo da consentire: - l’immagazzinamento dei dati in forma disponibile per un facile recupero delle informazioni; - identificazione delle omologie di sequenza; - predizione di geni; - predizione di sequenze regolatrici; - confronto tra sequenze conservate dal punto di vista evolutivo a scopi filogenetici. Per quanto riguarda il regno vegetale, è stato recentemente sequenziato il primo genoma completo di una pianta superiore (The Arabidopsis Initiative, 2000) e sono stati costituiti diversi centri di raccolta dell’informazione genetica relativa a piante di interesse, tra cui spicca il Rice Genome Project (rgp.dna.affrc.go.jp), ma anche il Computational Biology Centers (www.cbc.umn.edu), il Maize Genome Database (www.agron.missouri.edu) e GrainGenes (wheat.pw.usda.gov) sono di grande utilità. Sono a disposizione online numerosi strumenti quali FASTA, BLAST (e le sue varianti PSI-BLAST e PHI-BLAST per le proteine), strumenti per la ricerca di ORF in una sequenza data, per la costruzione di primer ed altro (vedi www.ncbi.nlm.nih.gov per una rassegna di quanto disponibile). Lo sviluppo dei database ha portato anche ad uno sviluppo di nuovi metodi informatici: sono stati prodotti software per l’analisi e l’annotazione di sequenze genomiche (Huang et al., 1997), per l’allineamento di genomi interi, che dovrebbe facilitare l’analisi di regioni sinteniche ed i confronti di tipo evolutivo (Delcher et al., 1999) e strumenti per l’identificazione di sequenze geniche (Fortna & Gardiner, 2001, per una descrizione generale). Per quanto evoluti siano però gli strumenti informatici, ed elevata la loro capacità di estrarre informazioni dai database di sequenza, rimane indispensabile l’integrazione tra dati sperimentali e previsioni effettuate in silico. Ad esempio, le previsioni sul numero dei geni umani, basate su una combinazione di software predittivi e ricerche di similarità in banca dati, soffrono di limitazioni dovute alla modellistica usata ed al contenuto informativo dei database stessi, ed hanno portato a stime variabili tra i 35.000 (Ewing & Green, 2000) ed i 120.000 (Liang et al., 2000) geni. In una recente analisi (Fortna & Gardiner, 2001), diversi programmi sono stati saggiati per la loro capacità di predire la posizione degli esoni in geni umani noti, con risultati buoni, ma non esatti al 100%: in particolare, la percentuale di falsi positivi rimane elevata; questo esempio è paradigmatico, in quanto dimostra come in casi del genere anche la migliore predizione debba essere suffragata da dati sperimentali, quali ad esempio la RACE o la RT-PCR. Pertanto i migliori risultati si possono avere quando le risorse bioinformatiche agiscono a supporto di un gruppo di ricerca che abbia tra i suoi scopi quello dell’integrazione tra dati di sequenza, caratterizzazione funzionale dei geni, raccolta dei mutanti, costruzione di mappe genetiche. In questo modo, risultano inoltre facilitate l’integrazione e la diffusione dei dati prodotti tra i componenti del gruppo di ricerca stesso. Un esempio di possibile integrazione tra gruppi di lavoro in laboratorio e al computer viene proposto in questo progetto di ricerca, per individuare e mappare geni candidati al controllo di processi di sviluppo nelle piante, mediante: i – trasferimento dell’informazione tra specie, con la ricerca di omologie in banche dati genomiche o di EST; ii – mappatura delle sequenze nella specie di interesse, attraverso l’uso di polimorfismi nelle sequenze stesse, allo scopo di individuare cosegregazione con il fenotipo studiato. A questo proposito, una delle strategie più promettenti è rappresentata dall’uso degli SNP (Single Nucleotide Polymorphisms), differenze a singola coppia di basi nelle sequenze di DNA di individui diversi: l’identificazione degli SNP deve essere effettuata per sequenziamento, ma può anche essere effettuata computazionalmente in silico, ad esempio confrontando EST derivate da banche a cDNA diverse. I metodi informatici possono così consentire l’identificazione di geni candidati e della funzione delle proteine, sempre basandosi sulla ricerca di similarità di sequenza. L’uso di tecniche ad alta resa, quali gli SNP, rende necessario lo sviluppo non solo di metodi per l’immagazzinamento dei dati, ma anche per la loro integrazione ed il loro recupero, in modalità diverse secondo l’uso che si vuole fare delle informazioni raccolte (Strivens et al., 2000).
Strategia del gene candidato nelle piante: un approccio bioinformatico integrato.
BINELLI, GIORGIO PIETRO MARIO
2001-01-01
Abstract
Le copiose informazioni di sequenza di molecole di interesse biologico che provengono da numerosi progetti di sequenziamento di genomi interi o di banche a cDNA hanno contribuito in modo decisivo alla crescita della Genomica come disciplina a sé stante, ed hanno fornito al ricercatore la possibilità di analizzare da prospettive diverse i sistemi biologici. Le banche dati gemelle dell’NCBI (www.ncbi.nlm.nih.gov) e dell’EMBL-EBI (www.ebi.ac.uk) forniscono la fonte centrale di informazione relativa a sequenze nucleotidiche e aminoacidiche, oltre a provvedere strumenti per il recupero dei dati. La disponibilità di banche dati complete e ben integrate tra i diversi aspetti dell’informazione di sequenza, dell’espressione genica, dell’interazione tra proteine e della variabilità genetica, rende possibile nuovi approcci per la scoperta di nuovi geni o nuove relazioni tra geni basati su metodi computazionali. La massa di informazioni disponibili rende necessari lo sviluppo e l’uso di sistemi bioinformatici per mettere a disposizione i dati alla comunità scientifica, in modo da consentire: - l’immagazzinamento dei dati in forma disponibile per un facile recupero delle informazioni; - identificazione delle omologie di sequenza; - predizione di geni; - predizione di sequenze regolatrici; - confronto tra sequenze conservate dal punto di vista evolutivo a scopi filogenetici. Per quanto riguarda il regno vegetale, è stato recentemente sequenziato il primo genoma completo di una pianta superiore (The Arabidopsis Initiative, 2000) e sono stati costituiti diversi centri di raccolta dell’informazione genetica relativa a piante di interesse, tra cui spicca il Rice Genome Project (rgp.dna.affrc.go.jp), ma anche il Computational Biology Centers (www.cbc.umn.edu), il Maize Genome Database (www.agron.missouri.edu) e GrainGenes (wheat.pw.usda.gov) sono di grande utilità. Sono a disposizione online numerosi strumenti quali FASTA, BLAST (e le sue varianti PSI-BLAST e PHI-BLAST per le proteine), strumenti per la ricerca di ORF in una sequenza data, per la costruzione di primer ed altro (vedi www.ncbi.nlm.nih.gov per una rassegna di quanto disponibile). Lo sviluppo dei database ha portato anche ad uno sviluppo di nuovi metodi informatici: sono stati prodotti software per l’analisi e l’annotazione di sequenze genomiche (Huang et al., 1997), per l’allineamento di genomi interi, che dovrebbe facilitare l’analisi di regioni sinteniche ed i confronti di tipo evolutivo (Delcher et al., 1999) e strumenti per l’identificazione di sequenze geniche (Fortna & Gardiner, 2001, per una descrizione generale). Per quanto evoluti siano però gli strumenti informatici, ed elevata la loro capacità di estrarre informazioni dai database di sequenza, rimane indispensabile l’integrazione tra dati sperimentali e previsioni effettuate in silico. Ad esempio, le previsioni sul numero dei geni umani, basate su una combinazione di software predittivi e ricerche di similarità in banca dati, soffrono di limitazioni dovute alla modellistica usata ed al contenuto informativo dei database stessi, ed hanno portato a stime variabili tra i 35.000 (Ewing & Green, 2000) ed i 120.000 (Liang et al., 2000) geni. In una recente analisi (Fortna & Gardiner, 2001), diversi programmi sono stati saggiati per la loro capacità di predire la posizione degli esoni in geni umani noti, con risultati buoni, ma non esatti al 100%: in particolare, la percentuale di falsi positivi rimane elevata; questo esempio è paradigmatico, in quanto dimostra come in casi del genere anche la migliore predizione debba essere suffragata da dati sperimentali, quali ad esempio la RACE o la RT-PCR. Pertanto i migliori risultati si possono avere quando le risorse bioinformatiche agiscono a supporto di un gruppo di ricerca che abbia tra i suoi scopi quello dell’integrazione tra dati di sequenza, caratterizzazione funzionale dei geni, raccolta dei mutanti, costruzione di mappe genetiche. In questo modo, risultano inoltre facilitate l’integrazione e la diffusione dei dati prodotti tra i componenti del gruppo di ricerca stesso. Un esempio di possibile integrazione tra gruppi di lavoro in laboratorio e al computer viene proposto in questo progetto di ricerca, per individuare e mappare geni candidati al controllo di processi di sviluppo nelle piante, mediante: i – trasferimento dell’informazione tra specie, con la ricerca di omologie in banche dati genomiche o di EST; ii – mappatura delle sequenze nella specie di interesse, attraverso l’uso di polimorfismi nelle sequenze stesse, allo scopo di individuare cosegregazione con il fenotipo studiato. A questo proposito, una delle strategie più promettenti è rappresentata dall’uso degli SNP (Single Nucleotide Polymorphisms), differenze a singola coppia di basi nelle sequenze di DNA di individui diversi: l’identificazione degli SNP deve essere effettuata per sequenziamento, ma può anche essere effettuata computazionalmente in silico, ad esempio confrontando EST derivate da banche a cDNA diverse. I metodi informatici possono così consentire l’identificazione di geni candidati e della funzione delle proteine, sempre basandosi sulla ricerca di similarità di sequenza. L’uso di tecniche ad alta resa, quali gli SNP, rende necessario lo sviluppo non solo di metodi per l’immagazzinamento dei dati, ma anche per la loro integrazione ed il loro recupero, in modalità diverse secondo l’uso che si vuole fare delle informazioni raccolte (Strivens et al., 2000).I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.