Negli ultimi anni, una vasta gamma di metodologie statistiche sono state proposte a vari livelli di complessità per analizzare i dati del genotipo e identificare le variazioni genetiche che potrebbero essere responsabili di aumentare la suscettibilità alle malattie. Qual è il metodo statistico di popolazione per studiare la genetica? Qual è la sua essenza e il suo significato nello studio dell'eredità?
La genetica statistica è un'area scientifica correlata allo sviluppo di metodi statistici popolazione per derivare da dati genetici. Questo termine è più spesso utilizzato nel contesto. genetica umana. La ricerca in questa area di solito include lo sviluppo di una teoria o di una metodologia per sostenere la ricerca in una delle tre aree correlate:
La genetica statistica tende a lavorare a stretto contatto con genetisti, biologi molecolari, medici e bioinformatici. La genetica statistica è un tipo di biologia computazionale.
La genetica della popolazione ha studiato la struttura genetica delle popolazioni e il loro pool genico. Copre anche questioni relative all'interazione di fattori che determinano sia la costanza che il cambiamento nella struttura del genoma. Cos'è una popolazione? Si tratta di una collezione di individui della stessa specie che si intersecano liberamente e occupano un'area territoriale specifica e hanno anche un pool genico comune (pool genico), passando di generazione in generazione.
Il metodo di genetica della popolazione-statistica è utilizzato nello studio delle malattie ereditarie, nell'alternanza di geni, genotipi e fenotipi normali e patologici in popolazioni di diverse località, paesi e città. Qual è la sua unicità? L'essenza del metodo statistico-demografico è che mira a studiare i modelli di diffusione delle malattie ereditarie in popolazioni diverse nella loro struttura. Studiamo la possibilità di prevedere la loro ripetizione nelle generazioni future.
L'analisi statistica genetica dei tratti quantitativi in ampi pedigree è un enorme compito computazionale dovuto alla necessità di tenere conto dell'indipendenza tra i parenti. Con la crescente consapevolezza che le varianti di sequenze rare possono essere importanti in variazioni umane quantitative, gli studi di ereditabilità e le associazioni che coinvolgono ampi pedigree aumenteranno di frequenza a causa della maggiore probabilità di vedere copie multiple di varianti rare tra individui correlati.
Pertanto, è importante disporre di procedure di test genetici statistici che utilizzino tutte le informazioni disponibili per estrarre le prove relative all'associazione genetica. Il test di associazione fenotipica ottimale è associato al calcolo accurato delle statistiche del rapporto di verità, che richiedono la re-inversione di matrici potenzialmente di grandi dimensioni. Nel contesto della combinazione dell'intera sequenza del genoma, un tale calcolo potrebbe non essere corretto.
In connessione con il progresso delle tecnologie di laboratorio, il metodo statistico-demografico e gli approcci epidemiologici genetici alle malattie complesse stanno cambiando rapidamente per far fronte all'enormità dei dati genetici. Con il cambiamento delle tecnologie di laboratorio, è diventato possibile generare più dati genetici completi di generazione genomica con dati di sequenza dell'intero genoma.
Ci sono stati problemi con test multipli e l'emergere di varianti genetiche rare che erano limitate ai metodi statistici tradizionali, che hanno portato allo sviluppo di metodi per una rara variante di analisi. La ricerca attuale si concentra non solo sull'analisi delle varianti genetiche individuali, ma anche sull'analisi di diverse varianti genetiche, specialmente utilizzando metodi di rete.
La ricerca nel campo della genetica si è sviluppata rapidamente, spaziando dagli studi sulle singole aree fino alla ricerca su larga scala sul genoma. E sebbene lo studio delle associazioni genetiche sia stato condotto per molti anni, anche per le analisi più semplici c'è poco consenso sulle procedure statistiche più appropriate.
La genetica statistica è un'area di convergenza di genetica e analisi quantitativa. Negli ultimi anni, ha vissuto un drammatico cambio di paradigma, da un argomento prevalentemente teorico in cui ci sono poche opportunità per dati empirici rigorosamente disciplinati, in cui l'esistenza di ampi archivi di dati genetici consente ai ricercatori di generare e ricercare nuove ipotesi scientifiche.
Con l'avvento di una tecnologia relativamente economica con un elevato throughput di genotipizzazione, è ora possibile esplorare l'eziologia delle malattie complesse, i processi biologici attraverso i quali il DNA è ereditato e le storie evolutive delle popolazioni umane. Da un punto di vista medico, il progresso nell'uso del metodo statistico-demografico nello studio del ruolo dell'ereditarietà è nello sviluppo e nell'analisi di studi farmacogenetici, cioè in studi in cui la variabilità genetica si correla con la risposta ai farmaci.
Ciò potrebbe in definitiva portare allo sviluppo di un approccio di "medicina personalizzata" nell'assistenza sanitaria. Naturalmente, per ciascuna di queste aree di ricerca, sono richiesti metodi specializzati di inferenza e calcolo. Questa revisione dei metodi statistici di popolazione in genetica è limitata alla mappatura delle associazioni: una potente metodologia che è pensata per aiutare a comprendere le basi genetiche delle malattie umane e altri fenotipi di interesse.
Invece di cercare di evidenziare i metodi di confronto dell'associazione, l'esposizione viene ristretta per includere solo gli approcci di analisi dei dati per la ricerca in caso di malattia o per le situazioni in cui sono disponibili solo persone malate. Lo scopo di questo articolo è di invitare il lettore a un tour non tecnico di una serie di metodi di genetica statistica popolazione-popolazione attualmente utilizzati per la mappatura dei geni.
L'esempio principale del metodo statistico della popolazione è la legge Hardy-Weinberg. Si basa su un modello scoperto nel 1908 dal matematico inglese J. Hardy e dal medico V. Weinberg dalla Germania per sviluppare una popolazione perfetta. La legge era quindi intitolata ai due nomi. Affinché la popolazione sia ideale, sono necessarie le seguenti condizioni:
Un perfetto equilibrio può essere sconvolto da una serie di fattori, tra cui matrimoni, mutazioni, selezioni, migrazioni e altro ancora strettamente correlati. La legge Hardy-Weinberg è considerata la base per considerare le trasformazioni genetiche che si verificano nelle popolazioni naturali e artificialmente create di piante, animali e esseri umani.
Una caratteristica distintiva del design caso-controllo è che i soggetti inclusi nel campione sono selezionati casualmente da una data popolazione in base allo stato della malattia in modo retrospettivo. Le composizioni genetiche di individui appartenenti ai due gruppi, casi e controlli, vengono confrontate nella speranza che le loro differenze in alcune regioni ristrette del genoma possano servire come spiegazione causale dello stato della malattia. Tra i diversi tipi di marcatori genetici, i polimorfismi a singolo nucleotide (SNP) giocano un ruolo centrale nella mappatura delle malattie complesse. Per l'intero genoma umano, ci sono almeno 10 milioni di SNP con una frequenza> 1%, che si ritiene costituiscano circa il 90% della variazione genetica di una persona.
Il concetto fondamentale nella mappatura delle associazioni è lo squilibrio di collegamento tra il marcatore genetico e il locus che influenza il tratto in esame. Cattura la deviazione dall'indipendenza probabilistica tra alleli o marcatori genetici. Per esempio, lo squilibrio di collegamento tra due alleli, come A e B, può essere quantificato misurando la differenza tra p AB , la probabilità di osservare l'aplotipo AB (cioè la disposizione lineare di due alleli sullo stesso cromosoma ereditato come entità singola) e p A p B , dove p A e p B sono le probabilità di osservare gli alleli A e B , rispettivamente. Tuttavia, nella maggior parte dei casi, gli aplotipi non sono direttamente accessibili e le loro frequenze dovrebbero essere abbastanza probabilmente determinate dai dati del genotipo.
I metodi di output, basati su varianti dell'algoritmo di minimizzazione delle aspettative, una tecnica iterativa per ottenere le stime di massima verosimiglianza nei modelli di dati mancanti, sono una scelta popolare per ottenere frequenze di aplotipo del campione. È stata documentata la precisione dell'algoritmo per minimizzare le aspettative di stima delle frequenze degli aplotipi per vari schemi di simulazione, sia una funzione delle frequenze alleliche che di molti altri fattori. Gli sviluppi recenti usano l'osservazione in cui, nelle regioni brevi, gli aplotipi in una popolazione tendono a raggrupparsi in gruppi e questo raggruppamento tende a variare lungo il cromosoma.
I modelli risultanti di variazione genetica possono essere ben descritti dai modelli di Markov nascosti, e le stime dei parametri sono state fatte utilizzando un algoritmo per derivare la fase aplotipica, oltre a dati di genotipo mancanti. In alternativa, una misura del disequilibrio genotipico composito può essere calcolata direttamente dai dati genotipici del billocus, assumendo un accoppiamento casuale, corrisponde al suddetto meridiano allelico. Un certo numero di altri coefficienti comuni e le loro proprietà sono stati studiati sia analiticamente che attraverso la modellizzazione.
La portata della popolazione statistica e metodo gemello includere lo studio di modelli di ereditarietà di personaggi in coppie di gemelli. Proposto dallo scienziato Halton nel 1875, questo metodo fu inizialmente usato per valutare il ruolo dell'ereditarietà e dell'ambiente nello sviluppo delle proprietà mentali umane. Ora è ampiamente usato nello studio dell'ereditarietà e della variabilità dei segni normali e patologici. Può essere utilizzato per identificare la natura ereditaria di un particolare tratto, determinare la penetranza di un allele e valutare i fattori esterni che influenzano il corpo.
L'essenza del metodo gemello:
Lo studio del genoma nella popolazione statistica metodo di ricerca sulla genetica umana consente una ricerca più completa dei fattori di rischio genetici. Nel prossimo futuro, questi studi saranno meno costosi e, quindi, più accessibili. Da un punto di vista statistico e computazionale, gli studi del genoma nel suo complesso offrono problemi non banali associati, tra le altre cose, a un numero molto elevato di marcatori che dovrebbero essere inclusi nell'analisi, rispetto a campioni di dimensioni generalmente inferiori.
La domanda che causa molte discussioni e alimenta lo sviluppo di nuovi metodi analitici è se le malattie complesse sono causate da un'opzione comune o da molte opzioni che hanno piccoli effetti. Un'ipotesi comune su una malattia comune indica che il rischio genetico di malattie comuni sarà spesso causato dagli alleli che causano la malattia, che si trovano a frequenze relativamente alte. Finora, le prove a suo favore sono state limitate.
È ragionevole presumere che le malattie comuni dovrebbero essere controllate da meccanismi genetici più complessi caratterizzati dall'azione combinata di più geni, ogni gene ha solo un piccolo effetto marginale, probabilmente perché la selezione naturale rimuove i geni con effetti più grandi. In questo caso, i gruppi di marcatori dovrebbero essere testati insieme per l'associazione, che può essere fatto in due modi principali: raggruppando i marcatori insieme in genotipi con diversi loci in modo che l'unità di analisi statistica di base sia ancora individuale o attraverso gli aplotipi, raddoppiando così efficacemente la dimensione del campione.
Invece di esaminare separatamente ciascun marker, è possibile testare congiuntamente combinazioni specifiche di varianti alleliche in una serie di marker strettamente collegati sullo stesso cromosoma, cioè aplotipi. Includendo le informazioni da diversi marcatori vicini, gli aplotipi mantengono la struttura generale e riflettono più direttamente i veri polimorfismi.
Il modo più semplice per verificare se esiste un collegamento tra l'aplotipo e lo stato della malattia è trattare ogni aplotipo come una categoria separata, eventualmente combinando tutti gli aplotipi rari in una classe aggiuntiva. Questo processo viene solitamente eseguito in due fasi: prima vengono stimate le frequenze degli aplotipi, quindi viene calcolato un test standard per l'associazione, ad esempio il rapporto di probabilità statistica. Per far fronte alle statistiche gonfiate del test a causa della valutazione dell'aplotipo, la distribuzione del test sotto zero può essere ottenuta mescolando casualmente lo stato della malattia e quindi rivalutare le frequenze degli aplotipi.
Sebbene questo approccio consenta di valutare l'associazione generale tra aplotipi e malattia, non trae conclusioni sugli effetti di specifici aplotipi o caratteristiche aplotipiche. Per risolvere questi problemi, una serie di test degli effetti specifici dell'aplotipo si basano sulla probabilità stimata della malattia, in cui lo stato della malattia è considerato come un risultato, e gli aplotipi introducono un modello di regressione come covariate. I soggetti con aplotipi ambigui vengono posizionati calcolando il valore atteso delle covariate a causa dei genotipi del soggetto, utilizzando le frequenze previste degli aplotipi.
Nelle popolazioni umane formate da mescolanze relativamente recenti di determinati gruppi di antenati, come gli afroamericani, la capacità di trasmissione si estende su distanze maggiori rispetto ad altre popolazioni meno eterogenee. Per le malattie che variano in prevalenza tra due o più popolazioni ancestrali, questa larghezza di banda a lungo raggio può essere utilizzata per cercare varianti genetiche responsabili della differenza etnica nel rischio di malattia.
Il punto principale è che nelle popolazioni miste, i marcatori con un locus responsabile della differenza etnica nel rischio di malattia avranno una proporzione più grande di quella degli antenati della popolazione ad alto rischio. La mappatura genica può essere eseguita ricercando regioni genomiche strette che mostrano proporzioni eccessive di pedigree da una delle popolazioni costituenti di antenati in una metodologia chiamata impurity mapping.
L'appartenenza alla popolazione di ciascun locus per tutti i soggetti deve essere valutata statisticamente con marcatori tipici. Il modello probabilistico generalmente accettato per descrivere la variazione stocastica nel pedigree suggerisce che i cromosomi possono essere rappresentati da blocchi generici di generazione, con breakpoint tra blocchi adiacenti, che si verificano come un processo di Poisson, e transizioni tra blocchi ancestrali adiacenti controllati dalla catena di Markov. Secondo questo modello, sono stati costruiti diversi metodi di derivazione per valutare l'origine dei cromosomi malati e rilevare le popolazioni ancestrali rappresentate.
Studi di modellizzazione e calcoli analitici mostrano che il confronto delle impurità ha diversi vantaggi rispetto agli approcci consolidati alla mappatura basata sulla popolazione, per esempio, sono necessari meno marcatori per cercare l'intero genoma ed è meno suscettibile all'influenza dell'eterogeneità allelica.