Parentela

Parentela

Blog: genetica forense y probabilidad

Familias y mucho más
¿No os acordáis? sen^2 x + cos^2 x = 1 :))))))

Significado del LR - Parte 2

Significado del LRPostado por Lourdes Prieto Solla mié, enero 31, 2018 13:25:18

Algunos os preguntaréis cómo hemos calculado las probabilidades a posteriori en el comentario anterior. Pues simplemente hemos aplicado Bayes, para k hipótesis y con cualquier probabilidad a priori (En: “Relationship inference with Familias and R”, Chapter 2, Egeland et al., 2016):

Horror!! Vaya fórmula! Pero no es para tanto, sólo tenemos que multiplicar cada LR por cada prior (columna “PRODUCTO” del Excel que veréis abajo), sumar los resultados de esta multiplicación (casilla “denominador”), y luego dividir cada producto por el denominador (columna “POSTERIOR”). Mejor lo vemos con el ejemplo:

a) Si H1, H2 y H3 son igualmente probables a priori (1/3 cada una), obtenemos:

Si queréis ver un ejemplo real en Familias, podéis descargaros el archivo que ha preparado Thore. He alucinado con este archivo porque Thore ha definido las persons y las hipótesis en español!! Cada vez tiene menos de nórdico y más de latino… está totalmente mimetizado con nosotrosJ))Bueno, el archivo os lo podéis descargar en este link: http://familias.name/blog/blog-dormant.fam (usando los comandos Control+s, una vez que estéis dentro del link). Obviamente las cifras son diferentes, pero la idea es la misma. En este archivo podéis ver cómo definir H3 (gemelos) en Familias (seleccionando “direct match” en el pedigrí). Y además podéis comprobar que el LR de H3 vs H2 es igual al valor de 1/RMP que obtenemos en la ventana “Case DNA data” cuando hacemos click en “Compare DNA” (como ya discutimos en la validación del cálculo de RMP, post del 10/01/2018)

b) Si H1 y H2 son a priori más probables que H3, obtenemos:

Que es justo lo que veíamos en las diapos de Thore.

Pero lo más importante de todo esto es destacar lo que hemos aprendido con este ejemplo:

a) Como ya vimos, el LR no nos dice si una hipótesis es cierta o no, más bien, si los resultados apoyan más una hipótesis que otra (y ambas hipótesis podrían no ser ciertas!!)

b) Que en nuestros casos reales, sólo debemos calcular probabilidades a posteriori si nuestras hipótesis son exhaustivas, es decir, si conocemos y tenemos en cuenta TODAS las hipótesis relevantes. Ya hemos visto con este ejemplo que existe la posibilidad de que los resultados de ADN apoyen fuertemente una hipótesis que tenía una probabilidad a priori extremadamente baja (H3, en el ejemplo b, con prior = 10^(-6))

La mayoría de las veces sí que conocemos las hipótesis relevantes, por el contexto del caso. Pero ¿qué hacemos entonces si nuestras hipótesis no son exhaustivas? Pues podemos calcular posteriors en forma de apuesta (posterior odds), pero no probabilidades a posteriori.

Si queréis ver cómo, darme un tiempecito y preparo otro post!


02/02/2018
Añado aquí unas imágenes que me ha mandado Thore respecto a este post. Se trata del uso de una página web en la que podéis calcular directamente las probabilidades a posteriori sin necesitad del Excel anterior. Hay de todo en Internet!!

La única precaución que hay que tener es que debemos introducir en la página la verosimilitud de cada hipótesis, no el LR. Aquí veis en ejemplo de Thore (marcador D3 del archivo de Familias anteriro: http://familias.name/blog/blog-dormant.fam)


Y una vez calculado el likelihood, ya podéis meter los datos (prior y likelihood) en la web http://psych.fullerton.edu/mbirnbaum/bayes/BayesCalc3.htm para calcular la probabilidad a posteriori:


Very useful Thore! Many thanks!



Significado del LR - Parte 1

Significado del LRPostado por Lourdes Prieto Solla mié, enero 24, 2018 20:01:22

Como sabéis el LR no nos dice si una hipótesis es cierta o no, más bien nos dice si nuestros resultados apoyan más una hipótesis que otra. Por tanto, cuando decimos que:

a) Si el LR > 1: los resultados apoyan H1 (la del numerador)

b) Si el LR = 1: la evidencia es neutra

c) Si el LR < 1: los resultados apoyan H2 (la del denominador)

estamos hablando realmente en términos relativos, es decir esto sólo es cierto en el caso de H1 con respecto a H2. Pero, qué pasa si hay más escenarios posibles?, si hay más hipótesis?

Los que hayáis echado un vistazo a las diapos del curso de enero que dieron Thore y Magnus en Oslo (y a las que tan amablemente Thore nos dio acceso, ver cursos), sabréis la respuesta. Para los que no hayáis tenido tiempo de verlas, aquí os reproduzco un ejemplo que, desde mi punto de vista, es buenísimo para entender bien esto.

Imaginemos que analizamos los perfiles genéticos de dos individuos y que queremos saber si pueden ser hermanos. Nuestras hipótesis podrían ser: “H1 = hermanos” vs “H2: no relacionados”.

Imaginemos que tras el análisis hemos obtenido exactamente el mismo perfil genético en los dos individuos. Si valoramos nuestra evidencia teniendo en cuenta esas dos hipótesis, lógicamente el LR nos va a salir elevado, por ejemplo 10^6. La evidencia por tanto apoya la hipótesis de que son hermanos, pero sólo cuando la comparamos con la hipótesis de que no estén relacionados.

Obviamente, si descartamos un error en el lab (como podría ser el hecho de haber analizado la misma muestra dos veces en lugar de analizar las dos muestras), enseguida nos viene a la mente una tercera hipótesis: “H3= gemelos idénticos”. Si ahora valoramos este resultado teniendo en cuenta las hipótesis H3 y H2, el LR nos dará un número aún más elevado (imaginemos que sale 10^15).

Consideremos ahora que a priori, las tres hipótesis tienen la misma probabilidad (1/3 cada una). En la tabla siguiente (diapositiva 43 de la charla “Forensics I: paternity cases, complex identification cases” de Thore), podéis ver las probabilidades a posteriori:

Así que, en este caso, aunque el LR que obtenemos al tener en cuenta H1 y H2 es mucho mayor que 1 (10^6), lo cierto es que la probabilidad a posteriori (P (H1│E)) es menor que la probabilidad a priori (10^9 < 1/3).

Imaginemos ahora que damos mucha más probabilidad a priori a las hipótesis H1 y H2, y una probabilidad a priori muy pequeña a H3; por ejemplo casi 0.5 a H1 y H2, y sólo 10^(-6) a H3 (0.000001). Si calculamos las probabilidades a posteriori, obtenemos (diapositiva 44 de la charla anterior):

De nuevo, la probabilidad a posteriori de H1 es menor que su probabilidad a priori. Y respecto a H3, a pesar de que hemos definido que su probabilidad a priori sea muy baja, su probabilidad a posteriori es muy elevada, ya que H3 es la mejor explicación de nuestros resultados.

Por tanto, aunque el LR que evalúa nuestros resultados comparando H1 (hermanos) y H2 (no relacionados) es mucho mayor que 1, esto no significa que H1 sea una buena hipótesis (o que H1 sea cierta). Perfectamente puede significar que H1 no es una buena hipótesis y que H2 es aún peor. Lo dicho entonces, que el LR no nos dice si una hipótesis es cierta o no.

En el siguiente post veremos cómo se han calculado las probabilidades a posteriori en este ejemplo, y lo que podemos aprender de él.

Validando cálculo de RMP

ValidacionesPostado por Lourdes Prieto Solla mié, enero 10, 2018 20:40:56

Como sabéis, las nuevas recomendaciones de la ISFG sobre validación de software (Coble et al., FSI:Gen 25 (2016): 191-197) anima a los desarrolladores a que verifiquen y validen su propio software, por ejemplo proporcionando datos e hipótesis a evaluar, así como las soluciones esperadas de la evaluación estadística. Y Familias cumple perfectamente con esta recomendación. También hay una validación formal externa a los desarrolladores, como podéis ver en el paper Drábek, J: "Validation of software for calculating the likelihood ratio for parentage and kinship". Forensic Science International: Genetics, 3, 2008.

Podéis encontrar los archivos de la validación de los creadores y desarrolladores del software en http://familias.no/english/download/. Ahí bajáis hasta el apartado "Vaidation" y encontraréis con hipervínculo:

a) "following files": que te lleva a un zip con archivos de Familias para varios casos (típico trío, típico dúo, varios modelos de mutación, alelo silente, pedigrí complejo, parentesco con y sin Fst)

b) "file": que te lleva a un Excel con las soluciones que se obtienen en Familias para esos casos, comparándolas con las soluciones ofrecidas por otras aplicaciones y/o lo que se obtiene con cálculos manuales para los mismos casos.

No existe ningún archivo de validación para el cálculo de la RMP (random match probability) en casos de match directo, pero Thore y Daniel recibieron una pregunta de Paulo Chaves (Brasil) al respecto y compartieron conmigo la respuesta. Así que aquí os pongo un ejemplo para esto, que contiene los datos de un ejercicio del libro Egeland, Kling, Mostad (2016) p. 31. ***Quería incluiros aquí el archivo de Familias directamente, para que no tengáis que teclear nada, pero el editor del blog no me deja subir archivos tipo .fam. Si alguien lo quiere, que me lo pida!!****


Os detallo la base teórica a continuación, incluyendo y sin incluir corrección Theta.

Como sabéis, la inversa de la RMP (1/RMP) no es más que una versión del LR (cuando las hipótesis son "H1: los dos perfiles proceden del mismo individuo" vs. "H2: los dos perfiles proceden de dos individuos al azar", y no hay eventos de drop-out, drop-in, contaminación...).

Consideremos el marcador D3S1358 con, entre otros, los alelos 17 y 18, cuyas frecuencias son 0.204 y 0.139 respectivamente. Consideremos también dos perfiles genéticos homocigotos 17-17 para este marcador. La inversa de la RMP se calcula: 1/(0.204)^2 = 24.02922, lo que indica que es 24 veces más probable obtener estos perfiles si H1 es cierta, en comparación con que H2 sea cierta. La RMP sería (0.204)^2 = 0.04, y nos indica la probabilidad de que una persona al azar de la población tuviera este genotipo 17-17. Para no confundir RMP con 1/RMP, recordar que RMP es una probabilidad, y por tanto los valores que puede tomar están siempre entre 0 y 1.

Consideremos ahora dos perfiles genéticos heterocigotos 17-18 para este marcador. La inversa de la RMP sería ahora 1/(2*0.204*0.139) = 17.63295, y la RMP sería 2*0.204*0.139 = 0.056712.

Con Familias veréis que se obtiene lo mismo:


Veamos ahora qué obtendríamos si tenemos en cuenta un valor de Theta = 0.03. La fórmula general podéis encontrarla en la Sección 2.5.1 del libro mencionado (Egeland, Kling, Mostad (2016) )

En el caso de homocigotos, la inversa de la RMP se calcula:

1/RMP = 1/(0.03*0.204+(1-0.03)*0.204^2))= 21.51114966

En el caso de heterocigotos, la inversa de la RMP es:

1/RMP = 1/(2*(1-0.03)*0.204*0.139)= 18.17830151

Para hacerlo con Familias sólo tenéis que ir a la ventana de pedigríes, hacer click en "Parameters" y rellenar la casilla Tetha con el valor 0.03. Después, como en el caso ilustrado en las figuras, vais a la ventana de Case DNA data (datos genéticos), y ahí seleccionáis uno de los perfiles y click en "Compare DNA".

En resumen, esto es lo que debéis obtener:

Familias 3 tiene muchas funciones nuevas que aún hay que validar, pues ya sabéis que esto de las validaciones es un no parar y hay que estar actualizándose continuamente, como nos pasa en el Lab. Poco a poco iremos haciéndolo!

Bueno, pues espero que este post os sea útil para que también podáis hacer cálculos de LRs en casos de match directo respaldados con validación!







ISFG summer school 2018

CursosPostado por Lourdes Prieto Solla mar, enero 09, 2018 19:19:02

La ISFG ha decidido organizar cursos de verano en los años en los que no se celebra el congreso internacional (como hacemos en el GHEP!!). Todavía no hay mucha información al respecto, pero os pongo aquí lo que se planea para 2018:

ISFG Summer School 2018
Catanzaro, Calabria (Italia), 3-4 de septiembre 2018

- Paternity and kinship testing including Xchromosomal markers (Thore Egeland, Daniel Kling)

- DNA interpretation in criminal casework (Peter Gill, Lourdes Prieto)

- Population genetics, massively parallel sequencing and STRUCTURE (Chris Phillips, Leonor Gusmão)

- mtDNA analysis and EMPOP database (Walther Parson & colleagues)

- ISO17025 procedures and Italian DNA database management (Renato Biondo)

La organización se realiza en asociación con el meeting anual del GeFI (Italian speaking ISFG working group). Los detalles sobre el registro, plazos, tarifas y hoteles se publicarán en las páginas de la ISFG y del GeFI, pero intentaré manteneros al tanto de las novedades.



Fechas de Cumpleaños y Blind Search - Parte 2

Blind SearchPostado por Lourdes Prieto Solla mar, enero 02, 2018 16:44:25
Queridos!
Lo primero de todo es desearos un muy feliz Año Nuevo 2018. Espero que este año venga cargado de salud, amor, alegrías y... muchos LRs!!smiley No porque quiera que tengáis mucho trabajo, sino porque espero que vuestro trabajo se vea recompensado con muchas identificaciones (aunque tb podemos calcular LRs en casos de mismatch, como ya sabéis)

Bueno, nos quedaba pendiente la parte dos del comentario que me envió Thore sobre la relación entre la "paradoja del cumpleaños" y la herramienta Blind Search. Como en la parte 1, os pongo aquí mi traducción personal y el texto original en inglés a continuación.

Muchos de vosotros ya estáis familiarizados con la herramienta Blind Search de Familias, así que sólo revisaremos la idea básica necesaria para entender un ejemplo diseñado para ilustrar la “paradoja del cumpleaños” y sus implicaciones forenses.

Consideremos un workshop al que asisten 50 participantes no emparentados entre sí, a los que llamaremos Alumno1,…, Alumno50. Hemos genotipado a todos ellos, analizando un STR autosómico. Imaginemos que este marcador tiene la siguiente propiedad:
si elegimos 2 individuos al azar, éstos serán idénticos para ese marcador (bien sean ambos homocigotos o heterocigotos) con probabilidad 1/365.
Resulta que esto es cierto si el marcador elegido tiene los alelos 1, 2,…, 19 (es decir, 19 alelos distintos), cada uno con frecuencia 1/19. Los que estéis interesados en saber por qué, podréis ver los detalles matemáticos más abajo; los que no lo estéis, os lo creéis y ya está. En otras palabras, la probabilidad de identidad genética se corresponde con la probabilidad de que dos individuos tengan la misma fecha de cumpleaños.

Simulemos genotipos para estos alumnos en Familias, seleccionando la opción “Save raw data”. El archivo resultante puede leerlo Familias si usáis la opción “Import” en “Tools > DVI module > Add Unidentified Persons” (introducir los datos genéticos simulados manualmente no es recomendable). Los genotipos para los 22 individuos primeros son:


Después, desde esta misma ventana podemos hacer un Blind Search, y si seleccionamos “Direct match” y los siguientes parámetros:
Obtenemos:

Como veis, hay 4 matches, y os detallamos el obtenido entre los alumnos 2 y 19 (ambos heterocigotos 4-7). Sería una sorpresa no obtener ningún match, ya que en la gráfica del cumpleaños del post anterior veíamos que la probabilidad de obtener al menos 1 match era del 97% para 50 alumnos. Podemos también explicar este resultado de 4 matches: con 50 alumnos hay (50*49)/2=1225 posibles comparaciones de pares de alumnos (combinaciones de 50 elementos, tomados de 2 en 2, si recordáis un poco la combinatoria). Por tanto, se esperan 1225*(1/365) = 3.5 matches, muy cerca de los 4 matches que obtuvimos en la simulación.

¿Que nos dice entonces la paradoja del cumpleaños y la parte forense anterior? Pues que la opción Blind Search de Familias realiza todas las comparaciones por pares posibles. El número de comparaciones es muy elevado cuando hacemos la búsqueda con una larga lista de perfiles genéticos. Si tuviéramos 1000 perfiles, habría 499500 ((1000*999)/2), aproximadamente medio millón de comparaciones.

Con esta cantidad de comparaciones está claro que no podemos ignorar la posibilidad de un match falso (como nos ocurre cuando hacemos búsquedas en las bases de datos nacionales). El problema de la valoración de un match obtenido tras la búsqueda en una base de datos se ha discutido ampliamente en la literatura forense (ver por ejemplo Storvik and Egeland, Biometrics, 2007). Una posible solución sería multiplicar los odds a priori de un match por el LR, para obtener los odds a posteriori, y así poder reportar este valor en el informe pericial. Pero, también nos encontramos con el problema de que no es tan fácil alcanzar un consenso sobre qué odds a priori usar.

Que curioso todo esto, ¿verdad? Nunca se me hubiera ocurrido relacionar matches genéticos con fechas de cumpleaños... Mil gracias Thore!!!


Detalles matemáticos:
Seleccionamos un marcador con alelos 1,…,n; todos ellos con frecuencia 1/n. La probabilidad de que 2 individuos al azar coincidan en sus genotipos es:


El LR, para un match directo de genotipos heterocigotos, como el que obtuvimos entre los alumnos 2 y 19 con Familias, es:
El LR, para un match de "hermanos" de genotipos heterocigotos, sería:

como podéis confirmar con Familias:


Lo que recibí de Thore:

Birthdays and Blind Searches. Part II

We assume some familiarity with Blind search and only review the basic idea for an example designed to illustrate the Birthday paradox and its Forensic implications. Consider a class of of 50 unrelated pupils named Pupil1, …, Pupil50. These pupils have been genotyped for one autosomal marker. This marker has the property that two randomly chosen individuals are identical (homozygous or heterozygous match) with probability 1/365 (**mathematical details are below for those interested. It turns out that this can be achived by chosing a marker with alleles 1,2, …, 19; all with frequencies 1/19). In other words, the probability of genetical identity corresponds to the probability that two individuals have the same birthday. We simulated marker data for these pupils in Familias and ticked of the ‘Save raw data’ option. The resulting output file was edited and read into Familias using the ‘Import’ option of ‘Tools > DVI module > Add Unidentified Persons’. The marker data of the first 22 individuals are:

We next do a ‘Blind search’, select ‘Direct match’ and parameters as below

We get the following output:


There are four matches, the one between pupils 2 and 19 is detailed. We would be very suprised if there had been no matches as the birthday plot shows that the probability for at least one match is 97% for 50 pupils. We can also add some further intuition to this: With 50 there are 49*50/2 =1225 pairs of pupils that can compare their birthdays. We expect 1225*(1/365)=3.5 matches; close to the 4 matches thissimulation gave.

What do we learn form the Birthday paradox and the forensic counterpart illustrated above? The Blind search option performs all pairwise comparisons. The number of comparisons becomes large when we search a large list of profiles. For a list of 1000 profiles there are 499500 or roughly half a million comparisons. Therefore, the risk of a false match cannot be ignored. The problem of evaluating the evidence of a match found from a database search has been widely discussed in the forensic literature (see eg Storvik and Egeland, Biometrics, 2007). One possible solution is to multiply the prior odds of a match with LR to obtain the posterior odds. This posterior odds can then be reported. However, it may not be easy to reach a consensus on what prior odds to use.


**Mathematical details. We choose a marker with alleles 1,…,n; all with frequency 1/n. The probability that two random individuals match is

The LR for an heterozygous match, as between pupils 2 and 19 above, is

as shown above. The LR for a heterozygous sibling match can be shown to be

as confirmed by Familias:


Fechas de cumpleaños y Blind Search - Parte 1

Blind SearchPostado por Lourdes Prieto Solla sáb, diciembre 09, 2017 12:20:11

Queridos, he recibido un comentario de Thore que me ha encantado, y no me resisto a contároslo!! Os pongo aquí el original y mi traducción libre (ya veréis que no es exacta), pero no puedo evitar darle un toque personal. Allá va!! Disfrutar!!

El título pretende ser algo desconcertante e intrigante. Veremos primero la “Paradoja del cumpleaños” (https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) y después la herramienta “Blind search” de Familias. Esperemos que la relación entre ambos quede clara al final de estos posts.

Imaginaros un workshop del GHEP que nos da Thore, en el que hay 23 socios participantes. En la primera charla del workshop Thore nos pregunta a los 23: ¿Cuál es la probabilidad de que al menos dos de vosotros tengáis la misma fecha de cumpleaños? Nosotros intentamos adivinarlo, pues no nos parece muy fácil hacer el cálculo, pero intuitivamente, la mayoría sugerimos probabilidades cercanas a cero. Cuando Thore nos dice que la probabilidad es 0.51 (o del 51%), nosotros, claro está, no nos lo creemos. Como somos alumnos muy interesados y brillantes (como vosotros, que os habéis parado a leer esto!!), reclamamos pruebas sólidas a tan atrevida afirmación. Y aquí está la respuesta:

Sabemos que cada año tiene 365 días (olvidemos los años bisiestos), y sabemos que todos esos días pueden ser un día de cumpleaños con la misma probabilidad (no del todo cierto… en mi pueblo se acumulan los cumpleaños 9 meses después de las fiestas patronales J… pero no hay problema por esto). Como en muchas ocasiones cuando hablamos de probabilidad, es más fácil considerar la situación complementaria (es decir la probabilidad de que la fecha de cumpleaños sea distinta). Teniendo en cuenta a 2 alumnos al azar, esta probabilidad (distintos cumpleaños) es 364/365 (un alumno está de cumpleaños un día concreto y al otro le quedan 365-1= 364 días para que su cumpleaños caiga en un día diferente al primero). Por tanto, la probabilidad de que dos alumnos elegidos al azar estén de cumpleaños el mismo día sería el suceso contrario, es decir: 1 – (364/365) = 1/365.

Para r alumnos (teniendo en cuenta que los valores que r debe tomar son 0 < r <= 365), la probabilidad de que ninguno de ellos esté de cumpleaños el mismo día sería:

(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)

porque la segunda persona no puede tener el mismo cumpleaños que el primero (364/365), la tercera persona no puede tener el mismo cumpleaños que las dos primeras (363/365), etc. Y por tanto, la probabilidad de que al menos 2 alumnos estén de cumpleaños el mismo día sería:

1 – [(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)]

Para r = 23, esta operación resulta tener un valor de 0.5072972 o 51%, lo cual demuestra que Thore tiene razón. Y además Thore nos ilustra y generaliza el caso para 1, 2, …, 3 socios del GHEP, usando R:

r = 50
probs = rep(NA,r)
pupils = 1:r
for(r in pupils)
probs[r] = 1 - prod((365:(365-r+1)))/365^r
plot(pupils, probs, type = "l", xlab = "Number of pupils",
ylab = "P(some have the same birthday)")
lines(rep(23,20), seq(0.05, probs[23], length = 20), lty = 2)
lines(7:23, rep(0.5, length(7:23)), lty = 2)
text(23, 0, "23")
text(3, 0.5, "Prob=0.5")
title("The birthday paradox illustrated")



¿Cuál es la conexión entre esto y la herramienta Blind Search de Familias? Tener paciencia y esperar el próximo post…

Lo que recibí de Thore:

The title is intended to be a bit puzzling and intriguing. We first visit the ‘Birthday paradox’ (Paradoja del cumpleaños, https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) and later ‘Blind search ’ in Familias; hopefully the connection will be clear eventually. Imagine the first day of school. The math teacher asks her 23 pupils. “What is the probability that at least two of you have the same birthday”. The pupils guess, most of them suggest probabilities close to zero. When the teacher says that the probability is 0.51 (or 51%), she is met with disbelief. These bright and interested students demand solid proof for this horrendous claim. Here it is: We assume that there are 365 days. All days are equally likely to be a birthday (not quite true, but no problem). As often for probability calculations it is easier to consider the complimentary event, that birthdays differ. With two random pupils, this probability is 364/365 and so the probability that two randomly chosen pupils have the same birthday equals 1-364/365=1/365, obviously. For r pupils (0 <r <= 365), the probability that no one have the same birthday is (364/365)*(363/365)*…*((365-r+1)/365). Therefore, the probability that at least two have the same birthday equals

1 - (364/365)*(363/365)*…*((365-r+1)/365).

For r = 23, we find 0.5072972 or 51% proving that the teacher is right. The teacher illustrates and generalises her claim to classes with 1, 2, …., 50 pupils using R:.....
........
What’s the connection to Blind search of Familias? Please be patient and wait for the next posting …




Blind search, otra herramienta de Familias espectacular!

Blind SearchPostado por Lourdes Prieto Solla sáb, diciembre 09, 2017 12:10:41

Blind search (“búsqueda ciega”) nos permite comparar perfiles genéticos por pares. Con ella podemos saber si dos perfiles genéticos pueden pertenecer al mismo individuo (direct match), a una pareja padre-hijo, a dos hermanos, a dos medio hermanos …

Ya os podéis imaginar la gran utilidad que tiene esto cuando estamos trabajando con muchos perfiles genéticos en un mismo caso. El uso más inmediato que le podemos dar es por supuesto la comparación de perfiles genéticos tras un suceso con múltiples víctimas (una explosión, el hallazgo de una fosa común):

- nos puede interesar saber si hay algún tipo de relación familiar entre las víctimas

- nos puede interesar saber el número mínimo de víctimas, viendo cuántos perfiles genéticos distintos tenemos

Pero también puede usarse Blind Search en casos criminales:

- Seguro que habéis tenido algún caso con una lista más o menos larga de sospechosos. Pues puede ser interesante saber si hay algún tipo de relación familiar entre esos sospechosos, para tenerlo en cuenta si es necesario a la hora de calcular un LR.

- Y seguro que también habéis tenido casos en los que un perfil hallado en la escena (o en el cuerpo de la víctima), no coincide con ningún sospechoso y por tanto es anónimo. Sin embargo puede ser interesante comprobar si ese perfil anónimo podría pertenecer a algún familiar de vuestra lista de sospechosos.

Se puede usar esta herramienta desde el módulo DVI, desde el módulo convencional de Familias, y como no, desde el módulo Familial Searching. La única diferencia entre usarlo desde un módulo u otro, es el listado de perfiles que se compararán: perfiles post-mortem en el caso del módulo DVI, perfiles de persons en el caso de Familias convencional y todos los perfiles de la base de datos en el módulo Familial Searching.

Como veis, otra ayuda superútil de Familias!!





Simulaciones condicionadas a genotipos

Simulaciones en Familias3Postado por Lourdes Prieto Solla dom, diciembre 03, 2017 17:55:23
Veamos hoy las simulaciones condicionadas a genotipos, que se pueden hacer desde el módulo DVI de Familias. Como os anuncié en el post del 11 de noviembre (Simulando perfiles genéticos) podemos hacer este tipo de simulaciones gracias a una herramienta incluida en Familias que se llama Paramlink, y que fue desarrollada por el inquieto Magnus Vigeland (un matemático del grupo de Thore que transmite mucha alegría smiley).
Veo muy útil este tipo de simulaciones para los casos de DVI, pero sobre todo para la identificación de personas tras conflictos armados del pasado, pues en estos casos, los familiares de las personas desparecidas que están disponibles en la actualidad no suelen ser familiares cercanos. Y no sabemos si dispondremos de información genética de referencia suficiente para lograr una identificación.

Con esta herramienta podréis saber si un pedigrí concreto que ya tenéis analizado es suficientemente informativo o no, es decir, os ayudará a saber a priori si vais a obtener un buen LR en el caso de que el perfil de la persona desaparecida se encuentre en vuestra base de datos de víctimas. La diferencia entonces entre este tipo de simulaciones y las simulaciones no condicionadas a genotipos es fácil de entender: en las primeras sólo evaluamos hipótesis en general y en las segundas además de las hipótesis vamos a evaluar los perfiles genéticos de un pedigrí en concreto.

Paramlink ya se ha utilizado en el caso de las desapariciones de Argentina, en el cual las abuelas están buscando a sus nietos. Podéis verlo en este interesantísimo paper publicado recientemente: Kilng D., Egeland T., Herrera M., Vigeland MD. (2017) Evaluating the statistical power of DNA-based identification, exemplified by ‘The missing grandchildren of Argentina’. FSI:Gen 31, 57-66. Este ejemplo que os pongo es precisamente de este paper.

Imaginaros que tenemos muestras de los siguientes familiares de una mujer a la que estamos buscando: un tío paterno, la abuela paterna, una hermana del abuelo paterno y un bisabuelo paterno. Hemos analizado 15 marcadores. Para verlo más claro:

Los individuos sombreados, son los que hemos genotipado. MP significa “missing person” y POI significa “person of interest”. Con Paramlink, podemos simular:
a) perfiles genéticos que “encajen” en esta familia (H1 en la figura) y
b) perfiles genéticos que “no encajen” en este pedigrí (H2 en la figura)

Como siempre, los perfiles simulados se generarán teniendo en cuenta las frecuencias alélicas de nuestra población. En este caso entonces sólo se simula el perfil de la persona desaparecida (encaje o no es esta familia), los perfiles de los familiares NO se simulan, son los que nos resultaron al analizar las muestras. Y Paramlink nos calculará los LRs. En el paper nos ofrecen una gráfica con los resultados:



Nota: los valores de LR están en escala logarítmica, es decir, 10 elevado al valor que aparece en el eje X. El eje Y representa la frecuencia con la que aparece cada valor de LR, es lo que los matemáticos llaman función de densidad y tienen la costumbre de no poner números en este eje; es sólo para que veamos qué valores de LR son más frecuentes y cuáles son menos frecuentes (cosas de matemáticos, esto de no poner números en el eje Y…parece ser que los valores son obvios… será para ellos, porque para mí son una incógnita, smiley).

Bueno, a lo que nos interesa, ¿Qué significa esta gráfica? Pues sobre todo nos dice dos cosas importantes:
a) Que es muy poco probable que identifiquemos mal, que digamos que una mujer concreta es la persona desaparecida sin serlo realmente (falso positivo). Es la intersección de las dos curvas que veis en la gráfica, y los valores de LR en esa intersección van de 10^-2 (0.01) a 10^+2 (100), más o menos. Y esos LRs no nos convencen…
b) Que si una mujer encaja en el pedigrí porque realmente sea la persona desaparecida, vamos a obtener LRs mayores a 10^+4 (10.000) en muy pocos casos, o lo que es lo mismo, vamos a necesitar más familiares y/o tendremos que analizar más marcadores. Lo sabemos porque en la curva de línea contínua (MP=POI) llegamos al 4 del eje X con poca frecuencia (pocas veces, tras todas las simulaciones que hemos hecho).

Yo aún no he probado esta herramienta, la experta hispano-parlante en esto es Mariana Herrera, así que ella os podrá contar mejor que yo!! Enhorabuena Mariana por este fantástico paper!! Y como siempre, el eterno agradecimiento a Magnus, Daniel y Thore!!



« AnteriorSiguiente »