Parentela

Parentela

Blog: genetica forense y probabilidad

Familias y mucho más
¿No os acordáis? sen^2 x + cos^2 x = 1 :))))))

Fechas de cumpleaños y Blind Search - Parte 1

Blind SearchPostado por Lourdes Prieto Solla sáb, diciembre 09, 2017 12:20:11

Queridos, he recibido un comentario de Thore que me ha encantado, y no me resisto a contároslo!! Os pongo aquí el original y mi traducción libre (ya veréis que no es exacta), pero no puedo evitar darle un toque personal. Allá va!! Disfrutar!!

El título pretende ser algo desconcertante e intrigante. Veremos primero la “Paradoja del cumpleaños” (https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) y después la herramienta “Blind search” de Familias. Esperemos que la relación entre ambos quede clara al final de estos posts.

Imaginaros un workshop del GHEP que nos da Thore, en el que hay 23 socios participantes. En la primera charla del workshop Thore nos pregunta a los 23: ¿Cuál es la probabilidad de que al menos dos de vosotros tengáis la misma fecha de cumpleaños? Nosotros intentamos adivinarlo, pues no nos parece muy fácil hacer el cálculo, pero intuitivamente, la mayoría sugerimos probabilidades cercanas a cero. Cuando Thore nos dice que la probabilidad es 0.51 (o del 51%), nosotros, claro está, no nos lo creemos. Como somos alumnos muy interesados y brillantes (como vosotros, que os habéis parado a leer esto!!), reclamamos pruebas sólidas a tan atrevida afirmación. Y aquí está la respuesta:

Sabemos que cada año tiene 365 días (olvidemos los años bisiestos), y sabemos que todos esos días pueden ser un día de cumpleaños con la misma probabilidad (no del todo cierto… en mi pueblo se acumulan los cumpleaños 9 meses después de las fiestas patronales J… pero no hay problema por esto). Como en muchas ocasiones cuando hablamos de probabilidad, es más fácil considerar la situación complementaria (es decir la probabilidad de que la fecha de cumpleaños sea distinta). Teniendo en cuenta a 2 alumnos al azar, esta probabilidad (distintos cumpleaños) es 364/365 (un alumno está de cumpleaños un día concreto y al otro le quedan 365-1= 364 días para que su cumpleaños caiga en un día diferente al primero). Por tanto, la probabilidad de que dos alumnos elegidos al azar estén de cumpleaños el mismo día sería el suceso contrario, es decir: 1 – (364/365) = 1/365.

Para r alumnos (teniendo en cuenta que los valores que r debe tomar son 0 < r <= 365), la probabilidad de que ninguno de ellos esté de cumpleaños el mismo día sería:

(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)

porque la segunda persona no puede tener el mismo cumpleaños que el primero (364/365), la tercera persona no puede tener el mismo cumpleaños que las dos primeras (363/365), etc. Y por tanto, la probabilidad de que al menos 2 alumnos estén de cumpleaños el mismo día sería:

1 – [(365/365)*(364/365)*(363/365)*…*((365-r+1)/365)]

Para r = 23, esta operación resulta tener un valor de 0.5072972 o 51%, lo cual demuestra que Thore tiene razón. Y además Thore nos ilustra y generaliza el caso para 1, 2, …, 3 socios del GHEP, usando R:

r = 50
probs = rep(NA,r)
pupils = 1:r
for(r in pupils)
probs[r] = 1 - prod((365:(365-r+1)))/365^r
plot(pupils, probs, type = "l", xlab = "Number of pupils",
ylab = "P(some have the same birthday)")
lines(rep(23,20), seq(0.05, probs[23], length = 20), lty = 2)
lines(7:23, rep(0.5, length(7:23)), lty = 2)
text(23, 0, "23")
text(3, 0.5, "Prob=0.5")
title("The birthday paradox illustrated")



¿Cuál es la conexión entre esto y la herramienta Blind Search de Familias? Tener paciencia y esperar el próximo post…

Lo que recibí de Thore:

The title is intended to be a bit puzzling and intriguing. We first visit the ‘Birthday paradox’ (Paradoja del cumpleaños, https://es.wikipedia.org/wiki/Paradoja_del_cumplea%C3%B1os) and later ‘Blind search ’ in Familias; hopefully the connection will be clear eventually. Imagine the first day of school. The math teacher asks her 23 pupils. “What is the probability that at least two of you have the same birthday”. The pupils guess, most of them suggest probabilities close to zero. When the teacher says that the probability is 0.51 (or 51%), she is met with disbelief. These bright and interested students demand solid proof for this horrendous claim. Here it is: We assume that there are 365 days. All days are equally likely to be a birthday (not quite true, but no problem). As often for probability calculations it is easier to consider the complimentary event, that birthdays differ. With two random pupils, this probability is 364/365 and so the probability that two randomly chosen pupils have the same birthday equals 1-364/365=1/365, obviously. For r pupils (0 <r <= 365), the probability that no one have the same birthday is (364/365)*(363/365)*…*((365-r+1)/365). Therefore, the probability that at least two have the same birthday equals

1 - (364/365)*(363/365)*…*((365-r+1)/365).

For r = 23, we find 0.5072972 or 51% proving that the teacher is right. The teacher illustrates and generalises her claim to classes with 1, 2, …., 50 pupils using R:.....
........
What’s the connection to Blind search of Familias? Please be patient and wait for the next posting …




Blind search, otra herramienta de Familias espectacular!

Blind SearchPostado por Lourdes Prieto Solla sáb, diciembre 09, 2017 12:10:41

Blind search (“búsqueda ciega”) nos permite comparar perfiles genéticos por pares. Con ella podemos saber si dos perfiles genéticos pueden pertenecer al mismo individuo (direct match), a una pareja padre-hijo, a dos hermanos, a dos medio hermanos …

Ya os podéis imaginar la gran utilidad que tiene esto cuando estamos trabajando con muchos perfiles genéticos en un mismo caso. El uso más inmediato que le podemos dar es por supuesto la comparación de perfiles genéticos tras un suceso con múltiples víctimas (una explosión, el hallazgo de una fosa común):

- nos puede interesar saber si hay algún tipo de relación familiar entre las víctimas

- nos puede interesar saber el número mínimo de víctimas, viendo cuántos perfiles genéticos distintos tenemos

Pero también puede usarse Blind Search en casos criminales:

- Seguro que habéis tenido algún caso con una lista más o menos larga de sospechosos. Pues puede ser interesante saber si hay algún tipo de relación familiar entre esos sospechosos, para tenerlo en cuenta si es necesario a la hora de calcular un LR.

- Y seguro que también habéis tenido casos en los que un perfil hallado en la escena (o en el cuerpo de la víctima), no coincide con ningún sospechoso y por tanto es anónimo. Sin embargo puede ser interesante comprobar si ese perfil anónimo podría pertenecer a algún familiar de vuestra lista de sospechosos.

Se puede usar esta herramienta desde el módulo DVI, desde el módulo convencional de Familias, y como no, desde el módulo Familial Searching. La única diferencia entre usarlo desde un módulo u otro, es el listado de perfiles que se compararán: perfiles post-mortem en el caso del módulo DVI, perfiles de persons en el caso de Familias convencional y todos los perfiles de la base de datos en el módulo Familial Searching.

Como veis, otra ayuda superútil de Familias!!





Simulaciones condicionadas a genotipos

Simulaciones en Familias3Postado por Lourdes Prieto Solla dom, diciembre 03, 2017 17:55:23
Veamos hoy las simulaciones condicionadas a genotipos, que se pueden hacer desde el módulo DVI de Familias. Como os anuncié en el post del 11 de noviembre (Simulando perfiles genéticos) podemos hacer este tipo de simulaciones gracias a una herramienta incluida en Familias que se llama Paramlink, y que fue desarrollada por el inquieto Magnus Vigeland (un matemático del grupo de Thore que transmite mucha alegría smiley).
Veo muy útil este tipo de simulaciones para los casos de DVI, pero sobre todo para la identificación de personas tras conflictos armados del pasado, pues en estos casos, los familiares de las personas desparecidas que están disponibles en la actualidad no suelen ser familiares cercanos. Y no sabemos si dispondremos de información genética de referencia suficiente para lograr una identificación.

Con esta herramienta podréis saber si un pedigrí concreto que ya tenéis analizado es suficientemente informativo o no, es decir, os ayudará a saber a priori si vais a obtener un buen LR en el caso de que el perfil de la persona desaparecida se encuentre en vuestra base de datos de víctimas. La diferencia entonces entre este tipo de simulaciones y las simulaciones no condicionadas a genotipos es fácil de entender: en las primeras sólo evaluamos hipótesis en general y en las segundas además de las hipótesis vamos a evaluar los perfiles genéticos de un pedigrí en concreto.

Paramlink ya se ha utilizado en el caso de las desapariciones de Argentina, en el cual las abuelas están buscando a sus nietos. Podéis verlo en este interesantísimo paper publicado recientemente: Kilng D., Egeland T., Herrera M., Vigeland MD. (2017) Evaluating the statistical power of DNA-based identification, exemplified by ‘The missing grandchildren of Argentina’. FSI:Gen 31, 57-66. Este ejemplo que os pongo es precisamente de este paper.

Imaginaros que tenemos muestras de los siguientes familiares de una mujer a la que estamos buscando: un tío paterno, la abuela paterna, una hermana del abuelo paterno y un bisabuelo paterno. Hemos analizado 15 marcadores. Para verlo más claro:

Los individuos sombreados, son los que hemos genotipado. MP significa “missing person” y POI significa “person of interest”. Con Paramlink, podemos simular:
a) perfiles genéticos que “encajen” en esta familia (H1 en la figura) y
b) perfiles genéticos que “no encajen” en este pedigrí (H2 en la figura)

Como siempre, los perfiles simulados se generarán teniendo en cuenta las frecuencias alélicas de nuestra población. En este caso entonces sólo se simula el perfil de la persona desaparecida (encaje o no es esta familia), los perfiles de los familiares NO se simulan, son los que nos resultaron al analizar las muestras. Y Paramlink nos calculará los LRs. En el paper nos ofrecen una gráfica con los resultados:



Nota: los valores de LR están en escala logarítmica, es decir, 10 elevado al valor que aparece en el eje X. El eje Y representa la frecuencia con la que aparece cada valor de LR, es lo que los matemáticos llaman función de densidad y tienen la costumbre de no poner números en este eje; es sólo para que veamos qué valores de LR son más frecuentes y cuáles son menos frecuentes (cosas de matemáticos, esto de no poner números en el eje Y…parece ser que los valores son obvios… será para ellos, porque para mí son una incógnita, smiley).

Bueno, a lo que nos interesa, ¿Qué significa esta gráfica? Pues sobre todo nos dice dos cosas importantes:
a) Que es muy poco probable que identifiquemos mal, que digamos que una mujer concreta es la persona desaparecida sin serlo realmente (falso positivo). Es la intersección de las dos curvas que veis en la gráfica, y los valores de LR en esa intersección van de 10^-2 (0.01) a 10^+2 (100), más o menos. Y esos LRs no nos convencen…
b) Que si una mujer encaja en el pedigrí porque realmente sea la persona desaparecida, vamos a obtener LRs mayores a 10^+4 (10.000) en muy pocos casos, o lo que es lo mismo, vamos a necesitar más familiares y/o tendremos que analizar más marcadores. Lo sabemos porque en la curva de línea contínua (MP=POI) llegamos al 4 del eje X con poca frecuencia (pocas veces, tras todas las simulaciones que hemos hecho).

Yo aún no he probado esta herramienta, la experta hispano-parlante en esto es Mariana Herrera, así que ella os podrá contar mejor que yo!! Enhorabuena Mariana por este fantástico paper!! Y como siempre, el eterno agradecimiento a Magnus, Daniel y Thore!!



Oslo - Noruega, enero 2018

CursosPostado por Lourdes Prieto Solla jue, noviembre 30, 2017 16:21:38
Statistical methods in relatedness and pedigree analysis

8-12 de enero de 2018
Universidad de Oslo
Impartido por Magnus Dehli Vigeland (UiO) y Thore Egeland (NMBU)
Registro: hasta el 15 de diciembre de 2017

Información: https://norbis.w.uib.no/activities/courses/statistical-methods-in-relatedness-and-pedigree-analysis/

Cómo hacerlo con Familias...

Simulaciones en Familias3Postado por Lourdes Prieto Solla sáb, noviembre 25, 2017 12:36:12

Veamos entonces como hacer simulaciones no condicionadas a genotipos en Familias. Imaginemos que queremos saber las distribuciones de valores de LRs que obtendríamos si dos varones son hermanos o si no están relacionados, y que no dispondremos de las muestras del padre y la madre. Nuestro Laboratorio analiza 20 marcadores aSTR de rutina y disponemos de las frecuencias alélicas de la población de interés. Como habitualmente, primero cargamos la base de datos en Familias, luego definimos las personas (en este caso 2 varones, una madre y un padre), pero finalmente definimos las hipótesis, saltándonos el paso de introducir los genotipos de los dos varones (que es lo que simularemos, pares de perfiles genéticos).

Pues bien, en la misma ventana "Pedigrees" tenéis un botón que dice "Simulate" (el último de la columna "Actions"). Si hacéis click ahí se os abrirá la ventana "Simulation", en la cual debéis definir:

a) Qué individuos serán genotipados (en este caso sólo los dos varones)

b) El número de simulaciones (hagamos 1000 para que se haga rápido)

c) Si queréis hacer simulaciones al azar (click en "random seed") o si queréis obtener siempre la misma simulación (quitar el click de random seed e introducir un número en la casilla "Seed", por ejemplo 12345), así, si repetís la simulación, obtendréis el mismo resultado.

Y ya está! Ahora click en “Simulate” y a esperar los resultados…

Pero… qué significa esto? Pues significa que:

a) Si la hipótesis “unrelated” es cierta, en el 50% de las simulaciones obtenemos LRs menores que 1.783e-06 (median o mediana), que la media (mean) de todos los LRs obtenidos en las 1000 simulaciones es 0.02385, que en el 95% de las simulaciones el LR resultó menor que 0.002772 y que en el 5% resultó menor que 1.908e-09. O lo que es lo mismo, que con ese número de marcadores y en nuestra población, la probabilidad de obtener un LR elevado, si no son hermanos, es muy baja (probabilidad baja de falsos positivos)

b) Si la hipótesis “full brothers” es cierta, en la mayoría de los casos vamos a obtener LRs elevados, teniendo en cuenta que en el 5% de las simulaciones el LR resultó menor que 852.9. O lo que es lo mismo, que con ese número de marcadores y en nuestra población, la probabilidad de obtener un LR elevado, si son hermanos, es alta, pero si nuestro límite de valor de LR es por ejemplo 1000, podemos obtener un falso negativo (siendo hermanos, el LR es bajo para nuestro umbral).

Si ahora hacemos click en “LR limit”, e introducimos el valor del LR = 1000, podemos incluso ver la información más detallada:

Lo que significa que, teniendo en cuenta ese límite de LR, no obtendremos falsos positivos, pero podemos obtener falsos negativos en el 5.4% de los casos (100%-94.6%).

Y ahora podéis ver si hemos realizado suficientes simulaciones aplicando la fórmula (posiblemente de Alan Turing) que nos dijo Thore!

Nota: tener cuidado de usar la base de datos de frecuencias que realmente usaréis si realizáis finalmente el genotipado en el Lab. Y si resulta que no obtenéis resultados para algunos marcadores, y queréis ver si vuestro LR es “normal”, pues deberéis hacer las simulaciones eliminando esos marcadores de la base de datos. A mi siempre se me olvida y tengo que repetirlo!, por eso os aviso smiley.





Simulaciones no condicionadas a genotipos

Simulaciones en Familias3Postado por Lourdes Prieto Solla mar, noviembre 14, 2017 18:01:11
Es bastante difícil saber a priori qué valores de LR se pueden obtener con cualquier par de hipótesis, con cualquier conjunto de marcadores y con cualquier población. Pero a veces necesitamos conocer esa información, ya sea antes de hacer los análisis en el Lab o después de haberlos hecho.

Con Familias 3 podemos saberlo!! Y no sabéis lo útil que me está resultando esta herramienta. Os explico aquí cómo funciona, y en un comentario posterior veremos cómo hacerlo en Familias.

Imaginaros que tenemos un caso en el que sólo el hermano de un niño está disponible y queremos saber si efectivamente son hermanos o si no están relacionados. Los hermanos comparten:
- 1 alelo idéntico por descendencia en el 50% de los casos
- los 2 alelos idénticos por descendencia en el 25% de los casos
- ningún alelo idéntico por descendencia en el 25% restante


Pues bien, Familias puede simular pares de perfiles genéticos (teniendo en cuenta las frecuencias alélicas de nuestra población, como ya vimos), de la siguiente forma:
- Pares de perfiles que cumplan los requisitos para ser hermanos (siguiendo el dibujo anterior)
- Pares de perfiles que NO cumplan los requisitos para ser hermanos

Tras las simulaciones, Familias calcula el LR para cada par de perfiles (suponiendo las hipótesis definidas) y nos ofrece:
- El rango de valores de LR que se obtienen cuando los perfiles pertenecen realmente a dos hermanos
- El rango de valores de LR que se obtienen cuando los perfiles pertenecen a dos personas no relacionadas familiarmente

Y ¿qué utilidad tiene esto? Pues podéis llevar a cabo las simulaciones:
a) Antes de hacer el genotipado en el Lab, para saber qué podemos esperar de un caso, y si no nos convence pues solicitar más familiares o ampliar nuestra batería de marcadores
b) Después de hacer el genotipado y de calcular nuestro LR, para saber si el valor de LR obtenido en el caso que estamos investigando es un valor esperado, es decir, que está dentro de los rangos de LRs (distribuciones de LRs) resultantes de las simulaciones. Y si nuestro valor no está en la distribución, pues algo tenemos mal... (las hipótesis no son las correctas, las tasas de mutación no son las adecuadas, hemos usado frecuencias de otra población, etc)

Yo uso mucho esta herramienta después de hacer el análisis en el Lab, pues me gusta saber si el LR que he obtenido es un LR "normal" con esas hipótesis, para ese número de marcadores, en esa población...
Las gracias se las tenemos que dar a Daniel y a Thore... Brillante!!!




Simulando perfiles genéticos

Simulaciones en Familias3Postado por Lourdes Prieto Solla sáb, noviembre 11, 2017 09:13:38
Vamos a ver en este apartado la utilidad que tienen las simulaciones. Pero primero tendremos que entender bien qué es una simulación.
Familias puede simular perfiles genéticos, y lo hace teniendo en cuenta las frecuencias alélicas de nuestra población. Podemos pedirle que simule por ejemplo 1000 perfiles genéticos. Entonces, en la primera simulación, elegirá dos alelos de cada marcador (el mismo 2 veces o 2 alelos distintos) y así formará el primer perfil. En la segunda simulación hará lo mismo, y así hasta formar los 1000 perfiles.
Pero como tiene en cuenta las frecuencias alélicas, en los 1000 perfiles se mantendrán esas frecuencias. Así, si el alelo 9.3 de TH01 es muy frecuente en nuestra población, pues generará más perfiles con 9.3 que con otros alelos.


Pero lo buenísimo de Familas, es que puede simular perfiles con condiciones!!!
a) Simulaciones teniendo en cuenta hipótesis: podemos pedirle por ejemplo que simule pares de perfiles que compartan un alelo en cada marcador (como si se tratara de un dúo padre/hijo). Estas simulaciones se denominan "unconditional" (no condicionadas) porque no se tiene en cuenta ningún genotipo en particular, pero en realidad le estamos poniendo una condición (la hipótesis).
b) Simulaciones teniendo en cuenta hipótesis y genotipos: por ejemplo perfiles que encajen en un pedigrí concreto que ya hemos analizado. Imaginaros que tenemos los perfiles de 3 hermanos de alguien y simularemos un cuarto perfil (el de ese alguien) con la condición de que no se excluya como hermano de los 3. Aquí estamos teniendo en cuenta no sólo la hipótesis (hermano de los 3), sino también que los genotipos simulados (de ese "alguien") tienen que ser compatibles exactamente con los 3 genotipos de esos 3 hermanos. Esta herramienta se llama Paramlink y fue diseñada por Magnus Vigeland (quien además de hacer esto hace mil cosas más, incluso malabares!!!).

Y todo esto... para qué? Pues para poder responder a algunas preguntas como estas:
- Soy un Lab privado, ¿debo aceptar este caso de parentesco?, con estos familiares ¿voy a obtener un LR decente?
- ¿Es "normal" el valor de LR que he obtenido en este caso?
- ¿Son suficientes estos familiares para identificar a este cadáver? o ¿debo buscar más miembros de esta familia?

No os perdáis los siguientes comentarios!! En ellos veremos cómo hacer estas simulaciones.








México - Monterrey 2017

CursosPostado por Lourdes Prieto Solla vie, noviembre 10, 2017 11:13:51
Estadística y Genómica Forense.
Ángel Carracedo (6-7 de noviembre) y Thore Egeland (13-15 de noviembre).
Organiza: Centro de Investigación en Matemáticas, CIMAT, Unidad Monterrey.
Dra. Graciela González Farías y Dr. Ulises Márquez.
Escuela de Medicina y Ciencias de la Salud, ITESM, Campus Monterrey.
Dr. Augusto Rojas.
Información en: http://tegf.eventos.cimat.mx/

Siguiente »