Parentela

Parentela

Blog: genetica forense y probabilidad

Familias y mucho más
¿No os acordáis? sen^2 x + cos^2 x = 1 :))))))

Cómo hacerlo con Familias...

Simulaciones en Familias3Postado por Lourdes Prieto Solla sáb, noviembre 25, 2017 12:36:12

Veamos entonces como hacer simulaciones no condicionadas a genotipos en Familias. Imaginemos que queremos saber las distribuciones de valores de LRs que obtendríamos si dos varones son hermanos o si no están relacionados, y que no dispondremos de las muestras del padre y la madre. Nuestro Laboratorio analiza 20 marcadores aSTR de rutina y disponemos de las frecuencias alélicas de la población de interés. Como habitualmente, primero cargamos la base de datos en Familias, luego definimos las personas (en este caso 2 varones, una madre y un padre), pero finalmente definimos las hipótesis, saltándonos el paso de introducir los genotipos de los dos varones (que es lo que simularemos, pares de perfiles genéticos).

Pues bien, en la misma ventana "Pedigrees" tenéis un botón que dice "Simulate" (el último de la columna "Actions"). Si hacéis click ahí se os abrirá la ventana "Simulation", en la cual debéis definir:

a) Qué individuos serán genotipados (en este caso sólo los dos varones)

b) El número de simulaciones (hagamos 1000 para que se haga rápido)

c) Si queréis hacer simulaciones al azar (click en "random seed") o si queréis obtener siempre la misma simulación (quitar el click de random seed e introducir un número en la casilla "Seed", por ejemplo 12345), así, si repetís la simulación, obtendréis el mismo resultado.

Y ya está! Ahora click en “Simulate” y a esperar los resultados…

Pero… qué significa esto? Pues significa que:

a) Si la hipótesis “unrelated” es cierta, en el 50% de las simulaciones obtenemos LRs menores que 1.783e-06 (median o mediana), que la media (mean) de todos los LRs obtenidos en las 1000 simulaciones es 0.02385, que en el 95% de las simulaciones el LR resultó menor que 0.002772 y que en el 5% resultó menor que 1.908e-09. O lo que es lo mismo, que con ese número de marcadores y en nuestra población, la probabilidad de obtener un LR elevado, si no son hermanos, es muy baja (probabilidad baja de falsos positivos)

b) Si la hipótesis “full brothers” es cierta, en la mayoría de los casos vamos a obtener LRs elevados, teniendo en cuenta que en el 5% de las simulaciones el LR resultó menor que 852.9. O lo que es lo mismo, que con ese número de marcadores y en nuestra población, la probabilidad de obtener un LR elevado, si son hermanos, es alta, pero si nuestro límite de valor de LR es por ejemplo 1000, podemos obtener un falso negativo (siendo hermanos, el LR es bajo para nuestro umbral).

Si ahora hacemos click en “LR limit”, e introducimos el valor del LR = 1000, podemos incluso ver la información más detallada:

Lo que significa que, teniendo en cuenta ese límite de LR, no obtendremos falsos positivos, pero podemos obtener falsos negativos en el 5.4% de los casos (100%-94.6%).

Y ahora podéis ver si hemos realizado suficientes simulaciones aplicando la fórmula (posiblemente de Alan Turing) que nos dijo Thore!

Nota: tener cuidado de usar la base de datos de frecuencias que realmente usaréis si realizáis finalmente el genotipado en el Lab. Y si resulta que no obtenéis resultados para algunos marcadores, y queréis ver si vuestro LR es “normal”, pues deberéis hacer las simulaciones eliminando esos marcadores de la base de datos. A mi siempre se me olvida y tengo que repetirlo!, por eso os aviso smiley.






Fill in only if you are not real





Se permiten las siguientes etiquetas XHTML: <b>, <br/>, <em>, <i>, <strong>, <u>. No se permiten estilos CSS y Javascript.
Postado por Lourdes Prieto Solla dom, noviembre 26, 2017 11:14:20

Thanks a lot my dear Thore. Your example is fantastic!!
I perfectly understand now!

Postado por Thore Egeland sáb, noviembre 25, 2017 19:45:24

You are right Lourdes: "the last 5% of the data have to be really high, am I thinking correctly?". Sibs is also a case which may give extremely high LR-s in simulations if brothers share two rare alleles.

Let me elaborate and start with a different application, perhaps trivial: assume we would like to report one value describing the income in a city. The mean (or the theoretical counterpart, the expected value) is OK for a symmetric income distribution, but gives a distorted picture if there are some extremely rich people (as there typically are).In this case the median is a better value. The median will not change noticeably if Bill Gates moves to the city. The LR distribution from simulations resembles the income distribution I have described. It is typically skewed to the right, there is a heavy right tail with outliers, and as is we agree the median then gives more appropriate information if the objective is to provide one representative value.

log(LR) [say with base 10] is typically more symmetrically distributed than LR and then we can use the mean which uses all data as opposed to the median (but for symmetric distributions the mean and the median are typically close). There are also other advantages of the log, like avoiding extremely large figures. The disadvantage is that many people (like lawyers) have problems understanding logarithms.

Therefore, use the median rather than the mean!


Postado por Lourdes Prieto Solla sáb, noviembre 25, 2017 12:40:15

Hi Thore, Daniel!
In the example I've given, if the "unrelated" hypothesis is true, the mean is 0.02385 and the 95th percentile is 0.002772. I can not imagine the graph of the distribution.

The same happens to me when I see the results for "full brothers hypothesis is true": if the 95th percentile is e+12 and the mean is e+15, then the values of the last 5% of the data have to be really high, am I thinking correctly?

Sorry for my ignorance... and may thanks for your patience!


Big kiss!
Lou