Suite au tweet de Yan Le Du j'ai réalisé l'exercice qu'il proposait : "On va faire un jeu. On écrit tous un texte bidon de 30.000 lettres en tapant au hasard sur les lettres A,C,G,U. Et on compare combien de séquences identiques de 20 lettres on retrouve chez les copains."
J'ai pour cela utilisé Excel et sa fonction ALEA() dont j'ai pu par le passé vérifier l'exactitude, du moins sa capacité à produire un résultat qui soit vraiment le fruit du hasard.
Composer un "texte bidon de 30.000 lettres en tapant au hasard sur les lettres A,C,G,U" est relativement simple, il faut seulement faire bien attention à l'équilibre entre les 4 lettres. Mais grâce à la fonction recalcul [F9] on arrive assez vite au degré de précision recherché. Dans mon cas je me suis arrêté lorsque la différence entre la lettre la plus représentée et celle la moins représentée était de 25. Ma "souche" est par conséquent une séquence aléatoire composée avec 7 503 "A", 7 506 "C", 7 481 "G" et 7 506 "U". Ceci me permet d'obtenir 29 977 séries de 20 lettres.
L'étape suivante consiste à créer d'autres listes de 30 000 "A,C,G,U" et de voir combien de fois une série quelconque de 20 signes se répète. Les premiers résultats montrent très vite que reproduire une séquence de 20 lettres de suite est quasi impossible. Au vu de cela j'ai donc changé mon fusil d'épaule et j'ai décidé de plutôt dénombrer les séquences identiques avec des chaînes de 5 lettres, puis de 6 lettres, puis de 7 et ainsi de suite jusqu'à 20*.
Faisons le point à présent : j'ai d'un coté ma "souche" de 30 000 "A","C","G","U" et j'ai d'un autre coté plusieurs séquences aléatoires de 30 000 lettres "A", "C", "G", "U" ; le résultat est édifiant. Sur les suites de 5 lettres aucun souci, on les retrouve à chaque fois, idem ou presque pour le groupe de 6. Sur les "7" on constate une baisse du nombre de cas identiques mais la similarité existe encore près de 25 000 fois. A partir de "8" par contre la descente devient vertigineuse (11 000 occurences) et arrivé à 13 nous ne trouvons plus qu'une douzaine de cas environ. Si j'ai tout de même obtenu une séquence de 20 lettres identiques après de très nombreux appuis sur [F9] on voit bien que nous sommes au bout des possibilités de la probabilité. Je déduis de l'exercice que si j'ai réussi c'est uniquement parce que l'ai bien cherché.
Pour conclure sur le tweet à l'origine de ce billet ma réponse est : "Non, il n'est pas du tout raisonnable d'attribuer au seul hasard le fait qu'une séquence de 20 "A","C","G","U" se retrouve sur deux souches qui au départ n'ont rien à voir l'une avec l'autre". Je considère donc qu'il faut bel et bien parler de manipulation génétique dès lors qu'existe la preuve que de tels doublons existent.
* Je concède volontiers mes limites en mathématique. Ma méthode est empirique à 100% alors que je suis certain que tout ceci peut se résoudre à partir de formules.
Comments