Rapporteur, ensc, Montpellier








télécharger 0.86 Mb.
titreRapporteur, ensc, Montpellier
page15/22
date de publication22.04.2017
taille0.86 Mb.
typeRapport
c.21-bal.com > comptabilité > Rapport
1   ...   11   12   13   14   15   16   17   18   ...   22

1.Conclusion du comparatif de sélection de plaques


La sélection de plaque est un problème très particulier, et est donc très peu étudié dans la littérature. Une solution à base de recuit simulé a déjà été publiée. Nous avons développé une bibliothèque d’optimisation offrant la possibilité d’utiliser les algorithmes génétiques et le recuit simulé. Cette bibliothèque pourra également être utilisée pour d’autres types d’applications (par exemple la sélection de descripteurs pour le QSAR).

Les résultats de ce travail montrent que les algorithmes génétiques fonctionnent aussi bien que le recuit simulé pour ce type de problèmes, même si le recuit simulé a l’avantage du temps de calcul et de la facilité de réglage des paramètres. Nous avons utilisé des diversités basées sur les frameworks et les SSKey3DS pour notre étude. En pratique, nous utiliserons une diversité basée à la fois sur les frameworks et les SSKey3DS.

III.Sélection de composés à diversité cumulative pour la mise en plaques


La chimiothèque de l’ICOA regroupe toutes les structures synthétisées au sein de l’institut. Cette chimiothèque est intégrée dans la chimiothèque nationale du CNRS. Ce projet a pour principal objectif de valoriser les composés chimiques synthétisés par les différentes équipes de chimistes du CNRS. La mise en plaque des composés de l’ICOA facilitera la réalisation de tests biochimiques par les différents partenaires. De toute évidence, il est pertinent de concentrer la diversité sur un nombre le plus réduit possible de plaques. Pour l’ICOA, l’objectif est de disposer de 6 plaques représentatives de l’espace chimique couvert par sa chimiothèque.

Chacune des plaques comportera 80 produits. Le problème consiste à sélectionner des ensembles successifs de 80 produits qui ajoutent chacun un maximum de diversité par rapport à l’ensemble déjà sélectionné. Ainsi, on pourra choisir, pour des tests onéreux ou lents, de tester moins de 6 plaques tout en gardant une représentativité maximale de la chimiothèque de l’ICOA. Il existe diverses méthodes pour sélectionner un échantillon de molécules diverses, le plus connu étant l’algorithme Maxmin [230]. Nous avons également cherché à évaluer les performances de quelques algorithmes permettant de résoudre ce type de problèmes, sachant que nous souhaitons que la sélection par diversité prenne en compte d’une part la notion de frameworks, et d’autre part la notion de fingerprints.

Nous utiliserons comme descripteurs notre version modifiée des frameworks, ainsi que les fingerprints SSKey3DS. La diversité d’un ensemble sera évaluée en comptant le nombre de squelettes différents présents dans cet ensemble et le nombre de clusters générés par l’algorithme SCA avec les SSKey3DS.

Nous utiliserons trois familles d’algorithmes différents pour cette étude.

A.Algorithmes

1.Maxmin


Maxmin est l’algorithme de diversité le plus employé. Il fait partie de la famille des algorithmes de dissimilarité maximale. Les algorithmes de ce type fonctionnent de la manière suivante pour sélectionner n composés :

  1. Initialisation de la sélection avec un composé choisi arbitrairement (souvent le premier) dans la base.

  2. Calcul de la dissimilarité entre chaque composé restant dans la base et les composés de la sélection.

  3. Sélectionne le composé de la base le plus dissimilaire à la sélection, et l’ajoute à la sélection.

  4. Retour à l’étape 2 s’il y a moins de n composés dans la sélection.

Il y a plusieurs méthodes pour évaluer le composé le plus dissimilaire par rapport à la sélection. Dans le cas de Maxmin, pour chaque composé, la dissimilarité avec la sélection est donnée par la dissimilarité minimum entre ce composé et chaque composé de la sélection. Le composé le plus dissimilaire à la sélection est le composé pour lequel cette valeur de dissimilarité maximale est la plus grande.

Dans notre implémentation de l’algorithme Maxmin, avant chaque ajout d’un composé à la sélection, on distingue deux cas :

    • soit il existe dans la base des composés dont les frameworks ne sont pas présents dans la sélection, et dans ce cas le composé à ajouter sera choisi par diversité uniquement parmi ceux-ci,

    • soit il n’existe pas de composés dans la base dont les frameworks ne sont pas présents dans la sélection, et dans ce cas le composé à ajouter sera choisi par diversité parmi l’ensemble des composés de la base.

Ensuite, le choix du composé est réalisé comme décrit dans l’étape 3 de l’algorithme de diversité maximale. La diversité sera évaluée en utilisant les fingerprints SSKey-3DS et le coefficient de Tanimoto.

2.AddTheBest


Nous avons implémenté un algorithme qui sélectionne pour chaque nouvelle insertion, le composé qui apporte le plus de diversité à la sélection. Plus précisément l’algorithme fonctionne de la manière suivante :

  1. La sélection est initialisée avec le premier composé de la base.

  2. Pour chaque composé de la base on évalue la diversité de l’ensemble constitué de ce composé et de la sélection. Le composé apportant la plus grande diversité est ajouté à la sélection.

  3. Retour à l’étape 2 s’il y a moins de n composés dans la sélection.


3.Algorithmes génétiques : traitement plaque par plaque et global


Nous avons cherché à évaluer les performances d’une méthode d’optimisation naturelles pour générer un ensemble divers de petite taille. Quelques tests rapides de comparaisons des algorithmes génétiques et du recuit simulé de type Monte-Carlo ont montré que les algorithmes génétiques étaient légèrement plus performants dans ce cas. Nous utiliserons donc ceux-ci pour ce problème.

Deux approches ont été considérées : d’une part le traitement successif plaque par plaque, d’autre part un traitement global du nombre de plaques souhaitées. Le traitement successif plaque par plaque a pour avantage de ne faire optimiser à l’algorithme que des solutions de 80 gènes, donc plus faciles à optimiser. Le revers de la médaille est que l’algorithme ne peut plus agir sur une plaque déjà créée. A l’inverse, une sélection globale permet à l’algorithme d’agir sur tous les composés à la fois. Par contre la taille des chromosomes est importante, et le problème à résoudre est donc plus complexe.

B.Résultats


Lors de la réalisation de ce travail, 2332 composés de la base ICOA étaient stockés en quantité supérieure à 10 mg. Parmi ces composés, 2310 sont détectés comme étant uniques, et parmi ces ceux-ci, 1671 sont « drug-like » d’après notre score CFMS. Ces 1671 composés constitueront l’ensemble de travail.

La diversité sera évaluée en tenant compte à la fois des fingerprints SSKey3DS et des frameworks. La diversité par fingerprints sera évaluée en comptant le nombre de clusters générés par l’algorithme SCA. Nous avons choisi de donner la même importance aux fingerprints et aux frameworks. Il y a 474 frameworks et 575 clusters dans l’ensemble de composés étudiés. Pour donner la même importance aux frameworks et aux clusters nous utiliserons le score suivant :

(Équation 14)

Les ensembles générés par les différentes méthodes ont été comparés en utilisant ce score. Les clusters sont comptés 10 fois pour chaque mesure avec à chaque fois un ordre aléatoire des composés, car l’algorithme SCA est dépendant de l’ordre des composés. Les résultats obtenus sont présentés Figure 39.



Figure 39. Diversité des plaques générées par les différents algorithmes. La courbe jaune est la référence. Elle correspond à des ensembles de composés choisis aléatoirement. La courbe de la méthode AddTheBest s’arrête à la plaque 5, pour des raisons de temps de calcul.

Il est à noter que tous les commentaires de cette partie concernant les temps de calculs, sont valables uniquement pour le problème étudié, à savoir la sélection d’un nombre restreint de molécules. En effet, pour des ensembles de molécules beaucoup plus grands, la plupart des méthodes présentées ici seraient inapplicables car trop coûteuses en temps de calcul.

1.Maxmin


Cette courbe est la moins régulière de toutes. Cela s’explique par le fait que, contrairement à toutes les autres méthodes, ce n’est pas le score de diversité qui est directement optimisé par Maxmin. Pour cette méthode le score n’est utilisé que dans un but de contrôle de diversité. En plus de l’irrégularité de la courbe liée à l’incertitude du score de diversité, cela signifie également que les résultats de la méthode Maxmin sont légèrement pénalisés.

La courbe de Maxmin est très proche de celle des algorithmes génétiques avec traitement plaque par plaque, dépassant même cette dernière par endroits. Nous considérons donc que, étant donné que la courbe Maxmin est la seule méthode pour laquelle le score de diversité n’est pas surestimé, les résultats de Maxmin sont du même ordre que ceux des algorithmes génétiques avec traitement plaque par plaque.

La méthode Maxmin est la plus rapide des méthodes que nous avons étudiées.



Figure 40. Vitesse d’exécution de l’algorithme Maxmin.

Le Figure 40, représentant la vitesse d’exécution de l’algorithme Maxmin, montre bien les deux phases de cet algorithme. Jusqu’à la quatrième plaque, il reste de nouveaux frameworks à ajouter. L’algorithme ne considérant dans un premier temps que les composés avec des frameworks non sélectionnés, l’algorithme est O(FK)i, avec F le nombre de composés de la base d’origine dont les frameworks ne sont pas déjà sélectionnés, et K le nombre de composés déjà sélectionnés. La deuxième phase débute à la plaque 5 pour laquelle il n’y a plus de nouveaux frameworks à sélectionner. L’algorithme devient alors O(NK), avec N le nombre de composés déjà sélectionnés, et K le nombre de composés de la base d’origine.

Cet algorithme s’avère être très intéressant de par la diversité de l’ensemble qu’il génère. Le temps d’exécution est très bon, surtout si la sélection est arrêtée avant que tous les frameworks n’aient été sélectionnés.

2.AddTheBest


Cet algorithme permet d’obtenir de très bon résultats jusqu’à la quatrième plaque, puis ces résultats diminuent en dessous de ceux de Maxmin et de la sélection par algorithmes génétiques avec traitement plaque par plaque. Mais ce qui ressort du graphique est que nous nous sommes arrêtés à une sélection de cinq plaques avec cet algorithme. La raison est que le temps de calcul augmente très rapidement. Cela s’explique par le fait que l’algorithme SCA doit être exécuté un grand nombre de fois (O(NK) avec N le nombre de composés non sélectionnés, et K le nombre de composés sélectionnés), sachant que la durée d’exécution de SCA augmente également avec la taille des composés sélectionnés. AddTheBest n’est donc pas une méthode intéressante, ses résultats étant moyens et son temps de calcul le rendant impossible à utiliser pour une sélection de plus de quelques plaques.

3.Algorithmes génétiques : traitement plaque par plaque et global


Nous avons vu dans la partie précédente que l’utilisation d’algorithmes génétiques était une méthode efficace pour sélectionner des plaques. Nous avons donc voulu comparer leur efficacité à celle d’autres algorithmes pour une sélection d’un petit nombre de composés. Deux approches on été choisies. D’une part sélectionner successivement les plaques (donc des groupes de 80 composés), et d’autre part la sélection de l’ensemble des composés souhaités. La première méthode donne des plaques de diversité croissante, alors que la deuxième donne un ensemble de plaques dont les composés sont les plus divers par rapport à l’ensemble d’origine. Aucune des deux méthodes ne s’occupe de classer les composés au sein d’une même plaque comme les méthodes Maxmin et AddTheBest. Cela n’est aucunement gênant car une plaque est testée dans son intégralité.

Le fait de tester ces deux méthodes nous permettra d’évaluer les performances des algorithmes génétiques dans deux cas différents. Dans le premier cas les algorithmes génétiques ne traiteront que 80 gènes à la fois soit un espace de solution restreint. Cela donne donc une taille de chromosome acceptable pour la minimisation. Par contre une plaque déjà conçue ne peut plus être modifiée, ce qui limite le champ d’action de l’algorithme. Dans le deuxième cas il y a autant de gènes que de composés à sélectionner. Pour 6 plaques à sélectionner cela représente 480 gènes. Cela donne une taille de chromosome conséquente, et donc plus difficile à optimiser. L’avantage de cette structure par rapport à la précédente est que l’algorithme a la liberté de modifier n’importe quel composé de n’importe quelle plaque, ce qui devrait théoriquement permettre d’arriver à une diversité sinon idéale, tout au moins meilleure. Par contre avec les algorithmes génétiques plaque par plaque, il est possible de prendre les 5 premières plaques parmi les 6 sélectionnées en gardant une très bonne diversité (la sixième plaque contient les composés qui complètent au mieux la diversité des 5 premières). Cela n’est pas possible avec les algorithmes génétiques globaux.

Nous avons utilisé comme paramètres 2000 générations, 20 chromosomes, un taux de mutation de 0,01, et les deux meilleurs chromosomes survivent dans la génération suivante.

Lors de l’analyse de la Figure 39, nous constatons que les algorithmes génétiques plaque par plaques donnent de meilleurs résultats que ceux optimisant directement la totalité des composés. La taille des chromosomes joue donc bien un rôle important dans l’obtention de bons résultats par ces méthodes.

Pour avoir une idée du travail effectué par les algorithmes génétiques, pour 12 plaques, le nombre de solutions évaluées est de 480 000 (12 plaques * 2000 générations * 20 chromosomes).

C.Mise en plaques concrète de la chimiothèque réelle ICOA


D’après les tests précédents nous avons choisi l’algorithme Maxmin, utilisant une diversité à la fois par frameworks et par fingerprints, pour la mise en plaques de la chimiothèque ICOA. Cet algorithme a été choisi pour ses résultats et sa rapidité. Nous utiliserons des plaques à 96 puits, avec 80 composés par plaques.

Sur les 1671 composés que nous considérons pour notre étude, nous en mettrons 480 en plaques. Nous sélectionnerons 80 molécules en plus afin de pallier à des problèmes de masses disponibles.

La première étape de la mise en plaque consiste en la création de plaques grand-mères comportant dans chaque puits 1 mL de solution à 10 mM. La masse molaire moyenne des composés étant de 324 g.mol-1, on mettra 3,2 g de produit en solution dans 1 mL de DMSO.

Les deux prochaines étapes ont été réalisées à l’aide d’un robot par la société GreenPharma. Les plaques grand-mère seront tout d’abord réparties en 10 plaques mères contenant chacune 100 L à 10 mM. On additionnera 10 L de ces plaques mères à 90 L de DMSO pour créer les plaques filles, qui auront donc une concentration de 1 mM.

Ce processus de mise en plaque permet donc la génération de 100 plaques filles. Ces plaques seront dans un premier temps testées lors de collaborations universitaires. La chimiothèque ICOA mise en plaque sera également utilisée dans le cadre du projet BioPhenics, porté par l’Institut Curie, qui utilise un système de criblage basé sur l’imagerie cellulaire afin d’identifier de nouveaux principes actifs, notamment dans le domaine des anticancéreux. Toujours dans le cadre de cette collaboration, nous utiliserons nos algorithmes pour réaliser une filtration et une proposition de mise en plaque de la chimiothèque de l’Institut Curie.
1   ...   11   12   13   14   15   16   17   18   ...   22

similaire:

Rapporteur, ensc, Montpellier iconDe la franc maconnerie a montpellier
Écrit à son ami Pierre Jacques Astruc, conseiller maître en la cour des comptes, aides et finances de Montpellier

Rapporteur, ensc, Montpellier iconEconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconÉconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconRapporteur

Rapporteur, ensc, Montpellier iconRapporteur : Saddek Aouadi, Professeur, Université d’Annaba

Rapporteur, ensc, Montpellier iconRapporteur trigonométrique circulaire pour série générale et technologique...

Rapporteur, ensc, Montpellier iconCmi montpellier informatique

Rapporteur, ensc, Montpellier iconSociete regionale de medecine et d’hygiene du travail de montpellier

Rapporteur, ensc, Montpellier iconRapporteur : Philippe Cléris Le Grand Paris et l’Eure. Ou un début...

Rapporteur, ensc, Montpellier iconL ycee agricole prive
«blanco», équerre, compas, rapporteur, taille-crayon, crayon à papier, double décimètre, stylos noir, bleu, vert, rouge et crayons...








Tous droits réservés. Copyright © 2016
contacts
c.21-bal.com