Rapporteur, ensc, Montpellier








télécharger 0.86 Mb.
titreRapporteur, ensc, Montpellier
page3/22
date de publication22.04.2017
taille0.86 Mb.
typeRapport
c.21-bal.com > comptabilité > Rapport
1   2   3   4   5   6   7   8   9   ...   22

III.La diversité moléculaire


La diversité moléculaire est très utilisée pour concevoir des ensembles de criblages. Elle repose sur le principe de similarité, qui veut que des composés ayant des structures similaires aient des activités biologiques proches. D’après ce principe, le fait de sélectionner des composés avec des structures diverses pour un criblage doit donc permettre de régulariser le taux de touches et d’augmenter leurs diversités structurelles. Cette règle souffre cependant de nombreuses exceptions, et certains spécialistes de Pfizer sont même arrivés à la conclusion que les sélections par diversités réalisées sur leurs ensembles de criblages n’étaient pas plus efficaces qu’une sélection aléatoire pour trouver des composés actifs [61]. Cependant, de nombreuses autres études réalisées depuis démontrent l’intérêt des sélections par diversité. Il a ainsi été démontré qu’il était nécessaire, pour avoir des touches sur le même nombre de cibles biologiques, de sélectionner 3,5 à 3,7 fois plus de composé avec une sélection aléatoire qu’avec une sélection par diversité utilisant le coefficient de Tanimoto et les fingerprints UNITY. Les auteurs de ce travail suggèrent également qu’un ensemble de criblage conçu avec une limite du coefficient de Tanimoto à 0,7 couvre 90 % des cibles biologiques, ce qui est suffisant pour un premier criblage. Couvrir les 10 % restant demande de fixer la limite du coefficient de Tanimoto à 0,85, ce qui donne une sélection avec un nombre bien plus important de composés [62]. Martin estime qu’un composé similaire à un composé actif (Tanimoto ≥ 0,85 avec les fingerprints de Daylight) a 30 fois plus de chances d’avoir la même activité biologique que le composé en question par rapport à un composé pris au hasard [63].

La diversité est complètement liée à l’évaluation de la similarité de molécules. Nous allons donc présenter les différents éléments nécessaires à un calcul de similarité à savoir les descripteurs, la métrique et la pondération. Nous étudierons par la suite les grandes familles d’algorithmes de diversité existantes.

Il est à noter qu’une publication récente présente un bilan des techniques de diversité [64], et que d’autres publications traitent également de manière pertinente de ce sujet [65, 66].

A.Descripteurs


Depuis le premier modèle QSAR de Hansch et Fujita [67] la communauté chemoinformatique est sans cesse à la recherche de nouveaux descripteurs moléculaires. L’ouvrage de référence en la matière est le Hanbook of Molecular Descriptors de Todeschini. On estime à environ 3100 le nombre de descripteurs moléculaires [Error: Reference source not found]. Il est communément admis de les classer en fonction de la dimensionnalité de la structure nécessaire pour leur calcul. On parlera donc de descripteurs 1D, 2D et 3D (Tableau 2).

Structure de la molécule

Informations

Exemple de descripteurs

1D

Formule brute : atomes présents

Masse moléculaire

Présence / nombre d’un atome donné

2D

Enchaînement des atomes

Type des atomes et des liaisons

Méthodes fragmentales (log P, réfractivité molaire…)

Fingerprints

3D

Structure minimisée / Conformations

Surfaces

Volumes

Pharmacophores

Tableau 2. Exemple de descripteurs en fonction de la dimensionnalité de la structure de départ (modifié à partir de [Error: Reference source not found]).

Il convient de noter que les descripteurs 3D sont souvent mis de côté pour les calculs de diversité car ils nécessitent au préalable le calcul des structures 3D, ce qui pose deux gros problèmes : le temps de calcul et le choix de la ou des conformations bioactives. Les descripteurs 1D et 2D sont donc les plus utilisés pour les calculs de diversité. Etant donné le grand nombre de descripteurs existant, une des premières difficultés lors d’un calcul de diversité est de choisir ceux à utiliser. Toutes les approches sont possibles, mais de grandes tendances se dégagent dans les recherches publiées.

Une des approches est d’utiliser une technique de réduction de dimensionnalité (déjà présentée dans le contexte de la visualisation d’espaces chimiques dans la partie II.C). Agrafiotis, a ainsi présenté de nombreux travaux dans lesquels l’ACP est utilisée pour combiner un certain nombre de descripteurs [68, 69, 70].

Une autre approche est l’utilisation de fingerprints. C’est le type de descripteurs le plus utilisé pour les études de similarité et de diversité. La raison est que ces descripteurs parviennent généralement à saisir un grand nombre d’informations de la molécule, mais surtout que ces informations sont stockées sous une forme très condensée. La plupart des fingerprints sont codés par des chaînes allant de quelques dizaines à un millier de bits. Ce format est performant en termes d’espace disque (il occupe peu d’espace disque et il est donc facile de sauvegarder les fingerprints de bases de données de millions de molécules) et de performances (les opérations sur les chaînes de bits sont réalisées de manière très performante par les ordinateurs). Un des fingerprints les plus utilisés est le fingerprint MACCS. Il a été mis au point par MDL pour accélérer la recherche sous structurales dans les bases de données. Chaque bit code pour un ou plusieurs éléments sous-structuraux. Il est aujourd’hui utilisé dans sa version 166 bits pour des calculs de similarité / diversité. Daylight propose également un fingerprint très utilisé [71]. La différence entre ces deux fingerprints est que pour MACCS un bit correspond à une propriété, alors que pour Daylight les chaînes de bits sont repliées, et un bit peut donc correspondre à plusieurs propriétés.

Les fingerprints MACCS et Daylight encodent pour de petits fragments sous-structuraux. Une autre stratégie consiste à coder la topologie d’éléments pharmacophoriques, ce qui permet ainsi d’obtenir des fingerprints 2D. C’est le fonctionnement du fingerprint CATS (Chemically Advanced Template Search), qui code chaque atome par un ou plusieurs types prédéfinis : donneur de liaison H (D), accepteur de liaison H (A), chargé positivement (P), chargé négativement (N), lipophile (L) [72]. Cela fait 15 types de distances à coder : DD, DA, DP, DN, DL, AA, AP, AN, AL, PP, PN, PL, NN, NL et LL. Les distances sont codées en fonction du nombre minimal de liaisons séparant deux atomes donnés. Les distances jusqu’à 10 liaisons sont codées ce qui fait 150 distances différentes à coder (15 x 10). Chacune des distances est codée par un entier qui correspond au nombre de fois que la distance est présente dans la molécule. Une autre équipe de recherche a proposé le fingerprint CATS 2 qui diminue la contribution des atomes lipophiles [73]. Ces pharmacophores 2D nous semblent coder des informations importantes des molécules. Cependant, dans les exemples présentés, la similarité entre deux fingerprints est mesurée par des distances euclidiennes, ce qui est à notre avis inadapté. En effet c’est la variation du nombre de distances, et non pas de la distance directement qui est mesurée par la métrique. Une métrique plus adaptée permettrait de mieux tirer parti de ce type de fingerprints.

Nous citerons un dernier type de descripteurs utile pour la recherche par similarité et donc la diversité : les graphes réduits [74, 75, 76, 77]. Ils codent l’enchaînement de groupements prédéfinis. Il existe différents types de graphes réduits. Un exemple est présenté Figure 3.





Figure 3. Exemple de molécule convertie en graphe réduit. Le graphe ne garde que l’enchaînement de grands types d’éléments structuraux. Ar correspond à un groupe aromatique, L à un linker, F à un groupe fonctionnel.

On notera que CATS et les graphes réduits ne gardent pas les types atomiques, mais codent les molécules en fonction de types de groupements très généralistes. Ces descripteurs peuvent donc être utilisés pour chercher, à partir d’un composé actif, d’autres composés actifs de familles chimiques très différentes. Cette technique est désignée par le terme anglo-saxon scaffold hopping.

B.Métriques


Dans le cas de la similarité chimique, la métrique permet de quantifier la similarité entre deux structures chimiques. On distingue deux cas d’application des métriques : l’application à des variables continues, et l’application à des variables discontinues. Le Tableau 3 présente des métriques utilisées en chemoinformatique.

Métrique

Variables continues

Variables binaires

Distance de Hamming





Distance Euclidienne





Distance de Soergel





Coefficient de Tanimoto





Coefficient de Dice





Coefficient Cosinus





Tableau 3. Présentation de métriques utilisées en chemoinformatique (d’après [78]). Pour les variables continues : n le nombre de variables, valeur de la variable j de la molécule A, valeur de la variable j de la molécule B. Pour les variables binaires (fingerprints) : a le nombre de bits activés dans le fingerprint A, b le nombre de bits activés dans le fingerprint B, c le nombre de bits activés en commun entre A et B.

En ce qui concerne les fingerprints, la métrique la plus utilisée est indiscutablement le coefficient de Tanimoto. Ce coefficient, contrairement aux distances de Hamming et Euclidienne, ne considère pas que l’absence commune d’une propriété est un argument en faveur de la similarité de deux molécules. Cette métrique a, entre autres, été analysée par Holliday et son équipe [79]. Cette étude montre que le coefficient de Tanimoto n’est pas efficace pour différencier la similarité des petites molécules. Pour démontrer cela les auteurs ont généré des fingerprints aléatoires et constaté que les valeurs des scores de ces fingerprints comparées deux à deux s’étalaient de 0 à 0,2. Les scores de similarité inférieurs à 0,2 obtenus avec Tanimoto ne sont donc pas fiables.

Un autre inconvénient du coefficient de Tanimoto est le fait qu’il favorise les molécules de grande taille lors des recherches de similarité, et les molécules de petite taille lors des sélections par diversité. Ce biais s’explique par le fait que la densité des bits dans les fingerprints est plus forte pour les molécules de grande taille.

Malgré les défauts du coefficient de Tanimoto et le fait que son efficacité par rapport aux autres métriques varie en fonction des études [80, 81], Tanimoto reste la plus utilisée des métriques pour l’évaluation de la similarité des fingerprints.

C.Pondération


La pondération permet d’affecter des importances différentes aux descripteurs utilisés. C’est la composante des calculs de similarité la moins considérée dans les publications. Nous citerons un travail qui a consisté à étudier l’importance de la pondération dans la recherche par similarité [82]. Dans ce travail, les auteurs ont augmenté les poids des bits d’un fingerprint les plus fréquemment activés pour une famille de composés donnés. Les auteurs ont démontré que cela avait pour conséquence d’augmenter le taux de touches dans les criblages.

D.Méthodes de sélection par diversité


Il existe un très grand nombre d’algorithmes de diversité décrits dans la littérature [Error: Reference source not found]. Willett classe les méthodes de sélection par diversité en quatre catégories [Error: Reference source not found] :

  • Sélection basée sur les clusters : ce type de méthodes est basé sur le regroupement des composés en clusters, qui doivent contenir des composés chimiquement similaires. La sélection consiste à choisir une molécule dans chaque cluster.

  • Sélection basée sur la division : un ensemble de descripteurs est choisi, et des intervalles de valeurs sont définis pour chacun des descripteurs. La combinaison de tous ces intervalles définit des cellules. La sélection consiste à choisir une molécule dans chaque cellule si au moins une molécule est présente dans la cellule.

  • Sélection basée sur la diversité : cette méthode consiste à sélectionner directement les molécules les plus diverses par rapport à celles déjà sélectionnées. Cela implique le choix d’une molécule de départ, qui est généralement réalisé arbitrairement. On retrouve dans cette famille de méthodes l’algorithme Maxmin [83], qui est la méthode de sélection par diversité la plus connue.

  • Sélection basée sur l’optimisation : cette méthode utilise les méthodes d’optimisation telles que le « D-optimal design », le recuit simulé, ou les algorithmes génétiques pour sélectionner un ensemble de composés les plus divers possible.

Nous souhaitons souligner l’intérêt de combiner des critères de types différents pour la similarité / diversité. C’est à notre avis un bon moyen d’avoir une diversité robuste. Stahl et son équipe [84] ont ainsi proposé une méthode de clustering prenant en compte à la fois la similarité par des parties très importantes des molécules (Sous-structures Maximales Communes), et la similarité par petits éléments sous-structuraux (fingerprints de Daylight). Cette technique de clustering peut directement être exploitée pour une sélection par diversité.

En plus de la pertinence de la sélection, la vitesse d’exécution est un critère très important dans le choix d’une méthode de sélection dans le cas de grand ensembles de molécules. Les méthodes de diversité sont en effet généralement destinées à être appliquées à des millions de molécules, et les algorithmes doivent donc être suffisamment rapides.
1   2   3   4   5   6   7   8   9   ...   22

similaire:

Rapporteur, ensc, Montpellier iconDe la franc maconnerie a montpellier
Écrit à son ami Pierre Jacques Astruc, conseiller maître en la cour des comptes, aides et finances de Montpellier

Rapporteur, ensc, Montpellier iconEconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconÉconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconRapporteur

Rapporteur, ensc, Montpellier iconRapporteur : Saddek Aouadi, Professeur, Université d’Annaba

Rapporteur, ensc, Montpellier iconRapporteur trigonométrique circulaire pour série générale et technologique...

Rapporteur, ensc, Montpellier iconCmi montpellier informatique

Rapporteur, ensc, Montpellier iconSociete regionale de medecine et d’hygiene du travail de montpellier

Rapporteur, ensc, Montpellier iconRapporteur : Philippe Cléris Le Grand Paris et l’Eure. Ou un début...

Rapporteur, ensc, Montpellier iconL ycee agricole prive
«blanco», équerre, compas, rapporteur, taille-crayon, crayon à papier, double décimètre, stylos noir, bleu, vert, rouge et crayons...








Tous droits réservés. Copyright © 2016
contacts
c.21-bal.com