Rapporteur, ensc, Montpellier








télécharger 0.86 Mb.
titreRapporteur, ensc, Montpellier
page13/22
date de publication22.04.2017
taille0.86 Mb.
typeRapport
c.21-bal.com > comptabilité > Rapport
1   ...   9   10   11   12   13   14   15   16   ...   22

III.Conclusion


Nous avons présenté l’analyse des bases académiques ou commerciales disponibles pour des tests de criblage. Ces bases ont été analysées en termes de propriétés « drug-like », « lead-like » et de structures privilégiées. La diversité a également été étudiée par quatre fingerprints, frameworks, scaffolds, chaînes latérales et fragment RECAP. A partir de ces différentes analyses de diversité nous avons défini un score de diversité globale qui nous a servi à classer les bases par diversité. Un classement des bases en fonction de la diversité globale par composé a également été établi.

Chapitre 4.Application de ScreeningAssistant à des projets concrets



I.Sélection d’ensembles de composés par diversité

A.Introduction


La finalité du logiciel ScreeningAssistant est de permettre la sélection de composés pour des tests de criblages. Nous avons été amené à sélectionner des composés à la fois pour le criblage virtuel et pour le criblage réel. La sélection pour le criblage virtuel s’est effectuée dans le cadre des projets de criblage du laboratoire. La sélection pour le criblage réel a, quant à elle, été effectuée en collaboration avec des sociétés de biotechnologies françaises et suisses. Le criblage virtuel ayant, de manière générale, un meilleur débit que le criblage réel, les ensembles de composés à sélectionner pour ce type de projet est souvent de plusieurs centaines de milliers de composés, et les algorithmes de diversité utilisés doivent donc pouvoir gérer un grand nombre de composés. D’un autre coté, le fait de travailler sur la conception de chimiothèques réelles nous a permis de rencontrer d’autres types de problèmes. Nous avons ainsi par exemple dû sélectionner des plaques pour compléter une chimiothèque existante, problème qui n’est pas géré par les algorithmes classiques de diversité.

B.Génération d’ensemble de molécules destinées au docking


Nous allons présenter la sélection d’un ensemble de molécules destinées à être testées par docking sur la cible PPAR- . Cette cible est impliquée dans différentes pathologies, notamment le diabète non insulino dépendant. Le point de départ de la sélection est une version de notre base virtuelle contenant 2,6 millions de structures uniques. Il faut tout d'abord noter que les ligands connus de cette cible ne sont pas « drug-like ». C’est pourquoi nous prendrons comme base de notre sélection, non pas les molécules « drug-like », mais simplement les molécules qui n’engendrent pas de faux positifs. En plus de cela, nous allons calquer l’espace chimique de notre sélection sur l’espace chimique de 187 ligands PPAR-  :

  • 290 ≤ masse moléculaire ≤ 670

  • logP ≤ 8

  • 70 ≤ TPSA ≤ 150

  • 2 ≤ accepteurs de liaisons H ≤ 11

  • 6 ≤ liaisons pouvant tourner ≤ 22

  • 1 ≤ nombre de cycles ≤ 6

  • pas de cycles de plus de 7 membres

  • pas de NO2

Cette étape est réalisée rapidement et de façon interactive par l'interface graphique de ScreeningAsssistant. L'application de ces filtres réduit notre sélection à environ un million de molécules. Or les moyens informatiques à notre disposition limitent nos capacités de tests virtuels à environ 500 000 molécules (nous nous sommes fixé un mois de temps de cacul sur un cluster de 8 PCs). Nous allons donc utiliser un algorithme de diversité pour sélectionner un ensemble de 500 000 composés. Cet algorithme va traiter les composés par frameworks, et les proportions de composés entre les frameworks du groupe de composés initial et de la sélection seront identiques. Au sein de chaque framework, les composés seront choisis en utilisant les fingerprints SSKey-3DS (Figure 25). Cet algorithme a été implémenté dans ScreeningAssistant.





Figure 25. Algorithme de sélection d’un ensemble par diversité. L’algorithme traite les composés par frameworks, et utilise les fingerprints SSKey-3DS pour choisir les composés au sein d’un framework. A correspond à l’ensemble à sélectionner, et B à l’ensemble des composés de départ.

L’espace chimique avant et après sélection par diversité est représenté Figure 26. Cela nous permet de constater que les deux espaces chimiques sont similaires, et donc qu’il n’y a pas (en gardant en tête les limitations de cette méthode de contrôle) d’erreur flagrante dans la sélection par diversité.



a) Molécules de notre chimiothèque ayant des propriétés physicochimiques similaires aux ligands PPAR-  (environ un million).



b) Molécules sélectionnées par diversité parmi les molécules de notre chimiothèque ayant des propriétés physicochimiques similaires aux ligands PPAR-  (environ 500 000).

Figure 26. Nous avons sélectionné un ensemble représentatif (environ 18 000 molécules) de notre base par diversité et calculé pour chacune le log P, la masse ainsi que les fingerprints SSKey3DS. Les deux premières composantes principales de cet ensemble représentatif seront utilisées pour visualiser les molécules de notre base en deux dimensions (20 % de la variance). Nous comparons ainsi l’ensemble des molécules sélectionnées pour la cible PPAR- dans notre chimiothèque (a), avec les molécules sélectionnées par diversité dans cet ensemble (b). On constate que les molécules sélectionnées par diversité sont représentatives de l’espace chimique de départ.

C.Génération d’ensembles de molécules destinées au criblage réel

1.Introduction


Lors de toute sélection la notion de l’espace chimique à considérer se pose. Généralement dans les cas où les ligands sont connus, on utilisera un espace chimique calqué sur celui de ces ligands connus. Mais dans les cas plus généraux cette technique n’est pas applicable. On s’oriente donc habituellement vers les notions d’espaces chimiques « drug-like » et « lead-like ». Certains préféreront en effet se focaliser sur un espace « lead-like », afin de laisser une plus grande liberté à l’optimisation. D’autres préféreront au contraire l’espace « drug-like » pour couvrir une gamme plus large de l’espace chimique. Une publication récente [204] traite de ce problème. Afin de faire un choix sur l’espace chimique à considérer pour les criblages, il faut avant tout s’intéresser à la définition d’une touche intéressante. Une touche doit avant tout être un composé non réactif, dont la structure et la pureté ont été vérifiés, avec une activité à une concentration en général inférieure à 20 M en criblage à haut débit. Il est donc important de filtrer les composés pouvant engendrer de faux positifs. De plus, on pourra utiliser le concept d’ « efficacité » de ligand pour classer les hits [205]. Cette notion s’appuie sur la définition de l’affinité de liaison par atome définie par Kutz et al. [206]. On peut ainsi calculer l’énergie libre de liaison du ligand à partir de la constante de dissociation Kd (on utilisera la valeur de l’IC50 pour le Kd) :

(Équation 3)

L’IC50 est la moitié de la concentration d’un inhibiteur nécessaire pour obtenir 50 % d’inhibition d’une enzyme, d’un recepteur, d’une cellule ou d’un microorganisme. On peut à partir de l’Equation 3 déduire l’énergie libre de liaison par atome en divisant l’énergie libre de liaison du ligand par son nombre d’atomes lourds :

(Équation 4)

Les composés avec les plus fortes valeurs de g seront les plus prometteurs dans le processus d’optimisation de touches.

Cette technique de sélection favorisera les composés les moins complexes. Il est important également de prendre en compte d’autres paramètres tels que les propriétés ADME-Tox. Il apparaît qu’il est plus facile d’augmenter l’affinité d’un composé que d’optimiser ses propriétés ADME-Tox [207].

La notion d’ « efficacité » par atome et de sélection de composés avec de bonnes propriétés ADME-Tox tend à prendre le dessus sur la méthode standard qui consiste à sélectionner les touches avec les plus fort IC50. On peut ainsi être tenté de ne sélectionner que des composés « lead-like », même si ces derniers ont des valeurs d’IC50 plus faibles que les composés « drug-like ». Si l’on considère les propriétés ADME et l’efficacité par atome, cela n’est pas gênant. Cependant, le revers de la médaille est que si les composés « lead-like » laissent plus de champ libre pour l’optimisation, ils la rendent aussi plus compliquée. Les composés « drug-like », même s’ils laissent moins de place à l’optimisation, présentent certains avantages. D’une part, ils sont souvent plus simples à optimiser. D’autre part, ils présentent dès le départ une activité importante. De plus, dans les grandes compagnies pharmaceutiques, les composés « drug-like » sont souvent issus d’un processus d’optimisation de lead. Ils ont donc déjà un certain niveau de spécificité biologique, évitant ainsi les faux positifs. En outre, l’espace chimique du lead à partir duquel le composé est issu a souvent été exploré.

En résumé, il n’est pas possible de choisir à priori entre un espace « lead-like » ou un espace « drug-like » pour le criblage. Il faut choisir les molécules en tenant compte de l’ « efficacité » par atome. Les composés « lead-like » laissent plus de liberté pour la phase d’optimisation, alors que d’un autre côté, les composés « drug-like » sont, dès le départ, plus actifs et faciles à optimiser.

2.Conception de la base


Nous allons présenter dans cette partie le travail de conception de la base de criblage d’une société pharmaceutique (Hybrigenics). La base finale sera de 100 000 composés.

Lors du début de ce travail la société disposait déjà d’une chimiothèque de molécules provenant de trois sources : Prestwick (820 composés), le laboratoire de pharmacochimie de la communication cellulaire de Strasbourg (3200 composés), et enfin Tripos (6953 composés). Les composés issus de Tripos avaient été sélectionnés précédemment par notre laboratoire à partir d’une version filtrée de la base LeadQuest.

La conception de la base totale s’est effectuée en plusieurs étapes et s’est étalée sur une période de temps relativement longue (environ 2 ans et demi). Les différentes étapes du travail traduisent donc l’évolution de nos techniques (filtres, algorithmes de diversité…), et notamment du logiciel ScreeningAssistant. Au départ le travail a été réalisé avec ScreeningAssistant et MOE, puis au fil des travaux on arrivera rapidement à un usage exclusif de ScreeningAssistant et d’algorithmes développés dans le laboratoire. Ces travaux, ont permis de réfléchir, avec des chimistes médicinaux, à des améliorations du logiciel ScreeningAssistant.
a.Sélection de 5 500 composés de ChemBridge

Le premier travail a été de sélectionner 5 500 composés qui complètent au mieux la chimiothèque de la société pharmaceutique en terme de diversité, et ce à partir d’un fichier de 16486 composés du fournisseur ChemBridge, présélectionnés par cette société. Ce travail a été réalisé avec MOE. Les fonctions réactives et les propriétés « drug-like » sont évaluées avec le script MOE « Evaluation of Druglikeness » disponible sur le site web SVL Exchange [208].

Tout d’abord les molécules déjà présentes dans la sélection des composés de la LeadQuest de Tripos sont éliminés. Cela représente 13 molécules. Les molécules contenant des fonctions réactives sont ensuite écartées, ce qui correspond à 1 574 molécules. Enfin, une sélection « drug-like » est réalisée, éliminant ainsi les molécules qui valident l’un des critères suivants :

  • nombre de donneurs de liaisons H > 5

  • nombre d’accepteurs de liaisons H > 10

  • nombre de cycles de plus de 7 atomes

  • nombre d’halogènes > 7

  • nombre de cycles supérieur >6

  • présence d’atomes non organiques (autres que C, H, O, N, S, P, Br, F, Cl et I)

  • absence d’atome d’azote ou d’oxygène

  • nombre de liaisons pouvant tourner > 15

La liste de molécules qui nous a été communiquée avait déjà été préfiltrée, et les filtres de donneurs et accepteurs de liaisons H, de nombre d’halogènes, d’atomes non organiques et d’absence d’atome d’azote ou d’oxygène n’éliminent aucune molécule. Les autres filtres permettent de supprimer 36 molécules de la liste. Il reste donc 14 861 molécules après traitement. La comparaison visuelle de ces molécules avec les 6 953 molécules Tripos déjà sélectionnées est réalisée par une analyse en composante principale sur trois axes des descripteurs de surface (VSA) de MOE (Figure 27).



Figure 27. Comparaison de la base de 14 861 molécules générée à partir de produits Chembridge (en rouge) avec la base des 6 953 molécules générée à partir de produits Tripos (en violet).

L’étape suivante a consisté à sélectionner les 5 500 molécules Chembridge les plus diverses à la fois par rapport à l’ensemble des 14 861 molécules Chembridge ayant passé nos filtres, et par rapport aux molécules déjà présentes dans la chimiothèque de la société.

Les 14 861 molécules Chembridge et les molécules de la société ont été combinées ensemble avec MOE, et un classement par diversité a été réalisé avec les clés MACCS. Les 5 500 premières molécules Chembridge de ce classement ont été retenues.
b.Sélection de 10 000 composés de la base VitasM

Suite à ce travail, la société pharmaceutique a souhaité rajouter 10 000 composés du fournisseur VitasM. On partira de 173 803 composés VitasM. Pour ce travail nous utiliserons ScreeningAssistant. Nous avons appliqué les filtres suivants :

  • les critères « drug-like » utilisés lors de la précédente sélection

  • log P ≤ 4,2

  • 170 ≤ masse molaire ≤ 450

  • nombre de donneurs de liaisons H ≤ 4

  • nombre d’hétéroatomes (N, O et S) ≤ 6

  • nombre d’halogènes (CF3 compte pour un seul halogène) ≤ 2

  • pas de NO2

  • pas de BOC 

Ainsi, 146 946 composés sont « drug-like », et 50 967 sont « lead-like ». Nous continuerons notre étude avec ces composés « lead-like ».

La suite du travail s’est déroulée de la manière suivante :

  • les doublons ont été supprimés.

  • 30 000 composés vérifiant le mieux les critères « lead-like » ont été sélectionnés.

  • parmi ces composés, l’équipe informatique de la société pharmaceutique en a sélectionné 3000 de manière aléatoire, ceci dans le but d’intégrer une diversité purement aléatoire et donc non biaisée par des critères chimiques.

  • de notre côté nous avons classé par diversité les 8 000 composés les plus divers parmi l’ensemble de 30 000. Cette sélection s’est faite sans tenir compte des 3 000 composés sélectionnés par la société pharmaceutique. Les 1 000 derniers composés de cette liste de 8 000 sont destinés à compenser les éventuels doublons entre les 3 000 composés sélectionnés aléatoirement et les 7 000 premiers de notre classement par diversité.

La suppression de doublons parmi les 50 967 molécules a été effectuée avec la version bêta 1.12 du programme InChI. Les doublons sont répartis en 47 familles (une famille regroupant les composés ayant le même code unique) dont une famille qui comporte 307 membres. Nous nous sommes rendu compte que la raison pour laquelle ces composés avaient été regroupés dans la même famille est que le code InChI n’avait pas été calculé pour ces composés. Il s’agit en fait d’une erreur, ou plus exactement d’une incompatibilité entre JOELib et InChI. En effet JOELib code les structures au format MOL en utilisant le type 4 pour les liaisons aromatiques, au lieu d’alterner les simples et doubles liaisons. Cette notation est reconnue par un très grand nombre de logiciels de chemoinformatique, mais ne respecte pas les spécifications de MDL. Dans sa définition, le type 4 pour les liaisons n’est en effet destiné qu’aux requêtes. Nous avons soumis ce problème aux développeurs du code InChI. Ils l’ont corrigé dans les versions suivantes du programme.

Nous avons ensuite classé les molécules de la base VitasM, non présentes dans les bases de la société pharmaceutique et Maybridge, par score croissant et isolé les 30 000 premières (on rappelle que plus le score est petit plus la molécule est lead-like). Le score CFMS maximum atteint pour ces 30 000 molécules est de 0,49. Le score CFMS maximal atteint pour les 50 967 molécules est de 2,47 (on rappelle qu’une molécule avec un score CFMS ≥ 2 n’est absolument pas « lead-like »).

Les 30 000 molécules ainsi obtenues sont classées par diversité suivant leurs clés MACCS, et les 8 000 premières sont sélectionnées.

La Figure 28 permet de visualiser la diversité des 30 000 molécules filtrées par rapport à la base de la société pharmaceutique, et à une autre base qu’ils venaient d’acquérir, à savoir la base MayBridge.

Nous avons utilisé une analyse en composantes principales, sur deux axes, de 52 descripteurs de surface P_VSA de MOE. Les deux axes représentés codent 33 % de la variance.





Figure 28. Représentations des 30 000 molécules VitasM (en bleu) et des molécules que possède déjà Hybrigenics (en rouge et vert). Le second graphique est un agrandissement du premier.

Il apparaît clairement sur ces graphiques que les composés sélectionnés dans la base VitasM couvrent un espace chimique plus restreint, bien que cette base soit de taille bien supérieure aux deux autres. Cela s’explique en partie par le fait que le jeu de molécules issu de VitasM est, contrairement aux deux autres bases, « lead-like ». En conséquence, l’espace chimique couvert par ces composés est plus restreint. Cela traduit la volonté de la société pharmaceutique de se tourner vers un espace « lead-like », mais sans pour autant éliminer l’espace « drug-like », ce qui correspond bien à la tendance actuelle du choix des touches que nous avons évoqué au début de cette partie.
c.Sélection de 35 000 composés ChemDiv

Le dernier travail réalisé sur la chimiothèque de la société pharmaceutique a été de porter le nombre de composés à 100 000. Les composés seront choisis dans la base du fournisseur ChemDiv. Les nombres de composés de ces deux bases sont présentés dans le Tableau 14.

Bases

Nombre total de composés

Hybrigenics (12/05/2006)

65 335

ChemDiv (25/04/2006)

637 388

Tableau 14. Nombre de composés dans les bases de la société pharmaceutique et de ChemDiv.

La base de la société pharmaceutique a été construite en plusieurs étapes, par l’ajout de composés sélectionnés par diversité comme nous l’avons vu dans ce document, mais également par l’ajout de bases dans leurs intégralités. La présence de doublons est donc inévitable. Dans cette base, le logiciel ScreeningAssistant a identifié 1 249 doublons. La chimiothèque de la société pharmaceutique possède donc 64 086 composés uniques. Etant donné que nous voulons arriver à une base 100 000 composés et que quelques composés seront sans doute manquants chez le fournisseur, nous allons porter le nombre de composés à sélectionner à 37 000.

Nous avons, pour ce travail, utilisé un filtre destiné à supprimer les composés potentiellement mutagènes. Ce filtre, disponible sous le logiciel MOE [Error: Reference source not found], est basé sur des toxicophores [209]. Les auteurs ont testé ce filtre sur un ensemble de composés avec une erreur de classification de 15 %, ce qui correspond à l’erreur de reproductibilité des tests Ames entre différents laboratoires.

Une fois les composés potentiellement mutagènes supprimés, la base ChemDiv est insérée dans ScreeningAssistant. Le nombre de structures à ce stade (c.-à-d. sans composés mutagènes et sans doublons) est de 568 119.

Pour la sélection des composés par diversité, nous n’avons considéré que les composés passant notre filtre « drug-like » CFMS.

Nous avons choisi de conserver le principe de l’algorithme de diversité présenté dans la partie traitant de la sélection de composés pour le docking. Cependant de profondes modifications lui ont été apportées, principalement pour permettre de sélectionner un ensemble par diversité qui complète au mieux la diversité d’une base existante.

Nous appellerons base A la base que nous souhaitons compléter et base B celle à partir de laquelle nous allons choisir des composés (dans notre cas ChemDiv). Nous traiterons les composés par familles de frameworks. On complétera tout d’abord les frameworks de A, puis on ajoutera à A de nouveaux frameworks. L’algorithme fonctionnera de la manière suivante :

  1. Pour chaque framework de B qui existent également dans A, tant que le nombre de composés à ajouter n’est pas atteint, on ajoute le composé du framework de B qui complète au mieux les composés déjà présents dans A (en termes de diversité par fingerprints). Le nombre de composés à ajouter se calcule de la manière suivante :

(Équation 5)

  1. Pour les frameworks de B qui n’existent pas dans A. On procède de la même manière que l’étape précédente, mais le nombre de composés à sélectionner se calcule de la manière suivante :

(Équation 6)

Le seul paramètre à fournir à l’algorithme est le nombre de composés à sélectionner. Du fait du fonctionnement même de l’algorithme, un ensemble est sélectionné d’un ordre de grandeur comparable à la taille demandée. Dans le cas présent, nous souhaitons sélectionner 37 000 composés. Après plusieurs essais nous sommes arrivés une sélection de 37 060 composés. En ne comptant que le nombre de composés uniques de l’ancienne base de la société pharmaceutique, cela donne au final une base de 101 146 composés.

Nous avons vérifié la pertinence de notre sélection en étudiant la diversité de l’ensemble sélectionné. Nous avons utilisé les deux descripteurs de notre algorithme, à savoir les frameworks et les fingerprints SSKey-3DS. Etant donné que cette sélection a été la première réalisée avec cet algorithme, cela a également été un moyen d’évaluer la pertinence de ce dernier.




Base Hybrigenics

(59 829)

Base Hybrigenics + 37 060 ChemDiv

ChemDiv

(493 303)

Clusters

3 890

5 107

5 585

Frameworks

6 105

23 293

21 682

Composés « drug-like » (CFMS)

93 %

96 %

87 %



Tableau 15. Analyse des sélections réalisées en considérant uniquement les composés « drug-like » et non mutagènes. Les valeurs de diversité correspondent au nombre de clusters trouvés pour l’ensemble.

Il apparaît clairement d’après le Tableau 15 que la sélection des 37 060 composés de ChemDiv remplit pleinement les objectifs fixés en termes de pourcentage de composés « drug-like » et de diversité par rapport à la base ChemDiv. En effet, alors que les composés « drug-like » de la société pharmaceutique représentent en nombre 19 % des composés « drug-like » de ChemDiv, la base de la société pharmaceutique couvre 91 % de la diversité de ChemDiv et 107 % des frameworks de ChemDiv (tous les frameworks de ChemDiv ont été sélectionnés, et d’autres étaient déjà présent dans la base de la société pharmaceutique). Au vu de ces résultats, l’objectif d’arriver à une base comparable en terme de diversité à la base ChemDiv est atteint. Le pourcentage de composés « drug-like » de la base de la société pharmaceutique finale est également très bon.
1   ...   9   10   11   12   13   14   15   16   ...   22

similaire:

Rapporteur, ensc, Montpellier iconDe la franc maconnerie a montpellier
Écrit à son ami Pierre Jacques Astruc, conseiller maître en la cour des comptes, aides et finances de Montpellier

Rapporteur, ensc, Montpellier iconEconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconÉconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconRapporteur

Rapporteur, ensc, Montpellier iconRapporteur : Saddek Aouadi, Professeur, Université d’Annaba

Rapporteur, ensc, Montpellier iconRapporteur trigonométrique circulaire pour série générale et technologique...

Rapporteur, ensc, Montpellier iconCmi montpellier informatique

Rapporteur, ensc, Montpellier iconSociete regionale de medecine et d’hygiene du travail de montpellier

Rapporteur, ensc, Montpellier iconRapporteur : Philippe Cléris Le Grand Paris et l’Eure. Ou un début...

Rapporteur, ensc, Montpellier iconL ycee agricole prive
«blanco», équerre, compas, rapporteur, taille-crayon, crayon à papier, double décimètre, stylos noir, bleu, vert, rouge et crayons...








Tous droits réservés. Copyright © 2016
contacts
c.21-bal.com