Rapporteur, ensc, Montpellier








télécharger 0.86 Mb.
titreRapporteur, ensc, Montpellier
page12/22
date de publication22.04.2017
taille0.86 Mb.
typeRapport
c.21-bal.com > comptabilité > Rapport
1   ...   8   9   10   11   12   13   14   15   ...   22

II.Résultats

A.Propriétés générales des bases

1.Origine des composés présents dans la chimiothèque virtuelle


Les composés présents dans la base proviennent de 38 fournisseurs différents. La base totalise 5 millions de référence, qui correspondent à 3,3 millions de structures uniques. Les composés sont en très grande majorité issus de catalogues de produits commerciaux. Ces catalogues proposent des molécules synthétisés par chimie combinatoire et par chimie classique, mais aussi quelques composés d’origine naturelle ou semi-naturelle. On trouve quelques bases d’initiatives publiques, notamment les bases NCI et Chimiothèque Nationale. La base Chimiothèque Nationale (Chim. Nat.) regroupe des composés issus de plusieurs laboratoires publics français. Nous avons inclus la chimiothèque réelle de l’ICOA dans cette étude. On notera cependant que cette chimiothèque fait partie de la Chimiothèque Nationale.

L’origine des composés constituant la base est résumée dans le Tableau 11. Les bases contenant le plus de références sont les bases TimTec (658 422), ChemDiv (553 150) et Chem T&I (484 881). Les bases contenant le plus de composés ne sont pourtant pas forcément celles qui couvrent le plus de diversité, comme nous le verrons par la suite.

2.Doublons


Le pourcentage de doublons dans les bases varie de 0 à 6 %. ScreeningAssistant ne garde pas les contre-ions pour un composé (seul le plus grand fragment est conservé), ce qui veut dire que deux molécules avec des contre-ions différents seront considérées comme étant des doublons. Cela peut engendrer une légère surestimation du nombre des doublons. La base NCI est celle qui contient le plus de doublons. On notera que seulement trois bases ne contiennent aucun doublons : ACBBlocks, CB R&D et CombiPure. Le pourcentage moyen de doublons toutes bases confondues est de 1,1 %. On pourrait en effet s’attendre à un nombre important de doublons dans les grandes bases, mais le pourcentage de doublons n’est pourtant pas lié à la taille de la base. On peut en effet prendre comme exemple ChemDiv qui contient plus de 550 000 composés et qui n’a que 0,01 % de doublons.

3.Structures exclusives


Une propriété intéressante d’une base de données chimique est le pourcentage de composés exclusifs (c'est-à-dire que l’on ne retrouve que dans cette base). Ce pourcentage peut aller de 16 à 100 %. C’est la base de VitasM Laboratory qui a le moins de composés exclusifs. Seuls AnalytiCon Discovery et BioFocus proposent des bases totalement exclusives. Il n‘y a pas de corrélations entre la taille des bases et le pourcentage de composés uniques. On remarquera que parmi les bases de plus de 300 000 composés, les pourcentages de composés exclusifs restent assez faibles, sauf pour la base Enamine qui, alors qu’elle contient près de 430 000 molécules, propose 85 % de composés exclusifs. La moyenne de composés exclusifs par base de données est de 58,8 %.

Les grandes variations de composés exclusifs entre les bases s’expliquent par le fait que certaines bases sont la compilation de plusieurs autres.

Fournisseurs

Web

Date

Composés

Doublons (%)

Exclusives (%)

ACB Blocks

http://www.acbblocks.com

07/05

61 237

0,00

97,5

AnalytiCon Discovery

http://www.ac-discovery.com

07/05

8 653

0,15

100

Asinex

http://www.asinex.com

07/05

345 782

0,02

38,2

Aurora Fine Chemicals

http://www.aurorafinechemicals.com

07/05

31 512

0,51

17,7

BioFocus

http://www.biofocus.com

03/04

23 712

0,01

100

CB R&D

http://www.cbrd.net

07/05

176

0,00

28,4

Cerep

http://www.cerep.fr

07/05

20 078

0,00

97,3

ChemBridge

http://chembridge.com

07/05

425 941

0,00

25,5

ChemDiv

http://www.chemdiv.com

07/05

553 150

0,01

53,8

ChemStar

http://www.chemstaronline.com

07/05

60 051

0,35

22,2

ChemT&I

http://www.chemti.com

07/05

484 881

0,15

43,5

Chim. Nat.

http://chimiotheque-nationale.enscm.fr

07/05

26 330

1,15

78,4

Combi-Blocks

http://www.combi-blocks.com

07/05

1 055

0,85

60,3

CombiPure

http://www.combipure.com

07/05

910

0,00

97,9

EMC Microcollections

http://www.microcollections.de

03/05

23 936

3,86

99,8

Enamine

http://www.enamine.net

06/05

428 271

0,03

84,6

Florida Center for Heterocyclic Compounds

http://ark.chem.ufl.edu

07/05

29 515

3,42

74,9

Frontier Scientific

http://www.frontiersci.com

07/05

611

3,48

45,5

ICOA

http://www.univ-orleans.fr/icoa/chimiotheque

07/05

3 213

1,77

22,6

InFarmatik

http://www.infarmatik.com

07/05

541

1,81

71,2

InterBioScreen

http://www.ibscreen.com

04/05

425 676

0,17

56,6

KeyOrganics

http://www.keyorganics.ltd.uk

07/05

187 079

0,07

87,0

LaboTest

http://www.labotest.com

07/05

3 097

2,15

20,5

Matrix Scientific

http://www.matrixscientific.com

07/05

14 963

1,35

52,5

MayBridge

http://www.maybridge.com

07/05

69 138

0,20

75,4

MDPI

http://www.mdpi.org

2004

10 193

4,32

75,6

MedChemLab

http://mosmedchemlabs.com

07/05

179 248

0,02

43,7

NCI

http://dtp.nci.nih.gov

09/03

244 406

6,02

89,1

Otava

http://www.otava.com.ua

04/05

76 819

0,39

25,4

Prestwick

http://www.prestwickchemical.com

07/05

1 117

0,27

42,7

Specs

http://www.specs.net

07/05

219 452

0,03

25,9

Spectrum Info

http://www.spectrum.kiev.ua

07/05

1 179

3,60

59,0

SynChem

http://www.synchem.com

07/05

590

1,01

56,8

SynphaBase

http://www.synphabase.com

07/05

147

5,16

85,0

TimTec

http://www.timtec.net

11/05

658 422

0,23

23,7

TosLab

http://www.toslab.com

07/05

23 235

0,09

43,2

Tripos

http://leadquest.tripos.com

07/05

65 288

0,04

95,2

VitasM Laboratory

http://www.vitasmlab.com

07/05

226 325

0,10

16,0

Tableau 11. Analyse des 38 jeux de molécules constituant notre chimiothèque. Le pourcentage de structures exclusives correspond aux structures n’étant présentes que chez le fournisseur en question. La date d’obtention de la base est indiqué sous la forme mois/année.

B.Composés « drug-like » et « lead-like »

1.« Drug-like » et « lead-like »


La Figure 18 fait ressortir les propriétés « drug-like » (PDL ≤ 1) et « lead-like » (PLL ≤ 1) des molécules. Cette figure montre également tous les composés avec un CFMS ≤ 1. Pour calculer ce score nous nous sommes basé sur le PDL et nous avons utilisés tous les critères possibles du CFMS (voir Chapitre 2.II.B.9.b). Pour rappel, ce score peut être grossièrement considéré comme un score « drug-like » prenant en compte les composés pouvant se révéler être des faux positifs lors des tests biochimiques. Pour l’ensemble de notre chimiothèque, il y a 2,8 millions de molécules avec un PDL ≤ 1), 1,3 millions avec un PLL ≤ 1 et 2,7 millions avec un CFMS ≤ 1.

En moyenne, 86 % des composés ont un PDL ≤ 1 et 79 % ont un CFMS ≤ 1. Deux bases ressortent comme étant les moins « drug-like » selon cette analyse : Combi-Blocks et Frontier Scientific. Cela est cohérent avec le fait que ces deux fournisseurs proposent des réactifs plutôt que des produits finaux. On notera également que Spectrum Info, qui propose à la fois des réactifs et des composés destinés au criblage, et SymphaBase, qui propose des réactifs, ont des pourcentages de composés avec de mauvaises propriétés « drug-like » plus forts que la moyenne.

Nous désignerons par le terme « bases commerciales de grandes tailles » les bases de plus de 200 000 composés, à l’exclusion de la base NCI qui n’est pas réellement une base commerciale. Pour ce type de bases, la moyenne de composés avec un PDL ≤ 1 est de 88 %, et la moyenne des composés avec un CFMS ≤ 1 est de 84 %. Ces bases sont donc plus « drug-like » que l’ensemble des bases. Ceci peut aisément s’expliquer par le fait que ce sont des bases conçues pour des tests de criblages à haut-débits, et qu’à ce titre les fournisseurs intègrent dans leurs bases un maximum de composés « drug-like », et plus particulièrement validant les critères de Lipinski.

Les bases ACB blocks, CombiPure, InFarmatik et SynChem sont celles qui présentent les meilleures propriétés « drug-like ». D’une manière générale on notera que les bases ayant des résultats les plus éloignés de la moyenne sont des bases de petites tailles. Ces résultats sont en corrélation avec la faible diversité de ces bases.

Les écarts entre le pourcentage de composés avec un PDL ≤ 1 et le pourcentage de composés avec un CFMS ≤ 1 sont faibles. Cela s’explique par le fait que le critère ayant le plus d’influence dans les critères supplémentaires introduit par le score CFMS est la présence de fonctions réactives. Ces fonctions sont présentes en nombre limité dans les bases destinées au criblage. Les différences sont par contre plus marquées parmi les bases contenant des réactifs.

Les pourcentages de composés avec un PLL ≤ 1 sont plus faibles, avec en moyenne 50 % de composés passant ce filtre. Cela est principalement dû à la limite contraignante fixée au log P. Etant donné que dans les tests de criblages les composés « lead-like » sont aussi importants que les composés « drug-like », nous considérons que, idéalement et d’une manière générale, la moitié des composés « drug-like » d’une base destinée au criblage devraient être « lead-like ». Nous rediscuterons de ce point dans le chapitre IV. Suivant le critère que nous venons de fixer, la base TimTec a un bon ratio « drug-like » / « lead-like », tout comme Asinex, ChemBridge, ChemStar, Chem T&I, Specs et VitasM. D’autres bases ont par contre un nombre de composés « lead-like » un peu faible par rapport à leur nombre de composés « drug-like ». Ce sont les bases Cerep, ChemDiv, Enamine, InterBioScreen, KeyOrganics, MedChemLab, et Tripos.

On remarquera que certaines bases (CB R&D, Combi-Blocks, Frontier Scientific, LaboTest, Matrix Scientific, Spectrum Info, Synchem et SynphaBase) ont un profil particulier : les pourcentages de composés avec PLL ≤ 1 sont proches des pourcentages de composés avec un PDL ≤ 1, et supérieurs aux pourcentages de composés avec un CFMS ≤ 1. Ce sont en fait des bases proposant des réactifs, et donc des composés de petites tailles. Etant donné la définition des composés « lead-like », cette constatation semble tout à fait logique.



Figure 18. Pourcentage de molécules ayant un score PDL ≤ 1, PLL ≤ 1 et CFMS ≤ 1.

2.Structures privilégiées


La présence de nombreux composés avec une structure privilégiée dans un ensemble de molécules devrait théoriquement favoriser un bon taux de touches positives lors des tests de criblages. Le pourcentage de composés contenant une structure privilégiée peut également donner une indication sur les propriétés « drug-like » d’une base (Figure 19). Les bases ont en moyenne 24 % de composés avec une structure privilégiée. On notera tout d’abord que la base Prestwick a un pourcentage de structures privilégiées qui est dans la moyenne haute, ce qui tend à vérifier le bon fonctionnement du filtre. Les deux bases, toutes tailles confondues, arrivant de loin en tête du classement suivant ce critère sont ACB Blocks et AnalytiCon Discovery. InterBioScreen et ChemDiv sont les bases de grandes tailles contenant le plus de structures privilégiées. La base CB R&D ne possède quant à elle aucune structure privilégiée, mais cela n’est pas choquant étant donnée qu’elle ne compte que 176 structures au total.



Figure 19. Pourcentage de structures privilégiées.

C.Diversité basée sur les « fingerprints »


Nous avons utilisé les quatre fingerprints cités précédemment pour évaluer la diversité des bases. Les résultats sont représentés dans la Figure 20. Les résultats sont présentés sous formes de pourcentages de clusters de la base ayant la diversité maximale (pour un type de fingerprints donné). Dans tous les cas la base la plus diverse est la NCI, et les pourcentages exprimés dans le graphique correspondent donc au pourcentage de clusters de la base NCI pour un fingerprint donné. Cela simplifie la représentation des données, et donc la lecture.

D’une manière générale, les SSKey3DS donnent des résultats comparables aux fingerprints MACCS, et les TGD des résultats comparables aux fingerprints TGT. Cela semble normal puisque les fingerprints SSKey3DS et MACCS sont du même type (basées principalement sur des fragments), et TGD et TGT sont également du même type (basées sur des pharmacophores).

La base NCI est donc nettement la plus diverse, quelque soit le fingerprint utilisé. Cette base est particulière dans sa conception, puisque les composés qu’elle contient ont des origines très variées. Le résultat est que cette base est beaucoup plus diverse que la base TimTec qui contient pourtant deux fois et demie plus de composés. NCI est cependant un cas à part, et d’une manière générale, plus une base contient de composés, plus sa diversité est grande. Parmi les autres bases, la plus grande, TimTec, est aussi la plus diverse.

Les coefficients de corrélation entre la taille des bases et leurs diversités mesurées par les différentes fingerprints sont présentés Tableau 12. A la vue de ces résultats il est clair qu’il existe une corrélation entre la taille des bases et leur diversité. Cette corrélation est plus forte avec les fingerprints basées sur des fragments qu’avec les fingerprints pharmacophoriques. Les coefficients de corrélation sont très hétérogènes puisqu’ils varient de 0,87 (MACCS) à 0,54 (TGT). Nous pouvons donc en déduire que, même si les conclusions générales sont semblables quelles que soient les fingerprints utilisées, il existe malgré tout des différences notables entre les différentes fingerprints.



Figure 20. Diversités des bases évaluées en utilisant quatre fingerprints différentes. Les valeurs sont exprimées en diversité relative (c.-à-d. en pourcentage de la base avec la diversité maximale, à savoir NCI pour les quatre fingerprints).

Fingerprints



SSKey3DS

0,81

MACCS

0,87

TGD

0,70

TGT

0,54

Tableau 12. Etude de la corrélation entre la diversité des bases et le nombre de composés qu’elles contiennent.

D.Diversité basée sur la fragmentation

1.Frameworks, Scaffolds et chaînes latérales


La Figure 21 représente les frameworks, les scaffolds et les chaînes latérales de chaque base. Les résultats sont exprimés en pourcentage de représentativité de la base totale. Les tailles des bases sont corrélées au nombre de frameworks avec un r² de 0,86, au nombre de scaffolds avec un r² 0,88 et au nombre de chaînes latérales avec un r² de 0,65. Nous voyons donc que les chaînes latérales sont beaucoup moins corrélées avec la taille des bases que les frameworks et les scaffolds.

Pour la totalité de notre base virtuelle, il y a 98 000 frameworks, 600 000 scaffolds et 40 000 chaînes latérales. Il est cependant très difficile de donner un schéma général à partir de la figure. Quelques points sont quand même à noter. Le plus frappant est que la base NCI est celle qui a de loin le plus grand nombre de chaînes latérales (38 % de la base), alors qu’elle est loin d’avoir le plus grand nombre de frameworks et de scaffolds. Cela montre une fois de plus le profil très particulier de cette base. La base qui a le plus de chaînes latérales après NCI est TimTec. On note que cette base a un profil assez équilibré puisque les pourcentages de représentativité de la base totale en termes de frameworks et de scaffolds sont très proches de celui des chaînes latérales. On notera que c’est la base Enamine est la base la plus diverse en termes de frameworks et de scaffolds, et qu’elle a un nombre de chaînes latérales tout à fait correct.



Figure 21. Diversités des bases évaluées en utilisant les frameworks, les scaffolds et les chaînes latérales. Les valeurs sont exprimées en pourcentage de la base totale (par exemple, la base NCI possède la moitié des chaînes latérales présentent dans la base totale).

Fragments



Frameworks

0,86

Scaffolds

0,88

Chaînes latérales

0,65

Tableau 13. Etude de la corrélation entre les frameworks, les scaffolds, chaînes latérales des bases et le nombre de composés qu’elles contiennent.

2.RECAP


Les composés de toutes les bases ont été fragmentés en utilisant les règles RECAP. Le nombre de fragments obtenus pour chaque base est présenté dans la Figure 22. Pour l’ensemble des composés de la base, il y a en moyenne 2,7 fragments par composé. L’ensemble de notre chimiothèque comporte environ 350 000 fragments.

La moyenne du nombre de fragments par base est de 19 202. La base comportant le plus de fragments est TimTec. On trouve ensuite NCI et ChemDiv. NCI n’est donc pas la base la plus diverse en termes de fragments, comme cela était le cas en mesurant la diversité à l’aide de fingerprints. Son nombre de fragments est tout de même très bon, puisqu’elle a 84 % du nombre de fragments de TimTec, alors qu’elle a deux fois et demie moins de composés. La corrélation entre le nombre de fragments d’une base et son nombre de composés est bonne, avec un r² de 0,86. Les bases de grandes tailles s’éloignant le plus de la droite de régression linéaire sont NCI, Specs et Chem T&I. NCI et Specs ont un nombre de fragments très important au vu du nombre de composés dans ces bases. Chem T&I a, quant à elle, un faible nombre de fragments différents au vu du nombre de composés de la base.



Figure 22. Nombre de fragments obtenus.

E.Estimation de la diversité globale des bases

1.Méthode


Nous avons estimé la diversité chimique des différentes bases constituant notre chimiothèque virtuelle en utilisant des fingerprints, les scaffolds, les frameworks, les chaînes latérales et RECAP. Nous avons pu noter des tendances globales, mais également des disparités de résultats entre les différentes méthodes. Notre objectif est donc de proposer une analyse de la diversité des bases combinant l’ensemble des méthodes utilisées. Nous allons, pour chaque base, faire une moyenne pondérée des différentes diversités mesurées.

La seule difficulté de cette étape est de déterminer les coefficients de pondération. Nous avons pour notre part fait les choix suivants :

  • Tout d’abord les résultats de la mesure de la diversité par chaque méthode seront standardisés. Les résultats seront exprimés en pourcentage par rapport à la valeur de la base la plus diverse par la méthode en question.

  • Les méthodes utilisées seront réparties en deux grandes familles : les fingerprints, et les méthodes basées sur des sous structures de tailles relativement importantes, à savoir les scaffolds, les frameworks, les chaînes latérales et RECAP. Chacune de ces grandes familles aura le même poids, à savoir un coefficient de 1/2.

  • Au sein de la famille des fingerprints, nous distinguons deux sous-familles : les fingerprints basées sur des petites sous structures, et les fingerprints basées sur des pharmacophores. Etant donné que nous avons utilisé deux fingerprints dans chaque famille, nous appliquerons un coefficient de 1/8 aux résultats de chaque fingerprint afin d’obtenir un coefficient global de 1/2 pour les méthodes basées sur les fingerprints.

  • Nous diviserons l’autre grande famille en trois sous-familles : une famille représentant les squelettes des molécules (comprenant les frameworks et les scaffolds), une famille représentant les chaînes latérales, et une famille représentant les fragments rétrosynthétiques. Nous utiliserons donc, au sein de cette famille, les coefficients de 1/12 pour les frameworks, de 1/12 pour les squelettes, de 1/6 pour les chaînes latérales, de 1/6 pour les fragments rétrosynthètiques. Cela donnera donc un poids de 0,5 à cette grande sous famille correspondant aux sous structures de tailles relativement importantes.

Nous utiliserons donc la formule suivante pour calculer la diversité des bases :

Équation 2

2.Résultats


La Figure 23 présente la diversité globale des bases, calculée suivant l’équation 2. La base NCI arrive en tête du classement. Cela traduit ce que nous avons vu dans nos analyses, à savoir que c’est une base très diverse. La base commerciale la plus diverse est TimTec. Ce résultat doit être nuancé par le fait que c’est la base qui comporte le plus de composés et qui est la plus récente de notre base. Enamine, ChemDiv, InterBioScreen, ChemBridge, Specs et Asinex suivent TimTec en termes de diversité globale. Les bases les moins diverses sont celles qui contiennent le moins de composés, c'est-à-dire celles qui proposent des réactifs pour la chimie combinatoire.

La diversité globale est corrélée à la taille des bases avec un r² de 0,74. Mais il est aussi intéressant d’étudier la diversité relative, celle apportée par un composé de chaque base. Ce critère est particulièrement intéressant lorsque les produits de tests sont limités ; on cherche alors à obtenir le maximum de diversité avec le minimum de produits (Figure 24). Alors que le classement précédent favorisait les bases de grandes tailles, celui-ci favorise les bases de petites tailles. Ainsi la première base est celle qui a le moins de composés, à savoir SymphaBase (147 composés). On notera que la base Prestwick (1 117 composés), qui est contrairement à SymphaBase destinée au criblage, arrive en deuxième position. Les bases commerciales de grandes tailles destinées au criblage, pénalisées par leur grand nombre de composés, arrivent en fin de classement. La base NCI se trouve quant à elle au milieu du classement. En effet, même si cette dernière comporte un grand nombre de composés, ils sont suffisamment divers et originaux pour qu’elle ne se retrouve pas en fin de classement avec les grandes bases commerciales.



Figure 23. Classement des bases en fonction de leur diversité globale.



Figure 24. Classement des bases en fonction de la diversité relative.
1   ...   8   9   10   11   12   13   14   15   ...   22

similaire:

Rapporteur, ensc, Montpellier iconDe la franc maconnerie a montpellier
Écrit à son ami Pierre Jacques Astruc, conseiller maître en la cour des comptes, aides et finances de Montpellier

Rapporteur, ensc, Montpellier iconEconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconÉconomies d’eau : Réutilisation des eaux de pluie
«Eaux» de l’Afssa 15 cnrs- umr 5119-Université Montpellier 2- montpellier 16 ehesp- rennes 17 Laboratoire de Santé publique et Environnement-Faculté...

Rapporteur, ensc, Montpellier iconRapporteur

Rapporteur, ensc, Montpellier iconRapporteur : Saddek Aouadi, Professeur, Université d’Annaba

Rapporteur, ensc, Montpellier iconRapporteur trigonométrique circulaire pour série générale et technologique...

Rapporteur, ensc, Montpellier iconCmi montpellier informatique

Rapporteur, ensc, Montpellier iconSociete regionale de medecine et d’hygiene du travail de montpellier

Rapporteur, ensc, Montpellier iconRapporteur : Philippe Cléris Le Grand Paris et l’Eure. Ou un début...

Rapporteur, ensc, Montpellier iconL ycee agricole prive
«blanco», équerre, compas, rapporteur, taille-crayon, crayon à papier, double décimètre, stylos noir, bleu, vert, rouge et crayons...








Tous droits réservés. Copyright © 2016
contacts
c.21-bal.com