Apprentissage Automatique pour l’Oncologie de Précision et la Conception de Médicaments

Voir les publications
En direct

Le Centre de Recherche en Cancérologie de Marseille fête ses 50 ans ! -

Apprentissage Automatique pour l’Oncologie de Précision et la Conception de Médicaments (AAOPCM)

Nos recherches portent sur le développement et l’application de méthodes informatiques permettant de prédire et d’analyser la modulation de la fonction des protéines et des cellules par de petites molécules organiques. Ces problèmes peuvent être résolus en générant des modèles prédictifs à partir de données pertinentes à l’aide de l’apprentissage automatique (une approche qui a récemment été rebaptisée IA pour la découverte de médicaments). Dans ce domaine, les problèmes d’intérêt comprennent la prédiction de la réponse thérapeutique des tumeurs à partir de leur profil moléculaire pour l’oncologie de précision, la modélisation pharmaco-omique du cancer pour la conception de médicaments phénotypiques, la prédiction de cibles moléculaires par exploration de données de bioactivité et la conception de médicaments ciblés (par exemple, le dépistage virtuel basé sur la structure de la cible et guidé par des fonctions de notation hautement prédictives en apprentissage automatique).

Oncologie de précision
Méthodes

L'efficacité d'un traitement médicamenteux est fortement variable d’un patient atteint d’un cancer à l’autre. Il y a donc un grand besoin  de méthodes computationnelles capables de prédire quels patients répondront à un traitement donné. Plusieurs milliers de caractéristiques numériques décrivent souvent chaque tumeur (par exemple, celles qui proviennent de technologies de profilage moléculaire rapide et bon marché, telles que le RNA-seq ou le Methyl-Seq). L'apprentissage automatique peut être utilisé pour identifier les combinaisons de ces altérations génétiques qui peuvent prédire la réponse au traitement et ainsi guider les stratégies de prise en charge par médecine de précision. Malheureusement, le nombre de tumeurs de cancers qui ont fait l'objet d'un profil moléculaire et qui ont été traitées avec le même médicament est généralement faible (il dépasse rarement 100). De tels problèmes de classification à haute dimension sont difficiles à résoudre, car nombre d’algorithmes peinent à pour établir des classificateurs tout en ignorant les milliers de caractéristiques non pertinentes.

Nous étudions l'intégration de la sélection de caractéristiques avec des algorithmes d'apprentissage automatique pour construire des classificateurs qui n'utilisent qu'un sous-ensemble beaucoup plus petit de caractéristiques (les plus discriminantes). Par exemple, en analysant systématiquement un ensemble complet de données in vivo (1), nous avons observé que l'identification d'un sous-ensemble optimal de caractéristiques en utilisant la forêt aléatoire comme base d'apprentissage aboutit à des modèles prédictifs pour la plupart des types de cancer,  de profils et de traitements. Nous nous penchons également sur le défi d'interpréter au mieux une prédiction en fonction des altérations génétiques sélectionnées afin d'expliquer pourquoi une tumeur spécifique est sensible ou résistante au traitement.

Applications

Nous avons comparé l'approche standard d'identification des marqueurs monogéniques à l'approche multigénique émergente qui consiste à combiner de multiples altérations génétiques avec l'apprentissage automatique en utilisant les mêmes données pharmacogénomiques in vitro (2, 3). Nous avons examiné la même question à l'aide de données précliniques in vivo (1) et nous étudions actuellement cette question avec des données cliniques in vivo également.

Toutes ces études révèlent qu'il est possible de prédire avec plus exactitude une proportion plus élevée de binômes type de cancer/traitement si: 1) des classificateurs multigènes sont construits (en particulier ceux qui permettent la sélection de caractéristiques), 2) un plus grand nombre d'algorithmes d'apprentissage automatique est utilisé, et 3) un plus grand nombre de profils moléculaires est considéré. En comparant systématiquement les classificateurs monogéniques et multigéniques, nous avons également découvert que la faible sensibilité d'un marqueur monogénique n'est pas une limitation intrinsèque de l'oncologie de précision, mais le résultat de l'utilisation d'un classificateur à caractéristique unique au lieu de combiner efficacement plusieurs modifications génétiques (1, 3).

Nous étudions actuellement l'application des outils développés à des ensembles de données pharmacomiques cliniques, comme ceux provenant de patients atteints de leucémie myéloïde aiguë et de cancer du sein métastatique.

Conception de médicaments
Méthodes

En plus de la recherche visant à optimiser l'application des médicaments connus, il est nécessaire de découvrir de nouveaux médicaments pour traiter les patients cancéreux qui ne répondent pas aux traitements de première intention, qui rechutent et/ou qui ont un mauvais pronostic avec les traitements actuels. Cet objectif ne peut être atteint sans un moyen d'identifier les molécules modulant une fonction biologique spécifique d'une cible thérapeutique. Il existe maintenant une gamme de méthodes de calcul capables de prédire les activités biologiques d'une molécule à partir d'un volume sans cesse croissant de données expérimentales pertinentes. Par exemple, les méthodes de criblage virtuel (VS) peuvent être utilisées pour rechercher dans de vastes bibliothèques de molécules celles qui sont susceptibles d'être actives contre la cible considérée. Dans la pratique, ces outils ont permis de découvrir des pistes de médicaments pour un large éventail de cibles et sont particulièrement utiles pour les cibles où le dépistage à haut débit (HTS) donne de mauvais résultats ou n'est pas envisageable (p. ex. techniquement impossible, trop coûteux ou trop lent). Il existe également des méthodes permettant d'optimiser la puissance des pistes médicamenteuses ainsi que de prédire leurs effets hors-cible.

Dans le scénario où l'on a une molécule ayant une affinité pour la cible d'intérêt, nous avons mis au point une méthode VS basée sur un ligand appelée Ultrafast Shape Recognition (USR) (4). USR recherche dans ces bibliothèques des molécules ayant une forme 3D similaire à celle de ce modèle. Ceci est efficace dans la mesure où des molécules de forme similaire sont susceptibles d'atteindre les mêmes cibles que le modèle de recherche et d'avoir un échafaudage chimique différent (4). D'autres ont développé ce concept en incorporant la distribution spatiale des propriétés pharmacophoriques à la recherche, comme dans USRCAT (5). Nous avons récemment implémenté les deux outils dans le serveur web USR-VS (6) pour réaliser des VS prospectives à grande échelle.

Si un modèle structurel de la protéine cible est disponible (p. ex. structure crystalline aux rayons X), des méthodes basées sur la structure, comme l'amarrage moléculaire, peuvent être utilisées pour prédire la force avec laquelle une molécule se lie à la cible. L'amarrage est utile pour identifier de nouvelles pistes de médicaments pour une cible ou pour concevoir des pistes de médicaments plus puissants. La limitation la plus importante de l'amarrage réside dans le classement des molécules en fonction de leur force de liaison prévue, qui est effectué par des fonctions de scoring spécialisées (SFs). Dans ce domaine, nous avons démontré (7) les avantages de l'apprentissage automatique des SF par rapport aux SF classiques (c'est-à-dire ceux basés sur une combinaison linéaire de caractéristiques). Nous avons révélé (8) qu'une description chimique plus précise du complexe protéine-ligand ne conduit généralement pas à des SFs plus prédictifs contrairement à ce que l’on pensait. Nous avons récemment montré (9) que les performances des SF classiques stagnent rapidement avec l'augmentation de la taille des données de formation, contrairement à celles des SF d'apprentissage automatique. Nous avons constaté (10) que les SF d'apprentissage automatique, lorsqu'elles sont conçues sur mesure pour le VS, obtiennent de meilleures performances en s'entraînant avec des ensembles inhabituellement importants d'inactifs.

Dans le meilleur des cas, l’identification d’un candidat médicament phare ayant une eficacité élevée sur sa cible est coûteuse et chronophage. Malheureusement, beaucoup de ces sondes optimisées s'avèrent finalement non actives sur le plan cellulaire et n'ont donc aucune valeur thérapeutique. Avec nos collaborateurs au Royaume-Uni, nous avons implémenté un serveur web qui propose une méthode permettant de prédire l'inhibition de la croissance d’une lignée cellulaire induite par une molécule donnée (19). Ceci peut être utilisé pour positionner une sonde sur un type de cancer en prédisant sur quelles lignées cellulaires cela induirait une plus forte inhibition de la croissance. Cet outil peut également être utilisé pour la conception de médicaments phénotypiques, où l'on cherche dans une vaste bibliothèque de molécules celles qui sont les plus actives sur un type de cancer donné. Par la suite, il sera souhaitable de prédire quelles sont les cibles des hits phénotypiques résultants. Dans ce but, nous avons développé et validé une méthode de prédiction de cible (11), qui est disponible en tant que serveur web (12). Récemment, nous avons également mis au point une méthode permettant de prédire la synergie des médicaments dans l'inhibition des lignées cellulaires cancéreues (13).

Applications

Dans des études prospectives VS, nous avons observé que USR est très efficace pour la découverte de molécules bioactives avec de nouveaux échafaudages chimiques (14-17). Plusieurs collaborations sont en cours pour découvrir de nouveaux ligands pour d'autres cibles utilisant USR et USRCAT. Nous avons également utilisé un SF d'apprentissage automatique (RF-Score) dans le cadre d'un protocole VS hiérarchique qui a conduit à la découverte d'une grande proportion d'inhibiteurs d'une cible antibactérienne (15). Cependant, contrairement au RF-Score, RF-Score-VS a été conçu spécifiquement pour le VS, ce qui se traduit par des résultats nettement meilleurs pour le VS (18). Nous avons maintenant entamé des collaborations afin d'utiliser des SF d'apprentissage automatique pour des VS potentiels contre plusieurs cibles de cancer. D'autre part, nous utilisons MolTarPred (12) pour prédire les cibles de certains médicaments cliniques. Nos collaborateurs ont confirmé expérimentalement certaines des cibles prévues (l'une de ces cibles auparavant inconnues se lie au médicament avec une puissance de 300 nM).

Pour ce qui est de la conception phénotypique des médicaments, nous avons prédit la puissance d'inhibition de la croissance et les paires synergiques d'un vaste ensemble de médicaments cliniques sur les lignées cellulaires cancéreuses en utilisant respectivement (19) et (13). Des prédictions sélectionnées sont en cours de validation in vitro par nos collaborateurs.