Actualités

A la découverte de nos activités dans les -omics

A la découverte de nos activités dans les -omics

Lors des derniers 18 mois, Soladis a intégré dans ses rangs des profils de biostatisticiens et bioinformaticiens spécialisés dans l’univers des « omics ». La palette d’expertises Soladis comportait jusqu’alors des profils plus cliniques, industriels, et marketing, et nous avons été fiers d’intégrer ces nouvelles compétences propres à répondre aux nouvelles problématiques de secteurs d’activités déjà pourtant bien connus.

Pour démystifier un peu ce secteur d’activité et vous offrir l’opportunité de mieux le comprendre, nos référents biostatistique et bioinformatique -omic partagent avec vous, au travers de ce premier article décrivant un pan de leur activité, un peu de l’univers dans lequel ils gravitent !

  

Présentation de l’activité BioStatistiques/BioInformatique.

Avec l’avènement des « omics » (génomique, protéomique,…) il est désormais possible de décrire et suivre l’évolution de milliers de biomarqueurs (BMKs) dans le cas de diverses pathologies. Ces données permettent de mieux les mécanismes moléculaires en jeu au cours des pathologies étudiées. Les équipes de biostatistiques et bioinformatique ont pour rôle de transformer les données massives obtenues par l’application des biotechnologies - les « Omics » - en une information interprétable par le pharmacologue ou le biologiste. Par leurs actions, ils proposent des outils fonctionnels et de la connaissance dans le cadre des différentes phases de développement produit.

 

Mais au fait, qu’est-ce qu’un biomarqueur, à quoi sert-il et comment l’utiliser ?

La définition de la FDA est claire: « un biomarqueur est une caractéristique objectivement mesurable, évaluée comme un indicateur de processus biologiques normaux, de processus pathologiques ou d’une réponse biologique à une intervention thérapeutique ». Par exemple, le glucose sérique est un biomarqueur du diabète puisqu'on utilise -entre autres - la mesure de la glycémie à jeun pour diagnostiquer ou surveiller un diabète. Dans ce cas, le glucose sérique est le BMK.

 Il existe par ailleurs différents types de BMKs utilisés dans le cadre des études pharmaceutiques en préclinique et en clinique.

 Par exemple, les BMKs macroscopiques à l’échelle d’un organe ou d’un organisme :

  • les données issues de l’imagerie médicale du genou (e.g. IRM) sont des BMKs de l’arthrose du genou,
  • l’eCG permet de diagnostiquer un infarctus du myocarde,
  • la pression artérielle entre dans le calcul du niveau de risque d'AVC ou d'événement cardiovasculaire

Mais également, les BMKs moléculaires tels que :

  • les protéines sanguines dont la mesure est facilement accessible par prélèvement sanguin (par exemple le dosage de la troponine dans le diagnostic des infarctus du myocarde, celui des D-dimères dans le diagnostic d'une maladie thrombo-embolique),
  • les BMKs cellulaires (acides nucléiques, protéines, métabolites) : e.g. dans le cas de certaines mutations (causales) on peut prédire la survenue de certaines maladies.

Par ailleurs, les caractéristiques des BMKs recherchés sont principalement de trois grands ordres correspondant aux objectifs de développement produit. Les objectifs peuvent être pronostiques (en l’absence de traitement suivre l’évolution d’une maladie), prédictifs (prédire l’influence d’un traitement) ou enfin pharmacodynamiques (suivre une cinétique d’expression au cours du temps). Ces BMKs une fois identifiés permettront par exemple d’implémenter les cohortes en patients progresseurs pour une pathologie donnée, d’administrer la dose de traitement adéquate au moment le plus opportun (« 3R : Right Medication, Right Patient, Right Dose »).

 

Mais alors, les données « Omics » c’est quoi au juste ?

Le suffixe « Omics » tire son origine du mot sanscrit « -ome », qui désigne la complétude et la plénitude (Lederberg, McCray, 2001). La fusion avec les mots « gène » ou « transcrits » qui a donné par la suite « génome » ou « transcriptome » se réfère donc à l’étude d’un tout pour une certain type de molécules. En effet, la cellule exprime à chaque instant des milliers de molécules qui constituent la machinerie cellulaire aboutissant à une fonction concrète (e.g. migration, différentiation, …). Le rôle des technologies Omics est donc de capter cette information et ainsi de prendre une « image » des modifications moléculaires afin de mieux les comprendre.

 

Un exemple concret d’application traité par Soladis

L'ADN contenudans le noyau de toutes toutes les cellules, est  transcrit en ARN messager, lui-même traduit en protéines (figure 1). Une des méthodes les plus actuelle pour évaluer la nature et l’abondance des molécules d’ADN ou d’ARN est le séquençage d’acides nucléiques (NGS : Next Generation Sequencing).

Figure 1 : Les ARNs dans la régulation de l’expression des gènes (d’après Wahlestedt (2013) Targeting long non-coding RNA to therapeutically upregulate gene expression. Nature Reviews Drug Discovery 12, 433–446.)

Son principe est simple : les molécules sont extraites de pools cellulaires, elles sont ensuite fragmentées et analysées via une machine appelée séquenceur. Cet appareil lit des millions de suites de nucléotides (A, T, C, G) appelés lectures (« Reads » en anglais). Chaque lecture correspond à une partie d’une séquence plus longue. L’objectif du séquençage d’ARN est d’évaluer le niveau d’expression des gènes tandis que le séquençage d’ADN permet d’identifier des modifications de la séquence génétique.

 La première étape est aux mains du bioinformaticien qui vérifie la validité des millions de lectures obtenues. Cette étape est très importante pour identifier les erreurs de séquençage et il existe des logiciels spécialisés qui permettent d’évaluer les paramètres de qualité des données au cours du préprocessing.

La seconde étape s’appelle l’alignement (« mapping » en anglais). Chaque fragment est comparé au génome de référence afin d’identifier sa localisation. Une alternative de plus en plus utilisée, créée au départ pour les organismes non modèles (ceux pour lesquels un génome de référence n’était pas disponible), est celle de l’assemblage de novo : méthode bioinformatique in silico, elle consiste à comparer les fragments séquencés entre eux afin de reconstruire la séquence originale de la molécule investiguée.

Suite à l’alignement, il est possible de comptabiliser le nombre de lectures associées à chaque transcrit. Ce résultat ne peut pas être utilisé en tant que tel à cause du biais moyenne/variance, et nécessite l’expertise du biostatisticien qui réalise des transformations mathématiques/statistiques indispensables (e.g. regularized log) ou encore une modélisation de la variance adéquate (les comptages suivent des lois négatives binomiales) avant une analyse différentielle entre deux conditions d’intérêt (figure 2). Cette analyse permet notamment d’identifier des signatures divergentes entre deux états biologiques (e.g. traité vs contrôle) et constitue la base de la découverte des BMKs.

Figure 2 : Principe de l’analyse différentielle sur des données RNAseq entre deux groupes pharmacologique d’intérêt. Illustration du résultat sous forme de volcano plot (-log10[p-value]~log2[ratio]) et obtention des listes de gènes activés et désactivés.

 Les analyses bioinformatiques permettent également de réaliser des analyses de variation de séquence. Ces « variants » peuvent être de plusieurs types :

-          des variants d’épissage (un gène est composé d’un ou plusieurs exons qui ne sont pas tous transcrits en ARN : c’est l’épissage alternatif),

-          des mutations de séquence (insertions, délétions ou substitutions de nucléotides, figure 3A),

-          des modifications plus globales au niveau du génome comme les translocations, observées grâce à la présence de gènes de fusion : gène hybride formé de deux gènes distants (figure 3B).

Ces variants peuvent également servir de biomarqueurs notamment dans l’analyse des cancers où la présence ou l’absence d’une certaine mutation dans les cellules tumorales permet de choisir le traitement adapté.

 Figure 3 : Les différentes mutations observées sur le génome. A. Les mutations ponctuelles. B. Les mutations chromosomiques (d’après http://www.vce.bioninja.com.au/aos-3-heredity/molecular-genetics/mutations.html)

 

Epilogue

Actuellement, les données issues de technologies haut-débit générées par les biologistes constituent une formidable avancée pour la compréhension fine des mécanismes moléculaires, mais soulèvent des défis de gestion de la donnée repositionnant le bioinformaticien et le biostatisticien sur une problématique de volumétrie s’apparentant aux « big-data ». De plus, l’évolution des biotechnologies nécessite une constante dynamique dans l’innovation et la mise en place de nouveaux algorithmes.

Les analyses constituent donc aujourd’hui un goulot d’étranglement tant par les calculs complexes générés que par la disponibilité de méthodologies adaptées au traitement de l’information pour répondre pertinemment aux questions du biologiste. Cependant, l’émergence de nouvelles méthodes d’analyse, toujours plus précises, plus intégratives, plus robustes s’est montrée particulièrement efficace pour faire émerger de nouveaux biomarqueurs ou augmenter le degré de compréhension de la donnée individuelle, allant jusqu’aux méthodes les plus modernes de la médecine comme la médecine personnalisée.