Julien Tap - These de Doctorat de l’Université Pierre et Marie Curie

Impact du régime alimentaire sur la dynamique structurale et fonctionnelle du microbiote intestinal humain

 

« Tous pour un ! Un pour tous ! »

Alexandre Dumas, Les Trois Mousquetaires (1844).

 

 

 


Remerciements

Ce travail de thèse n’a été possible que par l’intermédiaire de multiples collaborations et enrichi par différentes personnes, associant plusieurs compétences allant de la modélisation mathématique à la biologie moléculaire, en passant par la bioinformatique. Il ne fut possible que par l’apport, le soutient moral et scientifique de toutes ces personnes.

 Je tiens à remercier :

Philippe Lebaron, Annick Bernalier et Jean Fioramonti d’avoir accepté de faire parti de mon jury de thèse et de me faire l’honneur de juger mon travail.

Marion Leclerc, pour sa confiance absolue en mon travail et son soutien actif de tous les instants. Je souhaite à tous les doctorants de l’avoir comme encadrante.

Joël Doré, pour sa confiance et son soutien dans toutes mes initiatives, mais aussi pour m’avoir rapidement mis sur le chemin du noyau phylogénétique dès mon arrivée à l’INRA.

Stanislas Mondot, pour son énergie et notre travail en synergie en bioinformatique et en statistique, et j’espère que nous continuerons à travailler ensemble dans le futur.

Jean-Pierre Furet, pour son apport technique et son soutien moral, mais aussi pour les multiples aventures que nous avons vécues notamment avec la métatranscriptomique.

Ludovic Legrand et Christophe Caron, pour leur bonne humeur, leur réceptivité, leur capacité à dialoguer avec des biologistes et tout simplement pour RapidOTU. (Je n’oublie pas Clément Gauthey qui en a réalisé la première version).

Eric Pelletier, Edgardo Ugarte et Denis Le Paslier, pour tous leurs coups de pouce, toujours au bon moment, leur intervention a toujours été cruciale pour faire avancer cette thèse.

Florence Levenez, pour son soutien technique qui a été à la base de ce travail de thèse.

Patricia Lepage et Karine Gloux, pour toutes nos conversations enrichissantes.

Rafaël Muñoz Tamayo, pour son ouverture d’esprit et sa modélisation mathématique du côlon humain que j’ai pu utiliser dans ce travail de thèse.

Gérard Corthier, pour son apport dans mon travail de thèse qui a été considérable aussi bien sur le plan technique que scientifique, notamment pour la mise en œuvre de la métatranscriptomique.

Tout le consortium du projet AlimIntest mais aussi toute l’Unité d’Ecologie et Physiologie du Système Digestif, qui m’ont fourni un cadre idéal pour mener à bien ce travail de thèse.

Gabrielle Veronese et Lena Tasse, en particulier, pour notre collaboration notamment sur l’approche métagénomique fonctionnelle.

Catherine Philippe et Sylvie Rabot, pour leur apport technique dans le dosage des acides gras à chaînes courtes.

Eric Fontaine et Hubert Roth, pour leur rôle dans l’étude clinique AlimIntest.

Toute l’équipe de Karine Clément, pour notre collaboration fructueuse et de m’avoir transmis beaucoup de connaissance sur les maladies métaboliques.

Un remerciement particulier à Omar Lakhdari car cela fait maintenant huit ans que nous travaillons ensemble, et bien évidemment Karine Le Roux mais ça elle sait pourquoi…

Abstract

Nutritionists and gastroenterologists agree to admit that intestinal microbiota determines many host functions and plays an important role in the digestive well being. Understanding how our diet alters the structure and functions of intestinal microbiota is essential to know in turn its impact on our health.

The species consortium of adult's intestinal microbiota appears specific to the individual. This seems a paradox since there are homogeneous physiological functions of the intestinal ecosystem such as dietary fiber degradation. From a molecular inventory, based on 16S rRNA genes from 17 healthy volunteers with different diets, it indeed appeared that most phylotypes were specific of the individual. However, 2% of the phylotypes were shared by more than 50% of individuals and represented 35.5% of the sequences obtained. This small and limited number of phylotypes constitutes an intestinal microbiota phylogenetic core and its role appears critical for digestive well-being.

As part of a clinical study on healthy volunteers, involving two controlled diets varying according to fiber content, a microbiomics approach showed that the structural and functional dynamics of the microbiota could be modified within five days. Moreover, unexpectedly, the intestinal microbiota structure remained under the influence of the diet for at least 15 days after its administration.

These results open new perspectives for future nutrition and epidemiology investigations.

Keywords: Microbiota, Fiber, Microbiomics, Core, Food, Health

Résumé

Nutritionnistes et gastroentérologues s’accordent pour admettre que le microbiote intestinal conditionne de nombreuses fonctions de l’hôte et joue un rôle important dans le bien-être digestif. Comprendre comment notre régime alimentaire modifie la structure et les fonctions du microbiote intestinal est essentiel afin de connaître en retour son impact sur notre santé.

Le consortium d’espèces du microbiote intestinal de l’Homme adulte apparaît spécifique de l’individu. Ceci constitue un paradoxe dans la mesure où il existe une grande homogénéité fonctionnelle de l’écosystème intestinal quant à sa fonction physiologique de dégradation des fibres alimentaires. A partir d’un inventaire moléculaire basé sur le gène de l’ARNr 16S à partir de 17 volontaires sains ayant des régimes alimentaires variés, il apparaît en effet que la plupart des phylotypes sont spécifiques de l’individu. Néanmoins, 2% des phylotypes sont partagés par plus de 50% des individus représentant 35,5% des séquences obtenues. Ce petit nombre limité de phylotypes constituerait le noyau phylogénétique du microbiote intestinal et son rôle apparaît critique dans le bien-être digestif.

Dans le cadre d’une étude clinique sur volontaires sains, impliquant deux régimes alimentaires contrôlés variant selon la teneur en fibres, une approche microbiomique a montré que la dynamique structurale et fonctionnelle du microbiote pouvait être modifiée en cinq jours. De plus, il a été montré que la structure du microbiote intestinal restait sous influence du régime alimentaire administré au moins 15 jours auparavant.

Ces travaux ouvrent de nouvelles perspectives pour de futures investigations nutritionnelles et épidémiologiques.

 

Mots clés : Microbiote, Fibres, Microbiomique, Noyau, Alimentation, Santé

 


Table des Matières

Remerciements. 2

Abstract.. 3

Résumé.. 4

Table des Matières. 5

Listes de Publications. 6

Table des illustrations. 7

1      Préalable.. 8

2      Diversité du microbiote intestinal humain.. 10

2.1        Détecter l’incultivable.. 10

2.2        Homéostasie et dynamisme du microbiote.. 12

2.3        Altération du microbiote.. 17

3      Les approches métagénomique et post-métagénomique.. 19

3.1        Génome, métagénome et communauté bactérienne.. 19

3.2        La métagénomique descriptive et intégrative. 21

3.3        Les fonctions du microbiote intestinal révélées par la métagénomique.. 23

4      Nutrition, microbiote et santé.. 26

4.1        Influence du régime alimentaire.. 26

4.2        Les fibres alimentaires. 28

4.3        La fermentation des fibres alimentaires. 29

4.4        Ecologie microbienne de la dégradation de la cellulose.. 31

4.5        La dégradation des fibres d’un point de vue enzymatique.. 33

5      Techniques et méthodes d’analyse.. 36

5.1        Méthodes d’extraction et de préparation des acides nucléiques. 36

5.2        Ecologie moléculaire.. 38

5.3        Bioinformatique.. 43

5.4        Bio-statistique et Ecologie numérique.. 51

6      Résultats et discussion du projet de thèse.. 56

6.1        Développement de nouveaux outils moléculaires et bioinformatiques. 57

6.2        Le microbiote est constitué d’un noyau phylogénétique.. 62

6.3        Impact des régimes omnivore et végétarien sur le microbiote.. 65

6.4        L’apport en fibres impacte-t-il les fonctions du microbiote ?. 67

Conclusions et perspectives. 75

References. 77

Publications. 85

Listes de Publications

Article 1: Furet JP, Firmesse O, Gourmelon M, Bridonneau C, Tap J, Mondot S, Doré J, Corthier G. Comparative assessment of human and farm animal faecal microbiota using real-time quantitative PCR. FEMS Microbiol Ecol. 2009 Jun; 68(3):351-62. Epub 2009 Mar 19. PubMed PMID: 19302550.

Article 2: Tap J, Legrand L, Gauthey C, Caron C, Doré J, Le Paslier D, Pelletier E, Leclerc M. RapidOTU: 16S rRNA gene sequences clustering into operational taxonomic units using tetranucleotides frequencies. PLoS Comp Biol. 2009 Nov, (Submitted).

Article 3: Tap J, Mondot S, Levenez F, Pelletier E, Caron C, Furet JP, Ugarte E, Muñoz-Tamayo R, Le Paslier D, Nalin R, Dore J, Leclerc M. Towards the human intestinal microbiota phylogenetic core. Environ Microbiol. 2009 Oct; 11(10):2574-84. Epub 2009 Jul 6. PubMed PMID: 19601958.

Article 4: Furet JP, Kong L, Tap J, Poitou C, Basdevant A, Bouillot JL, Mariat D, Corthier G, Doré J, Henegar C, Rizkalla S, Clément K. Differential adaptation of human gut microbiota to bariatric surgery-induced weight loss: links with metabolic and low grade inflammation markers. PLoS Med. 2009 Nov, (Submitted)

Article 5: Krause L, Moine D, Rytz A, Leclerc M, Doré J, Tap J, Arigoni F, Berger B. Profiling microbial communities using multiplex pyrosequencing: a validation study. 2009 Nov, (in prep).

 


Table des illustrations

Figure 1 : Conséquence des forces de l’évolution sur la topologie des arbres phylogénétiques. 16

Figure 2 : Dynamique génomique d'une communauté bactérienne.. 20

Figure 3 : Intersection de la génomique, de l’écologie et de la métagénomique.. 22

Figure 4 : Métagénomique et complexité de l’assemblage en fonction de l’environnement. 24

Figure 5 : Représentation schématique de la paroi d'une cellule végétale avec la localisation des principaux polyosides. 31

Figure 6 : Représentation schématique de la distribution des régions hypervariables ainsi que des régions conservées du gène de l'ARN 16S d'Escherichia coli (orientation 5’ – 3’). 38

Figure 7 : Illustration des différentes techniques de séquençage à haut débit. 41

Figure 8 : Exemple d'utilisation de la base de données STRING avec une protéine xylanase / chitine deacetylase et le génome de Bacteroides vulgatus. 51

Figure 9 : Schéma d'un exemple d'analyse RLQ entre le microbiote, les patients et les variables cliniques. 53

Figure 10 : Schéma de l'intervention clinique du projet AlimIntest. 57

Figure 11 : Interface Web de RapidOTU http://genome.jouy.inra.fr/rapidotu. 59

Figure 12 : Comparaison des différents algorithmes en fonction de la richesse estimée en OTUs et de la taille des séquences. 60

Figure 13 : Visualisation sur un profil de Bioanalyzer d’un échantillon d’ARN d’origine fécale avant et après l’utilisation du kit Microbes express®. 62

Figure 14 : Comparaison du noyau phylogénétique avec des inventaires de patients atteints de la maladie de Crohn. 63

Figure 15 : Schéma de l’organisation structurelle du microbiote intestinal humain. 64

Figure 16 : Comparaison de la composition du microbiote de neuf volontaires sains omnivores et de huit volontaires sains végétariens par PCR quantitative. 66

Figure 17 : Analyse en coordonnées principales des OTUs du microbiote fécal de 17 individus sains. 67

Figure 18 : Analyse en composantes principales avec la dynamique de l'étude clinique comme variables instrumentales. 68

Figure 19 : Profils des AGCC en fonction des individus avant et après la première phase du régime. 70

Figure 20 : Décomposition statistique des relations entre la composition du microbiote, son activité physiologique et la production des AGCC en fonction du régime. 71

Figure 21 : Cercle de corrélations entre l'abondance des groupes du microbiote et la quantité d’acides gras à chaînes courtes. 72

Figure 22 : Simulation de l’étude clinique AlimIntest avec différentes habitudes alimentaires sur la production d’acétate en mM.. 73

Tableau 1 : Substrats fermentescibles arrivant dans le côlon. 26

Tableau 2 : Exemple de liaisons glycosidiques des polyosides ciblées par les enzymes du microbiote intestinal humain. 34

Tableau 3: Comparaison des coûts et des sorties des technologies de séquençage. 42

Tableau 4 : les grandes catégories  de COG et leur description. 50


Préalable

Nous naissons 99 % eucaryotes et nous mourons 99 % procaryotes. En effet, avant même notre naissance, par l’intermédiaire du cordon ombilical, nous sommes colonisés par des bactéries (Jimenez et al., 2005). Puis, c’est au cours des premiers mois de notre vie que nous acquérons un partenaire singulier : notre microbiote (Mackie et al., 1999). Le microbiote représente l’ensemble des microorganismes peuplant notre organisme. Ces microorganismes sont principalement des bactéries mais nous pouvons également héberger des archées, des champignons et des virus (principalement sous forme de phages). L’essentiel de notre microbiote se répartit tout du long de notre tractus digestif, et est estimé à plus de 100 mille milliards de bactéries, soit dix fois plus que nos propres cellules humaines. Il atteint une densité maximale dans notre côlon distal avec 1011 bactéries pour un gramme de contenu (Holdeman et al., 1976; Savage, 1977).

Nous sommes donc vus comme une niche écologique ambulante, ou plutôt préfère-t-on parler de « super-organisme », composé d’un amalgame de cellules microbiennes et d’Homo sapiens. Tous les organismes supérieurs tels que les autres mammifères, les insectes et les poissons, ont leur microbiote spécifique. Dans plusieurs cas, l’information génétique combinée des microorganismes constituant le microbiote dépasse de loin celle de leur hôte.

Par ailleurs, l’estimation actuelle du nombre de gènes dans le génome humain est évaluée aux alentours de 23 000 gènes (Wei and Brent, 2006), tandis que pour le métagénome intestinal, l’ensemble combiné des génomes de notre microbiote intestinal, elle s’établit à plus de neuf milliards (Yang et al., 2009).

Aussi bien sur le plan de l’abondance structurelle que génétique, le microbiote intestinal, anciennement appelé « flore intestinale », peut être considéré comme un organe à part entière tant son impact est important sur notre vie. En effet, sans lui, nous ne pourrions pas digérer certains composants de notre nourriture (Sonnenburg et al., 2005; Ley et al., 2008), notre système immunitaire serait immature (Mazmanian et al., 2005) et la paroi de notre intestin serait faiblement développée. A mi-chemin entre le mutualisme et le symbiotisme, nous ne pourrions vivre l’un sans l’autre (Hooper and Gordon, 2001; Backhed et al., 2005; Dethlefsen et al., 2007).

Les avancées technologiques récentes ont permis de redéfinir notre vision de cet organe oublié. Nous avons ainsi pu réévaluer l’importance de la biodiversité du microbiote intestinal humain (Suau et al., 1999; Eckburg et al., 2005) ainsi que l’impact fonctionnel sur notre bien-être et notre santé grâce à de nouvelles approches à l’interface entre l’écologie microbienne, génomique et post-génomique (Zoetendal et al., 2008).

Comme l’ensemble de nos organes, le microbiote intestinal est dynamique fonctionnellement et il s’adapte aux différents facteurs environnementaux de l’écosystème intestinal. Parmi ces facteurs abiotiques, notre alimentation joue un rôle majeur et peut modifier directement ou indirectement l’environnement gastro-intestinal. En effet, comme chez les ruminants, la subsistance du microbiote est assurée principalement par les résidus alimentaires, notamment par la fermentation des fibres alimentaires (Flint et al., 2007). Les maladies métaboliques comme l’obésité, où de fait l’alimentation est une problématique importante, ont aussi établi un lien de causalité avec le microbiote (Ley et al., 2005). Plus généralement, ce sont nos pratiques culturelles, nos styles de vie, nos modes alimentaires à l’échelle locale voire mondiale qui entreraient en jeu dans l’interaction entre le microbiote et la santé. C’est pourquoi, il devient essentiel de comprendre comment notre régime alimentaire modifie notre microbiote intestinal afin de connaître en retour son impact sur notre santé.


Diversité du microbiote intestinal humain

Détecter l’incultivable

À partir du milieu des années 1980, Carl Woese a révolutionné le domaine de la microbiologie grâce à des comparaisons phylogénétiques fondées sur les ARN ribosomaux délimitant les trois branches principales de la vie (Woese, 1979, 1987). Aujourd'hui, les analyses fondées sur le séquençage des ARNr[1] restent une méthode de microbiologie, utilisée non seulement pour étudier la diversité microbienne, mais aussi comme une méthode d'identification et de taxonomie moléculaire des bactéries au jour le jour (Amann et al., 1995). Enfin, la définition du phylotype (ou espèce détectée par outils moléculaires) sur la base de séquences codant pour le gène de l’ARNr 16S a été et demeure une norme pour les études de diversité des microorganismes.

En ce qui concerne le microbiote intestinal humain, les études basées sur l’inventaire moléculaire du gène codant pour la sous-unité 16S de l’ARN ribosomal ont montré que plus de 70 % des séquences étaient issues de bactéries non cultivées (Suau et al., 1999; Eckburg et al., 2005). Près des deux tiers étaient spécifiques de chaque individu. Etonnamment, bien que chacun possède un microbiote qui lui est propre, plus de 95% des séquences sont assignées seulement aux Firmicutes, Bacteroidetes, Actinobacteria et Proteobacteria. Les deux premiers phyla se partagent la grande majorité de l’écosystème (Suau et al., 1999; Eckburg et al., 2005).

Les Firmicutes

Le phylum des Firmicutes (bactéries à Gram[2] positif à faible G+C %) est toujours fortement représenté. Il représente en général les trois quarts des espèces détectées par séquençage et la moitié des bactéries du microbiote intestinal. La très grande majorité des espèces des Firmicutes appartient à la classe des Clostridii tandis que moins de 5 % sont membres des classes des Mollicutes et des Bacillii (Eckburg et al., 2005).

La majorité des Clostridii appartient au groupe Clostridiales XIV dit « Clostridium coccoides ». Il comprend des espèces bactériennes appartenant aux genres Eubacterium, Butyrovibrio, Roseburia, Dorea et Lachnospira. Avec d’autres outils moléculaires que le séquençage, ce groupe peut représenter jusqu’à 30 % des bactéries du microbiote intestinal (Sghir et al., 2000; Rigottier-Gois et al., 2003c). Le phylum des Firmicutes comprend également le groupe Clostridiales XV dit « Clostridium leptum », avec notamment les espèces Faecalibacterium prausnitzii, Ruminococcus albus et R. flavefaciens, qui dominent quant à elles très largement le microbiote quand on réalise du séquençage. Néanmoins, avec l’utilisation de sondes moléculaires spécifiques, ce groupe ne représenterait en moyenne que 22 % des bactéries du microbiote (Lay et al., 2004). Les autres Clostridii sont membres des groupes III, IV, IX (Acidaminococcaceae), XI, XIII, (Peptostreptococcus), XV, avec aussi d’autres phylotypes inclassables. (Eckburg et al., 2005)

Par ailleurs, si la taxonomie des grandes divisions semble faire consensus (i.e. phylum et classe), le classement des Clostridii en sous-groupes peut prêter à confusion. De plus en plus, les études utilisent le classement par famille pour illustrer la biodiversité du microbiote, où les Lachnospiraceae, Clostridiaceae et Ruminococacae dominent le phylum des Firmicutes (Frank et al., 2007). Ces changements de taxonomie sont liés à l’utilisation du séquençage, qui apporte une résolution plus importante par rapport aux anciennes classifications phénotypiques.

Les Bacteroidetes

Les Bacteroidetes représentent selon les études de 10 % à 40 % du microbiote, avec toutefois un nombre d’espèces détectées plus restreint comparé aux Firmicutes (Suau et al., 1999; Rigottier-Gois et al., 2003c; Eckburg et al., 2005). Les Bacteroidetes sont représentés par les espèces apparentées aux genres Bacteroides, Prevotella et Porphyromonas. Le tiers des séquences assignées au phylum Bacteroidetes est représenté par Bacteroides vulgatus. Le phylum des Bacteroides est très variable d’un individu à l’autre en termes d’abondance et de répartition des espèces, notamment dans le genre Prevotella (Eckburg et al., 2005). Même si par rapport aux Firmicutes, on dénombre moins de Bacteroides, il semble que leur activité métabolique soit très importante (Rigottier-Gois et al., 2003b).

Les Actinobacteries

Quelle que soit la méthode utilisée, le phylum Actinobacteria est moins systématiquement détecté en dominance chez les sujets adultes et représente en séquences moins de 1% des bactéries totales (Rigottier-Gois et al., 2003a; Eckburg et al., 2005). On y trouve les bifidobactéries et les bactéries du groupe Collinsella–Atopobium. Bien souvent, les espèces détectées forment des singletons, c'est-à-dire des espèces que l’on ne détecte qu’une seule fois par inventaire moléculaire (Eckburg et al., 2005).

Les Proteobacteries

Le phylum Proteobacteria est plus rarement observé dans le microbiote fécal dominant, si bien que l’espèce Escherichia coli est rarement détectée en dominance chez les individus (Eckburg et al., 2005).

Les études basées sur le séquençage du gène codant pour la sous-unité 16S du ribosome ont permis de décrire la diversité du microbiote avec une grande finesse. Les critiques de cette méthode sont liées au fait qu’il existe un nombre différent de copies de ce gène en fonction des espèces, et que certaines espèces peuvent être surestimées par rapport à d’autres. De plus, la diversité nucléotidique existant entre les paralogues questionne aussi cette approche. Néanmoins, la plupart des paralogues dans un génome ont une diversité inférieure à 1% (un nucléotide différent pour cent nucléotides comparés), ce qui rend possible l’utilisation d’un seuil de 2% pour séparer les espèces entre elles (Acinas et al., 2004). D’autre part, parmi les groupes dominants du microbiote intestinal, le nombre de paralogues par espèce est compris entre quatre et sept copies (4,14 en moyenne pour les Bacteroidetes et 6,3 copies en moyenne pour les Firmicutes d’après la base de données rrnDB[3]), ce qui conduirait à une surestimation des Firmicutes (Lee et al., 2009).

Homéostasie et dynamisme du microbiote

En plus de ces études instantanées chez l’adulte sain, il est nécessaire d’analyser la dynamique du microbiote sur le long terme pour comprendre les mécanismes qui entrent en jeu dans l’homéostasie intestinale. En outre, la biodiversité du microbiote diffère selon les individus, ce qui suggère des déplacements de l’équilibre implantation/déclin au cours du temps.

A l’échelle d’une vie

La composition du microbiote en dominance est d’une remarquable stabilité au cours d’une vie (Zoetendal et al., 1998; Matsuki et al., 2004). Zoedental et ses collègues ont montré avec des études électrophorétiques que les profils de migration n’ont pas changé sur une période de six mois. L’établissement du microbiote est un processus dynamique en plusieurs phases qui permet, si elles sont réalisées, l’émergence d’un microbiote stable contribuant à un système immunitaire pleinement fonctionnel.

Une étude a également montré, chez la souris, l’existence d’un possible passage de bactéries de la mère à sa progéniture in utero. Les bactéries identifiées dans le sang du cordon ombilical appartenaient aux genres Enterococcus, Streptococcus et Staphylococcus (Jimenez et al., 2005).

A compter de la naissance, l’implantation du microbiote chez les nouveaux-nés va s’effectuer très rapidement. La population « source »[4] du microbiote fécal, c'est-à-dire celle qui s’implante en premier, est composée principalement de bactéries anaérobies facultatives comme des entérobactéries, des bifidobactéries et des lactobacilles (Favier et al., 2002). Par ailleurs, des composants bactériens, voire des bactéries viables (Bifidobacterium) transitant par l’intermédiaire du lait maternel, permettraient d’éduquer le système immunitaire du bébé (Perez et al., 2007). Comparés à des enfants ayant eu du lait infantile, les enfants nourris au lait maternel auront une implantation tardive de Clostridium et de Bacteroides (Penders et al., 2006). Cette différence peut être expliquée par la présence de caséine, lactoferrine et défensine dans le lait maternel, mais également de substrats présents pour les bactéries.

Le mode de naissance, par voie vaginale ou par césarienne, peut impacter significativement la composition du microbiote intestinal du bébé. Par voie naturelle, le nourrisson est exposé d’abord au microbiote vaginal de la mère, tandis que par césarienne le nourrisson est exposé en premier lieu à l’air de son environnement. Chez ces derniers, ceci aura notamment pour conséquence une implantation plus tardive des espèces apparentées au genre Bacteroides.

Néanmoins, dans tous les cas, dès la diversification alimentaire, les deux principaux phyla Bacteroidetes et Firmicutes surpassent en nombre ainsi qu’en diversité les Actinobacteria et les Proteobacteria implantés précédemment. Les études divergent sur le moment (d’une à quatre années) où le microbiote intestinal du nourrisson peut être considéré comme celui de l’adulte (Tannock, 2007). La mise en place du microbiote s’accompagne aussi de changements métaboliques. En effet, alors que les capacités fermentaires du microbiote conduisent à une production de lactate et d’acétate pendant les premiers mois de la vie, les concentrations de butyrate et de propionate deviennent dominantes et stables dès la deuxième année de la vie.

Quel que soit le processus d’implantation du microbiote, une homéostasie s’installe, mais d’autres études seront nécessaires pour connaître les effets de ce processus sur le long terme dans l’éducation du système immunitaire. C’est peut-être cette fenêtre particulièrement « ouverte », au moment de l’implantation du microbiote, qui offre une opportunité de prévenir des maladies immunitaires (Ley et al., 2006a). Même si la composition du microbiote varie entre les individus, les populations bactériennes dominantes restent relativement stables chez l’adulte sain (Zoetendal et al., 1998).

Alors qu’un nombre important d’études a été effectué sur le microbiote intestinal des bébés et des adultes, les effets du vieillissement sur le microbiote sont mal caractérisés. La population « puits »[5] des bifidobactéries décline chez les personnes âgées au profit des entérobactéries et des clostridii (van Tongeren et al., 2005; Woodmansey, 2007). Parallèlement, la diversité des bifidobacteries décroît et se limite à deux espèces : Bifidobacterium longum et Bifidobacterium adolescentis. Cette chute de bifidobactéries peut avoir des conséquences sur la santé des personnes âgées tant les bifidobactéries sont impliquées dans le métabolisme du microbiote et la stimulation du système immunitaire.

De plus, une baisse des Bacteroides a également été montrée chez des personnes âgées, contribuant à des changements significatifs dans le ratio Firmicutes/Bacteroidetes (Mariat et al., 2009). Les Bacteroides possédant des facultés à dégrader les polyosides et à produire des acides gras à chaîne courte (AGCC), leur chute peut impacter la digestion et la capture d’énergie. Les changements de composition du microbiote peuvent être dus à une altération partielle du tractus intestinal et peuvent être à l’origine de la malnutrition des personnes âgées (Guigoz et al., 2008).

A l’échelle de l’évolution

Alors qu’il existe plus d’une cinquantaine de phyla dans le monde bactérien (Handelsman, 2004), comparée au métagénome du sol et des océans, la dominance de quatre phyla chez tous les individus suppose que de fortes contraintes entrent en jeu dans le façonnage du microbiote intestinal. De plus, les espèces observées ont le plus souvent une spécificité humaine, et dans tous les cas, elles sont associées à l’environnement digestif de façon quasi exclusive. Cela indique des phénomènes de coévolution avec l’hôte (Ley et al., 2006a).

D’un autre point de vue, lorsque l’on regarde ces phénomènes de coévolution à l’échelle d’une vie ou de deux générations, les études basées sur le génotype de l’hôte et la transmission verticale du microbiote des parents aux descendants représentent un facteur de confusion. Une étude basée sur des empreintes ADN du microbiote intestinal montre que les jumeaux ont un microbiote plus similaire entre eux que leurs conjoints respectifs (Zoetendal et al., 2001b). Les similitudes observées entre les communautés intestinales des jumeaux monozygotes peuvent être interprétées comme un effet du génotype sur la diversité bactérienne. En réalité, à ce niveau d’observation, une autre explication tient au fait que ces similitudes sont dues à la colonisation par une mère partagée. Ainsi, lorsque l’on regarde les microbiotes des jumeaux dizygotes comparés à des jumeaux monozygotes, ils se ressemblent tout autant (Ley et al., 2006a; Turnbaugh et al., 2009). Par ailleurs, l’utilisation de souris axéniques ayant des génotypes différents a permis de montrer qu’il n’y avait pas de différence dans l’expression transcriptomique de Bacteroides thetaiotaomicron (Sonnenburg et al., 2006).

L’observation de phyla majeurs du microbiote intestinal nous renseigne en fait sur la mise en place lointaine, du fait des mécanismes de mutations/sélections, de capacités fonctionnelles à coloniser un écosystème anaérobie, soumis à des pressions chimiques comme les sels biliaires, et physiques tel que le péristaltisme par exemple. Autrement dit : coloniser « un intestin » en caricaturant, qu’il soit humain ou de mammifère monogastrique. C’est pour cela que l’on retrouve chez tous les mammifères, en proportions variables, les deux principaux phyla que sont les Bacteroidetes et les Firmicutes, et seulement ces deux-là, comparés à toute la diversité des microorganismes de la planète (Ley et al., 2008).

D’autre part, ces contraintes, du point de vue de la coévolution, forment des forces de convergence entraînant la radiation de quelques phylotypes dominants (Ley et al., 2006b), ces derniers formant un arbre phylogénétique semblable à un bambou (Yang et al., 2009). Ces forces écologiques et d’évolution sont longitudinales et s’opposent à d’autres forces « latérales » qui provoquent le buissonnement de l’arbre phylogénétique. En effet, un contraste est observé entre la grande diversité de souches et d’espèces détectées, au regard de seulement quelques grands groupes bactériens. Cette évolution buissonnante témoigne de la présence de genres et d’espèces qui coexistent. Cette coexistence peut s’expliquer par l’intermédiaire des chaînes trophiques, mais aussi par la présence d’échanges génétiques entre les taxons.

Par ailleurs, ce schéma mêlant variations génétiques élevées au niveau de la souche et lignées profondes, a également été observé dans le microbiote intestinal murin (Ley et al., 2005). Peu profondes, ces larges radiations sont le résultat d’une pression de sélection extrême suivie d’une détente (Figure 1). De même, l'architecture phylogénétique de l'intestin pourrait avoir résulté de la diversification d'une communauté initiale limitée en souches, issue par exemple d’un goulot d'étranglement. En outre, la faible profondeur phylogénétique de la communauté intestinale peut être due à la récente existence d’un habitat que constituerait l'intestin des mammifères  (Dethlefsen et al., 2007).

Cette architecture phylogénétique peut être la signature de la fonctionnalité de l'écosystème intestinal. Ainsi, cela laisse penser qu’il existe sur le plan fonctionnel une interchangeabilité entre espèces avec une structure en guilde[6] (Tschop et al., 2009). Ces guildes partageraient au sein de l’écosystème intestinal une niche écologique commune afin d’y remplir les même fonctions requises par l’hôte. Par ailleurs, ces structures en guilde peuvent être le résultat de la concurrence entre les phylotypes faisant partie d’un même « buisson ». C’est cette forme d’architecture, que l’on pourrait qualifier d’eubiose, qui permettrait d’assurer l’homéostasie de l’écosystème intestinal.

Figure 1 : Conséquence des forces de l’évolution sur la topologie des arbres phylogénétiques. Lorsque que l’on représente les inventaires moléculaires basés sur la séquence de l’ARNr 16S par un dendrogramme, (a) la diversité microbienne associée aux mammifères ressemble à la structure d’un bambou avec des lignées profondes suivies d’un accroissement exponentiel de phylotypes génétiquement proches illustrés avec plusieurs feuilles en haut de l’arbre. Cela témoigne de mécanismes récents de balayages sélectifs suivis d’une détente. Ceci s’oppose à un taux constant de renouvellement et d’extinction (b), où la diversité microbienne, associée par exemple à des écosystèmes marins ou de sols, ressemble à un arbre où beaucoup de lignées partent de la racine (Martin, 2002; Dethlefsen et al., 2007).

Altération du microbiote

Chaque cellule microbienne est sous une extrême pression de sélection dans l’intestin. Cette pression de sélection permet de fixer des fonctionnalités critiques pour l’hôte, comme l’extraction d’énergie à partir des polyosides ou bien la protection contre les pathogènes. Ces fonctionnalités sont redondantes et sont liées à la robustesse de l’eubiose intestinale.

Par antonymie à l’eubiose, une dysbiose de l’écosystème intestinal serait non seulement associée à des désordres intestinaux mais aussi à des maladies telles que l’obésité (Ley et al., 2005; Turnbaugh et al., 2006), les maladies inflammatoires chroniques intestinales comme la maladie de Crohn (Swidsinski et al., 2002; Manichanh et al., 2006; Frank et al., 2007; Vasquez et al., 2007), les allergies (Macdonald and Monteleone, 2005; Penders et al., 2007b; Penders et al., 2007a) et le cancer colo-rectal (Moore, 1995 ; McGarr, 2005).

D’une manière générale, un écosystème fragilisé par un changement fonctionnel est en dysbiose. Au niveau de l’écosystème intestinal, cette dysbiose peut être expliquée par plusieurs points. Tout d’abord, la nécessité de la présence d’espèces « clé de voûte » pour maintenir le système stable et expliquer cette redondance fonctionnelle partagée par tous les individus. Lorsque l’une serait balayée par des facteurs exogènes comme des substrats issus de l’alimentation ou bien par des facteurs endogènes comme un système immunitaire défaillant, l’écosystème en serait durablement perturbé, entraînant ainsi des maladies. Par opposition à cette hypothèse, l’équipe de J. L. Gordon pense que l’existence d’une redondance fonctionnelle même dissipe la nécessité de telles espèces clés (Ley et al., 2006a; Turnbaugh et al., 2009). En effet, l’absence de l’une d’elles rendrait le système trop fragile et sensible à l’environnement extérieur. D’autre part, la présence facultative de telles espèces s’expliquerait par la présence partagée de familles de gènes dans chacun des génomes des bactéries intestinales.

La dysbiose peut également être expliquée par ce qui constitue la première ligne de dialogue avec notre microbiote, c'est-à-dire le système immunitaire. Le système immunitaire est le premier outil de sélection directe par l’hôte. Bien que le microbiote soit impliqué dans des maladies inflammatoires, aucune espèce seule n’a été jugée totalement responsable. En fait, plusieurs observations démontrent que le système immunitaire répond à un large éventail de marqueurs bactériens. Une étude sur le transcriptome murin démontre que ce sont les gènes impliqués dans le système immunitaire qui sont les plus régulés en présence du microbiote (Mutch et al., 2004). De plus, il a été démontré que Bateroides fragilis était capable, par l’intermédiaire de ses polyosides capsulaires, de stimuler une large variété de lymphocytes T (Mazmanian et al., 2005).

La dysbiose peut être aussi caractérisée par un bouleversement complet de l’écosystème ou une mauvaise combinaison de l’abondance et de la diversité d’un groupe bactérien vis-à-vis d’un autre. En effet, chez les patients atteints de la maladie de Crohn, une étude a montré que le groupe « Clostridium leptum » était fortement réduit, aussi bien en diversité qu’en abondance (Manichanh et al., 2006). Dans un autre contexte, l’augmentation des Bacteroides et la chute des Firmicutes s’accompagneraient d’une faculté du microbiote à stocker plus facilement l’énergie apportée par l’alimentation, ce qui constituerait un facteur de risque pour l’obésité (Backhed et al., 2004; Ley et al., 2006b).

Jusqu’à maintenant, bien que la dysbiose relève d’un changement fonctionnel de l’écosystème, les études sur le microbiote ont constaté cette dysbiose du seul point de vue phylogénétique. Les fonctions d’un écosystème n’étant pas liées spécifiquement aux espèces, il est nécessaire de réaliser des études fonctionnelles de l’écosystème. Bien qu’il soit difficile de définir le sens de la causalité, il est aussi nécessaire d’étudier la dynamique du microbiote pour réaliser des approches métagénomiques intégrées. L’objectif serait dès lors de refaçonner le microbiote avec par exemple une alimentation contrôlée.


Les approches métagénomique et post-métagénomique

Génome, métagénome et communauté bactérienne

Un génome est la totalité de l'information génétique d'un organisme unique que l’on peut représenter comme une population statistique de gènes. Entre autres, le génome permet aussi de définir une liste de protéines. Comparé à l’ensemble des génomes d’une communauté microbienne, un génome est relativement statique, ce qui rend possible la mise en œuvre d’études comparatives post-génomiques comme la transcriptomique et la protéomique. Une liste de protéines ou d'ARN messagers peut définir un organisme. La transcriptomique et la protéomique permettent d'avoir un point de vue très lié au potentiel fonctionnel d'un organisme.

Un métagénome est la totalité de l'information génétique d'une communauté d'organismes (Handelsman, 2004). Néanmoins, dans le cadre d’une étude d’un écosystème complexe, on ne peut avoir accès à la totalité d'un métagénome. Par conséquent, contrairement à la séquence d’un génome entier, des séquences issues d’une analyse métagénomique ne fournissent pas une population statistique de gènes mais seulement un échantillon. Du fait de la dynamique et de la variation d’une communauté microbienne, il est difficile de mettre en place un référentiel absolu qui permettrait la mise en application d’études comparatives semblables à la post-génomique. Pour l’instant, les études actuelles se limitent à traiter les séquences issues de métagénomique comme une population, avec des outils développés pour la post-génomique (puces à ADN ou interrogation de bases de données issues de la génomique). Les études post-métagénomiques, appelées également « microbiomique »[7], imposent dès lors de nouvelles contraintes qu’il est nécessaire de surmonter.

Du point de vue métagénome, une communauté microbienne peut être définie comme une liste d'organismes et plusieurs stratégies peuvent en découler, comme par exemple la comparaison de communautés. Par ailleurs, la comparaison de communautés est encore effectuée en comparant les séquences du gène ARNr 16S. Selon Schloss (Schloss et al., 2004; Schloss and Handelsman, 2008), il serait utile de s'inspirer de toute cette expérience développée en terme de techniques statistiques et d’intégration des données pour étudier et comparer des échantillons de métagénomes. En outre, en plus de considérer une communauté du point de vue de ses organismes, les analyses centrées sur les gènes considèrent une communauté comme une liste de gènes. Les gènes que l'on trouve plus fréquemment dans une communauté sont supposés conférer une fonction bénéfique sur cette communauté (Tringe et al., 2005). La différence entre ces analyses est que les séquences de gènes codant pour l’ARNr 16S sont fonction de la phylogénie tandis que les gènes peuvent être reliés en fonction des voies métaboliques dans lesquelles ils sont impliqués.

Figure 2 : Dynamique génomique d'une communauté bactérienne. L’écosystème ainsi que la communauté de cet écosystème influent sur la diversité génomique d’une espèce bactérienne. Pour cette raison, un génome d’une souche ne peut pas représenter la diversité pan-génomique d’une espèce bactérienne. Cela explique que des communautés ayant des profils d’organismes similaires ne possèdent pas le même potentiel fonctionnel (Medini et al., 2008).

Avec le séquençage haut débit, une communauté peut être caractérisée par une liste de protéines potentiellement présentes et/ou de gènes transcrits, donnant un aperçu du potentiel fonctionnel de cette communauté. Deux communautés ayant des profils d'organismes similaires peuvent avoir différents potentiels fonctionnels. Par opposition, deux communautés avec le même inventaire de protéines peuvent être très différentes au niveau des organismes. En réalité, les génomes microbiens sont dynamiques et de nombreux mécanismes d'échange d'ADN impactent leur contenu génétique (Figure 2). Chaque espèce ne peut être représentée par un seul génome tant son pan-génome peut être influencé par la pression du microbiome. En effet, le pan-génome décrit la gamme complète de gènes dans une espèce. Il s’agit de l’ensemble de tous les gènes de toutes les souches d’une espèce. Il comprend le génome indispensable à l’espèce, contenu dans toutes les souches, et le génome « dispensable » spécifique de quelques souches (Medini et al., 2005). Ce dernier est très dynamique et est soumis à des mécanismes tels que la recombinaison, la duplication de gènes et l’acquisition de gènes par transferts latéraux inter-espèces. L'importance du pan-génome se pose dans un contexte évolutif, en particulier en rapport avec la métagénomique. Dès lors, en plus de la génomique et de l’écologie microbienne, la métagénomique doit aussi intégrer la pan-génomique.

La métagénomique descriptive et intégrative.

La métagénomique est une méthode qui résulte de l’association de l’écologie des communautés et de la génomique. Cela se traduit par l’étude du matériel génétique collecté directement à partir d'échantillons environnementaux (Handelsman, 2004). Alors que la microbiologie traditionnelle et le séquençage de génomes microbiens s’appuient sur des cultures clonales cultivées, la métagénomique permet d’accéder aux organismes difficiles à isoler et à cultiver. Néanmoins, les communautés sont si complexes dans le microbiome[8] intestinal qu’elles ne peuvent qu’être échantillonnées et donc jamais complètement caractérisées. Pouvoir caractériser la biodiversité et le fonctionnement d’une communauté microbienne dépend en grande partie du plan et de l’analyse de l’expérience (Voir la partie « Techniques et méthodes d’analyse », page 36).

Les premières analyses métagénomiques se sont focalisées sur la variété de nouvelles espèces et la communauté formée par celles-ci (Gill et al., 2006). La métagénomique descriptive fournit une vue relativement non biaisée non seulement de la structure d’une communauté,  avec son abondance et sa distribution d’espèces, mais aussi de ses fonctions métaboliques potentielles. Par la suite, la métagénomique est devenue « intégrative » en cherchant à identifier un changement fonctionnel microbien en fonction d’un changement de l’environnement (Kurokawa et al., 2007).

L'écologie microbienne se concentre sur les interactions entre les microorganismes et leurs hôtes eucaryotes, sur la compétition et la communication entre microorganismes et sur l’acquisition des substances nutritives, ainsi que sur la production d'énergie (Hugenholtz and Tyson, 2008). Au niveau du tractus gastro-intestinal, l’objectif majeur est d’observer comment les changements fonctionnels impactent la santé humaine.

Par ailleurs, il a été montré que le potentiel fonctionnel d’un microbiote était fonction de son environnement (Tringe et al., 2005). Cependant, il est encore difficile de relier des conditions environnementales distinctes avec des processus biologiques spécifiques. Ainsi, le défi majeur consiste à savoir comment l'utilisation de réseaux métaboliques spécifiques reflète l'adaptation de communautés microbiennes à travers des environnements et des habitats (Gianoulis et al., 2009). De plus, l’assignation phylogénétique d’une séquence, qui est importante en vue de relier la fonction à une espèce, demeure très complexe. Par ailleurs, la composition phylogénétique détectée est impactée par la stratégie d’échantillonnage, et la composition fonctionnelle observée dépend du nombre et de la longueur des séquences obtenues (Voir la partie « Séquençage haut débit », page 40).

Figure 3 : Intersection de la génomique, de l’écologie et de la métagénomique. Chaque discipline fait le lien entre chaque grande aire d’étude (les gènes, l’organisme et sa communauté). Un effort supplémentaire sera nécessaire pour réaliser la synthèse totale des trois disciplines. (DeLong, 2009).

Malgré ces difficultés, près des trois quarts d’un métagénome peuvent être assignés à une fonction grâce aux stratégies de comparaison sur des bases de référence, et une majorité de gènes peut être assignée à un groupe phylogénétique grâce aux nombreux programmes de séquençage de souches bactériennes cultivées. Après avoir défini cette liste de microorganismes et de fonctions, les outils de bioinformatique devront standardiser l’information obtenue pour réaliser des comparaisons avec d’autres métagénomes (Raes et al., 2007; Field et al., 2008). La standardisation des données participera à l’intégration de l’écologie, la génomique et la métagénomique (Figure 3).

Néanmoins, l'écart entre les protéines bien caractérisées et les protéines détectées dans les métagénomes se creuse à un rythme alarmant. En parallèle des ressources informatiques dont les besoins augmentent exponentiellement, l’accumulation de gènes non caractérisés est susceptible d'être le principal goulet d'étranglement à l’avenir. Cela signifie que notre compréhension des écosystèmes microbiens sera partielle et basée au mieux sur ce que nous pouvons déduire de nos connaissances actuelles de la biochimie (Hugenholtz and Tyson, 2008). Les futures perspectives de la métagénomique seront peut-être la prédiction de changements  fonctionnels et structuraux. Après l'intégration : la prédiction?

Les fonctions du microbiote intestinal révélées par la métagénomique

L’équipe de J. L. Gordon, qui a obtenu près de 78 mégabases (Mb) de séquences métagénomiques  des microbiotes intestinaux de deux adultes sains, a comparé l’ensemble des gènes annotés de ces microbiotes intestinaux avec les gènes humains. Cette étude a permis d’identifier un nombre important de gènes bactériens qui ne sont pas codés dans le génome humain (Gill et al., 2006).

Les fonctions codées par ces gènes contribuent largement au métabolisme des glycanes, des acides aminés, des xénobiotiques, et à la biosynthèse des vitamines et des isoprénoïdes, processus indispensables à l’homme. Ces résultats révèlent une relation symbiotique entre le microbiote intestinal et son hôte, appuyant le concept du « super-organisme » et la théorie de l’hologénome[9] (Zilber-Rosenberg and Rosenberg, 2008).

 Ensuite, l’équipe de Kurokawa a analysé 13 microbiotes intestinaux comprenant cette fois-ci des adultes, des enfants et des nourrissons non sevrés. Cette étude a permis d’obtenir 479 Mb de séquences métagénomiques (Kurokawa et al., 2007). Etonnamment, plus de la moitié (jusqu'à 90%) des séquences métagénomiques ont été assemblées pour former de longs fragments de séquences dans chaque échantillon, ce qui contraste fortement avec le microbiote du sol dans lequel seulement 1% des séquences a pu être assemblé (Rondon et al., 2000; Tringe et al., 2005).

Ces résultats suggèrent qu’avec environ 50 Mb de données de séquençage en méthode Sanger pour chaque échantillon, on pourrait couvrir à la fois les fonctions et les espèces les plus redondantes du microbiote intestinal. Si l’on considère qu’un génome bactérien possède une taille moyenne de quatre Mb, alors on aurait l’équivalent métagénome d’une dizaine d’espèces (Kurokawa et al., 2007). Par conséquent, afin d’étudier des fonctions moins représentées et des espèces moins abondantes, il faudra produire un nombre de séquences d’un ordre de grandeur plus important (Figure 4).

Figure 4 : métagénomique et complexité de l’assemblage en fonction de l’environnement. Divers habitats (microbiomes) ont été étudiés jusqu’à présent. Chaque microbiome possède une diversité et une complexité d’espèces différentes. Plus cette complexité est croissante plus il est difficile d’assembler des génomes entiers. Les efforts d’échantillonnage peuvent différer d’un facteur dix d’un écosystème à un autre. Avec plus de 1000 espèces par individu le microbiote intestinal humain est un écosystème complexe, où il est difficile d’assembler de grands fragments génomiques.

Cette étude a également trouvé 647 familles de gènes spécifiquement enrichies dans le microbiote intestinal, en comparaison avec des gènes présents dans les données métagénomiques d’autres échantillons environnementaux, comme la surface de la mer, la mer profonde et le sol. Ce résultat fut confirmé par une autre méta-analyse des données basée sur les voies métaboliques (Turnbaugh et al., 2007).

Ces gènes ont été assignés respectivement à 237 et 136 groupes de gènes orthologues (COG) pour les microbiotes d’adultes et de nourrissons et partagent 58 COGs pour un total de 315 COGs. Dans les 315 COGs, les fonctions associées aux métabolismes glucidiques sont particulièrement enrichies, mais les répertoires fonctionnels diffèrent nettement entre les adultes et les nourrissons non sevrés. Le microbiote des adultes est riche en enzymes dégradant les polyosides tandis que celui des nourrissons est riche en transporteurs de sucre. Ces données indiquent que la fonctionnalité de l'écologie microbienne intestinale chez un hôte sain repose largement sur les éléments nutritifs disponibles dans l'alimentation. Par ailleurs, comme attendu, chez les adultes les séquences obtenues sont assignées aux Bacteroides, tandis que celles obtenues chez les nourrissons sont assignées aux Bifides et Lactobacilles (Kurokawa et al., 2007).

Par la suite, l’équipe de J.L. Gordon a réalisé l’analyse d’échantillons provenant de 154 individus, conduisant à près de deux millions de séquences codant pour l’ARNr 16S et plus de deux Gigabases (Gb) de métagénome intestinal. Parmi ces individus se trouvaient des jumeaux monozygotes et dizygotes, discordants ou concordants pour l’obésité, ainsi que leur mère. Les résultats révèlent que le microbiote intestinal humain est partagé par les membres d’une même famille, mais que chaque communauté microbienne fluctue en fonction des lignées bactériennes avec un degré de variation comparable entre jumeaux monozygotes et jumeaux dizygotes. Cependant, un large éventail de gènes microbiens est partagé entre les échantillons des individus, comprenant un noyau fonctionnel très étendu. L’obésité est associée à des changements au niveau du phylum, à une réduction au niveau de la diversité bactérienne, et à une altération dans la représentation de certains gènes et de certaines voies métaboliques. La majorité des gènes surreprésentés chez les obèses est assignée aux Actinobactéries (75%) et aux Firmicutes (25%), tandis que chez les sujets sains les gènes prédominants sont assignés aux Bacteroidetes. Ce noyau fonctionnel constitué de gènes partagés par tous les individus sains serait altéré dans le cadre de pathologies comme l’obésité (Turnbaugh et al., 2009).

Ce noyau fonctionnel serait constitué essentiellement de gènes liés à des fonctions métaboliques comme par exemple le métabolisme des hydrates de carbone, des glycanes et des acides aminés. Les gènes les plus variables se retrouvent dans les voies impliquées dans la signalisation et le transport membranaire. Ainsi, les fonctions partagées par tous les individus seraient liées à l’alimentation, tandis que les fonctions de dialogue membranaire seraient plus spécifiques de l’individu.

 


Nutrition, microbiote et santé

Influence du régime alimentaire

Le régime alimentaire est un sujet d'intérêt très important dans les programmes de recherche internationaux en raison de son potentiel de modulation du microbiote intestinal de l'hôte, qu'il soit bénéfique ou néfaste. Les habitudes alimentaires ont un impact important sur la composition du microbiote intestinal, notamment dans les premières années de la vie. Par exemple, la composition du microbiote fécal diffère entre les enfants ayant eu une alimentation par allaitement maternel et ceux ayant eu du lait infantile[10], avec notamment plus de bactéries lactiques et de bifidobactéries chez les bébés allaités.

Tableau 1 : Substrats fermentescibles arrivant dans le côlon (Egert et al., 2006)

Substrats

 Composante

 apport (g/jour)

Glucides

Amidon résistant

5 – 35

Polyosides non-digestibles

10 – 25

Oligosaccharides (i.e. fructo-oligosaccharides, inuline)

2 – 8

Monosaccharides (i.e.. sucres, alcool)

2 – 5

Mucines

3 – 5

Protéines

Provenant de l’alimentation

1 – 12

Origine endogène (i.e. enzymes pancréatiques et autres sécrétions)

4 – 8

Cellules épithéliales desquamées

30 – 50

Autres

Urée, nitrate

~ 0,5

Acides organiques, lipides, composés bactériens

inconnu

 

Cependant, lorsque des régimes plus complexes sont comparés par des approches de culture in vitro, comme par exemple le régime à l'occidentale dit « western diet », plus riche en graisses, et le régime à l'orientale plus riche en fibres, peu de genres bactériens du microbiote intestinal varient. De même, seules quelques différences sont observées entre la composition bactérienne de sujets omnivores et celle de végétariens (Aries et al, 1971).

D’autres études au niveau du côlon distal ont montré des profils de production d’AGCC différents entre les végétariens et les omnivores. Néanmoins à ce niveau, ces différences témoignent plus d'un changement fonctionnel que d'un changement dans la composition du microbiote (Peltonen et al., 1992). Il semble en réalité que le régime alimentaire puisse apporter des changements importants et durables dans la composition du microbiote, davantage au niveau de l'iléon que du côlon, bien que cette supposition s’appuie sur des patients iléostomisés (Booijink et al., 2007).

Dans le cadre des maladies métaboliques, il a été montré que le régime pouvait influer sur l'abondance de grandes divisions bactériennes du microbiote intestinal. Des patients obèses qui ont subi soit un régime restreint en graisses soit un régime restreint en sucres pendant une année ont montré une augmentation prononcée des Bacteroidetes accompagnée d’une chute des Firmicutes (Ley et al., 2006). Cependant, le lien entre ce rapport Firmicutes/Bacteroidetes et l’obésité n'a pas été redémontré dans les études qui ont suivi (Duncan et al., 2008; Schwiertz et al., 2009).

Une autre étude a constaté que les souriceaux avaient classiquement un corps constitué de 40 % de matières grasses en plus, et 47 % de matières grasses gonadiques en plus que les souris sans germe, même s’ils consommaient moins de nourriture que leurs homologues sans germe. Le microbiote du côlon distal de la souris normale a ensuite été transplanté dans les souris sans germe, produisant une augmentation de 60 % de gras corporel dans les deux semaines, sans aucune augmentation de la consommation d'aliments ni de différences évidentes dans les dépenses d'énergie. Ce résultat confirme l'hypothèse que le microbiote intestinal module la quantité d'énergie extraite de l'alimentation. L'augmentation de la masse grasse a été accompagnée d’une résistance à l'insuline, d’une hypertrophie des adipocytes, et d’un niveau accru de diffusion de la leptine et du glucose (Backhed et al., 2004).

Pour élucider les mécanismes potentiels sous-jacents, ces chercheurs ont montré que le microbiote favorisait l'absorption des monosaccharides dans l'intestin et induisait la lipogenèse hépatique chez l'hôte. Enfin, par l'utilisation de souris génétiquement modifiées pour le facteur adipocytaire FIAF, ils ont démontré que le microbiote intestinal pouvait inhiber le facteur FIAF, également connu comme étant une angiopoïétine de type IV. FIAF inhibe l'activité de la lipoprotéine lipase, qui catalyse la libération d'acides gras à partir de lipoprotéines associées aux triglycérides, qui sont ensuite repris par le muscle et le tissu adipeux. Dans l'étude, la protéine FIAF a entraîné la suppression de l'activité de la lipoprotéine lipase dans les adipocytes et le stockage des calories sous forme de graisse, entraînant l’équipe de J. L. Gordon à postuler que la régulation énergétique par le microbiote intestinal se fait par un certain nombre de mécanismes interdépendants. Ces mécanismes comprennent la fermentation bactérienne des polyosides non-digestibles, l'absorption intestinale des monosaccharides et des AGCC convertis ultérieurement en graisse dans le foie, ainsi que la régulation des gènes de l'hôte favorisant le dépôt de graisses dans les adipocytes (Backhed et al., 2004).

L’apport en fibres alimentaires peut engendrer un bénéfice aux individus ayant des syndromes métaboliques et des désordres gastro-intestinaux très variés. Les avantages d’une prise importante de fibres ont été reportés chez des patients atteints de diabète, d’hypercholestérolémie, d’hypertriglycéridémie, d’obésité ou bien d’hypertension (Anderson, 1986). Il a également été rapporté que les individus ayant un apport important en fibres sont moins sensibles au développement des maladies cardio-vasculaires ou du cancer du côlon (Lupton et al., 1985; Jacobs, 1986).

De même, les régimes avec un apport important en graisses et en protéines, mais de faible teneur en fibres, sont associés à un risque plus important de développer un cancer du côlon, contrairement aux régimes végétariens ou orientaux ayant des apports en fibres plus importants (Hayashi et al., 2002a). De plus, des Japonais qui adopteraient un régime à l'occidentale développeraient plus fréquemment des cancers du côlon (Finegold et al., 1974). Enfin, la production d’AGCC contribue à la prévention du cancer colo-rectal (McIntyre et al., 1993; Pryde et al., 2002).

L'impact du régime alimentaire sur la structure du microbiote n'est pas clair, et les conclusions peuvent différer d'une étude à l'autre, notamment dans le cadre de maladies métaboliques comme l’obésité. Cependant, il semble que la composante « fibre » du régime, qui fut l'objet de nombreuses comparaisons aussi bien du point de vue du microbiote que des désordres gastro-intestinaux, puisse avoir un impact sur la santé. Si son implication dans la structure du microbiote n'est pas totalement établie, c'est peut-être dans le potentiel fonctionnel du microbiote intestinal qu'il faut chercher à établir des relations claires avec l'hôte.

Les fibres alimentaires

Les fibres alimentaires peuvent être définies comme étant les polyosides des plantes et les lignines résistant aux enzymes digestives humaines. Les fibres alimentaires ne sont pas digérées dans l'intestin grêle et par conséquent entrent dans le côlon en grande partie non-dégradées. Le seul polyoside des plantes connu comme partiellement hydrolysable par les enzymes humaines est l’amidon. Les lignines sont en fait peu présentes dans l’alimentation humaine. La lignine n’est pas un glucide mais un polymère de phényl-propane et possède des propriétés différentes des polyosides non-amylacés. C’est pourquoi par la suite, les fibres alimentaires que nous considèrerons seront composées de polyosides non-amylacés et de l’amidon résistant à l’hydrolyse de l’α-amylase humaine. Chimiquement, les fibres alimentaires se composent de polyosides non-amylacés, comme la cellulose et bien d'autres composants non-cellulosique tels que les dextrines, l'inuline, les cires, les chitines, les pectines, les bêta-glucanes et les oligosaccharides. Les fibres sont par conséquent une mixture hétérogène aussi bien chimiquement que physiquement et il est difficile de réaliser une généralité au niveau de leurs effets sur l’intestin humain.

Les fibres alimentaires peuvent être solubles dans l’eau ou insoluble. Les fibres solubles, d’ailleurs comme l’ensemble des fibres, ne peuvent pas être digérées (ou en partie seulement pour l’amidon) par les enzymes de l’hôte. Toutefois, lors de leur passage dans le tube digestif, une grande partie est rapidement fermentée par le microbiote intestinal. Le produit de la fermentation des bactéries est alors absorbable sous forme d’AGCC. Les fibres solubles absorbent l'eau pour devenir une substance gélatineuse pendant le transit intestinal.

Quant aux fibres insolubles, elles transitent dans le tractus intestinal tout en restant en grande partie inchangées. Par exemple, une étude a montré que le taux de dégradation de la cellulose est plus faible (15 à 25 %) que celui des polyosides non-cellulosiques (70 à 95 %). La digestibilité de la cellulose peut différer en fonction de son type et des autres fibres composant le régime (Cumming et al, 1980).

Par corollaire, il est aussi possible que les fibres alimentaires affectent en retour les bactéries en changeant leurs activités métaboliques ainsi que leur abondance dans le microbiote intestinal. Connaître l’impact de l’apport en fibres alimentaires sur le microbiote est important car les activités de ce dernier déterminent en grande partie l’environnement physicochimique du système gastro-intestinal.

La fermentation des fibres alimentaires

L’activité métabolique des bactéries concernées est ici essentiellement celle impliquée dans la fermentation des fibres. Le processus de fermentation est le résultat des actions concertées des espèces présentes dans le microbiote intestinal. La biochimie de cette fermentation essentiellement anaérobie est complexe. Ces larges polymères sont hydrolysés en unités monomériques comme le glucose, le galactose, le xylose, l’arabinose et les acides uroniques.

Via la glycolyse, ces monomères vont être hydrolysés en pyruvate. A partir du pyruvate, plusieurs réactions vont entrer en jeu et vont dépendre des espèces bactériennes présentes. Quelques produits intermédiaires peuvent être trouvés incluant l’éthanol, le méthanol, le formate, le lactate et le succinate. Néanmoins, ceux-ci vont être très rapidement utilisés pour produire des AGCC tels que l’acétate, le propionate et le butyrate, éventuellement accompagnés de gaz tels que l’hydrogène, le dioxyde de carbone et le méthane. La présence d’archées méthanogènes comme Methanobrevibacter smithii peut induire la réduction du dioxyde de carbone en méthane en utilisant le dihydrogène.

Les proportions relatives en moles des trois principaux AGCC sont approximativement 60 : 25 : 15 (acétate : propionate : butyrate). Tandis que l’abondance en AGCC augmente en fonction de l’apport en fibres alimentaires, leur proportion relative reste stable.

Après toutes ces considérations, une question demeure : un impact éventuel dû aux fibres alimentaires sur la structure du microbiote peut-il avoir un effet significatif sur l’hôte, notamment du point de vue des syndromes métaboliques ou bien des désordres gastro-intestinaux ?

Pour répondre à cette question, il faut d’abord être certain que les fibres peuvent avoir un impact sur le microbiote, aussi bien au niveau de sa composition que de ses activités métaboliques. Dans les années 1970, plusieurs études ont démontré un effet des fibres sur l’accroissement de la quantité totale des bactéries du microbiote, mais pas sur sa composition. Cependant, les techniques étant basées seulement sur la culture, bien qu’en anaérobiose, elles entraînent tout de même un biais important dans l’analyse car plus de 80 % du microbiote intestinal est incultivable ou incultivé (Suau et al., 1999; Hayashi et al., 2002b).

Peut-être faut-il seulement s’axer sur les activités métaboliques du microbiote et outrepasser l’importance d’énumérer les espèces du microbiote ? Il est vrai que bien des espèces, comme celles faisant partie de la même guilde fonctionnelle, partagent des activités similaires. Cependant, les résultats des différents programmes internationaux incluant du séquençage massif, tels que « MetaHIT » ou bien « the Human Microbiome Project », ne permettront pas de caractériser totalement les capacités métaboliques des différentes espèces composant le microbiote intestinal humain. En outre, deux espèces bactériennes différentes partageant les mêmes enzymes hydrolytiques peuvent ne pas forcément avoir la même efficacité dans un contexte de compétition.

Ecologie microbienne de la dégradation de la cellulose

Les bactéries colonisant le gros intestin ont accès seulement aux résidus alimentaires qui ont échappé à la digestion par les enzymes de l'hôte dans l’intestin grêle. La quantité et le type de ces glucides « non-digestibles » dans l'alimentation peuvent avoir une influence majeure sur les populations et le métabolisme de différents groupes bactériens du microbiote intestinal (Duncan et al., 2003; Duncan et al., 2007). Des glucides spécifiques comme l’inuline ou bien les fructo-oligossaccharides, aujourd'hui largement utilisés comme additifs alimentaires prébiotiques, ont été conçus pour manipuler le métabolisme intestinal et la biodiversité du microbiote intestinal afin d’être bénéfiques pour la santé (Gibson, 1998; Rowland et al., 1998; Kruse et al., 1999). Le principe des prébiotiques repose sur l'exploitation des différences de préférence de substrats et de capacités de compétition des différents membres de la communauté microbienne intestinale.

 

Figure 5 : Représentation schématique de la paroi d'une cellule végétale avec la localisation des principaux polyosides. La première partie est appelée « middle lamella » et est essentiellement composée de pectine. La séparation entre la paroi cellulaire et la « middle lamella » est formée de composés pecto-cellulosiques. La paroi cellulaire est quant à elle formée d’une matrice complexe de protéines solubles, de pectines, de cellulose et d’hémicelluloses (Pérez and Mazeau, 2005).

Les parois des cellules végétales se composent de micro-fibrilles de cellulose, incorporées dans une matrice complexe d’hémicelluloses, de pectines et de protéines (Figure 5). Les hémicelluloses, constituées d’une grande variété de polyosides, forment avec les microfibrilles de cellulose cette matrice par l’intermédiaire de liaisons hydrogène. Les xyloglucanes, comme les xylanes, sont les constituants majeurs des hémicelluloses (Pérez and Mazeau, 2005).

La capacité à dégrader la cellulose semble être essentielle dans la dégradation de la plupart des structures formant les parois végétales, si bien que les bactéries non-cellulolytiques ont une capacité limitée à solubiliser ce genre de substrat. Par ailleurs in vitro, l’apport en protéines et en graisses ne change pas la faculté à dégrader la cellulose par les bactéries cellulolytiques (Firkins et al., 1991), tandis que l’accroissement du pH a un impact négatif sur l’adhérence des bactéries cellulolytiques aux fibres (Mourino et al., 2001).

Ces bactéries cellulolytiques capables de dégrader les xylanes, les mannanes et les pectines, n’utilisent pas forcément leurs produits de dégradation, qui deviennent ainsi disponibles pour les autres membres de la communauté (Coen and Dehority, 1970). Ces chaînes trophiques sont particulièrement mises en évidence lors de l’utilisation d’un substrat unique comme l’inuline ou l’amidon. Néanmoins, c’est l’hydrogène qui est l’élément clé dans les systèmes anaérobies car il est échangé continuellement entre les bactéries pour produire les AGCC à partir des polyosides, ces AGCC étant réduits par la suite en sulfate ou dihydrogène.

Le potentiel oxydo-réducteur de l’écosystème intestinal est essentiel pour que la dégradation de la cellulose soit efficace et rapide, si bien qu’il existerait un lien entre l’abondance des espèces méthanogènes et les bactéries cellulolytiques (Mourino et al., 2001; Robert and Bernalier-Donadille, 2003). La capacité des bactéries à résister à l’acidification de l’écosystème est due à leur potentiel d’abaissement du pH intracellulaire et de maintien d’un gradient de pH relativement faible à travers la membrane cellulaire. Ceci contourne le problème de l'accumulation d'anions acétates toxiques. Cependant, une telle stratégie ne sera couronnée de succès que si la bactérie possède des enzymes intracellulaires capables de résister à un diminution du pH intracellulaire (Russell and Wilson, 1996).

La possibilité d'adhérer au substrat est une autre propriété importante dans le processus de dégradation, et semble être une condition préalable à une dégradation efficace des polyosides provenant de la paroi d’une cellule végétale (Firkins et al., 1991; Weimer, 1996). De plus, ces propriétés d’adhérence peuvent conférer un avantage écologique aux bactéries cellulolytiques. Les études sur le microbiote des ruminants ont apporté le plus d’éléments à ce sujet. Elles ont notamment permis de mettre en évidence l’adhérence des bactéries cellulolytiques à la cellulose par l’intermédiaire d’un cellulosome. Lorsque l’on observe les bactéries en microscopie électronique, on remarque que celles adhérant aux parois végétales développent des protubérances qui « accrochent » les cellules végétales. Ces protubérances forment un cellulosome qui facilite le processus d’adhérence. Le cellulosome est une structure extracellulaire multienzymatique qui apparaît comme essentielle dans la dégradation des polyosides d’origine végétale. Cet arrangement sous forme de cellulosome fournit un avantage concurrentiel dans l’utilisation directe des produits de l’hydrolyse (Schwarz, 2001).

Chez les ruminants, l’adhésion des bactéries à la cellulose a lieu en plusieurs étapes. Tout d’abord, les bactéries adhérèrent de manière non-spécifique à la matrice végétale. Ensuite, la formation de ligand spécifique avec le substrat va être facilitée par le cellulosome. Enfin, les bactéries ainsi fixées vont pouvoir proliférer sur les fibres végétales potentiellement digestibles en formant un biofilm[11]. Ce processus peut être perturbé par la nature du substrat, la teneur en eau, le pH, la charge ionique mais aussi par la compétition avec les autres microorganismes (Miron et al., 2001).

La dégradation des fibres d’un point de vue enzymatique

Afin de comprendre les mécanismes biochimiques qui entrent en jeu, il est nécessaire de s’intéresser aux enzymes impliquées dans la dégradation des fibres. La plupart de ces enzymes font partie de la famille des glycolyse hydrolases (GH). Leur fonction est d’hydrolyser la liaison glycosidique entre les glucides, entre hydrates de carbone ou bien entre un glucide et une autre molécule. L’hydrolyse d’un glucide permet la formation d’un glucide et d’un autre composant. Le terme « hydrolase » signifie que les liaisons carbone-oxygène, carbone-azote ou carbone-carbone peuvent être rompues durant l’hydrolyse. L’étape d’hydrolyse nécessite généralement une catalyse acide et requiert un donneur de protons (sous forme d’une molécule d’eau par exemple).

La dégradation de la cellulose requiert généralement une batterie de GH incluant des cellulases, des endoglucanases, des exoglucanases et des β-glucosidases qui agissent en synergie pour hydrolyser la fraction non-amylacée des fibres alimentaires. Par ailleurs, il est important de noter que le microbiote intestinal possède également toute une batterie d’enzymes capables d’hydrolyser des liaisons glucosidiques, autres que celles impliquées dans les fibres alimentaires (Tableau 2).

Tableau 2 : Exemple de liaisons glycosidiques des polyosides ciblées par les enzymes du microbiote intestinal humain.

Liaison Carbone

Disaccharide correspondant

Structure

Origine

Enzyme ciblant la liaison

(1→4)

Maltose

Glcp α 1→4 Glc

Amidon

α -amylase

 

Cellobiose

Glcp β 1→4 Glc

Cellulose

Cellulase (β-1,4-glucanase)

 

Lactose

Galp β 1→4 Glc

Lait

Lactase (β -galactosidase)

 

Xylobiose

Xylp β 1→4 Xyl

Xylane

Xylanase (Endo-1,4-β-xylanase)

 

Chitobiose

GlcN β 1→4 GlcN

Chitine

Chitinase (1,4-β-poly-N-acetylglucosaminidase)

(1→6)

Isomaltose

Glcp α 1→6 Glc

Amylopectine

Amylopectin-1,6-glucosidase

 

Gentiobiose

Glcp β 1→6 Glc

Gentianose

β-glucosidase

 

Melibiose

Galp α 1→6 Glc

Raffinose

Melibiase (α –galactosidase)

(1→3)

Acide hyalobiuronique

GlcUAp β 1→3 GlcN

Acide Hyaluronique

Hyaluronidase (Hyaluronoglucuronidase)

(1→2)

Saccharose

Frucf β 1→2 α Glcp

Betteraves

β-fructofuranosidase

Glc=gluco-, Xyl=Xylo-, Gal=Galacto-, Fruc=Fructo-, N=amino-, GlcUA= acide glucronique. p et f indiquent respectivement pyranose et furanose.

Les GH peuvent être classées selon leurs domaines et leur similarité en acides aminés. La base de données CAZy[12] (Carbohydrate Active enZyme) mise en place et gérée par l’équipe de Bernard Henrissat contient les informations sur les GH et leur classification. Cette base a permis de définir 113 familles de GH (Cantarel et al., 2009). Elle comporte aussi 91 familles de glycotransférases, 19 familles de polyoside lyases et 52 familles modules fixant les hydrates de carbone (CBM : carbohydrate-binding module).

L’hydrolyse des substrats amylacés requiert l’intervention d’ α-amylases faisant partie de la plus grande famille des GH. Cette famille, la GH 13, est imposante par sa diversité, si bien qu’il a été utile de la subdiviser en 35 sous-classes monofonctionnelles : c'est-à-dire une enzyme correspondant à un seul substrat (Stam et al., 2006).

Le séquençage complet de quelques génomes bactériens présents dans l’intestin des mammifères tels que ceux de Ruminococcus flavefaciens (Berg Miller et al., 2009) et Bacteroides thetaiotaomicron (Xu et al., 2003) a permis d’apporter des informations complémentaires sur la complexité de l’interaction entre les bactéries et les polyosides. Ruminococcus flavefaciens produit une large panoplie d’enzymes correspondant à de nombreux substrats qui constituent la paroi végétale. Ces enzymes ont souvent une organisation multi-domaines comprenant des domaines catalytiques et des CBMs. La plupart des enzymes contiennent aussi des modules d’accrochage et de cohésion permettant la formation du cellulosome. Ces protéines enzymatiques sont codées dans le génome par le groupe de gènes sca, et leurs interactions permettent l’ancrage de R. flavefaciens à travers la paroi végétale (Flint et al., 2008).

Quant au génome de B. thetaiotaomicron, il inclurait des gènes codant 236 GHs et 15 polyosides lyases. Son activité hydrolytique ne serait pas extracellulaire mais périplasmique. Sa faculté à dégrader l’amidon serait codée par le groupe de gènes sus. Certains gènes de ce groupe participeraient à la fixation du substrat sur la membrane bactérienne, tandis que les autres permettraient d’hydrolyser des amyloses et des amylopectines (Flint et al., 2008). Il faut noter que B. thetaiotaomicron n’est pas représentatif du genre Bacteroides et la comparaison génomique de quatre espèces du genre Bacteroides a montré des potentialités différentes via la composition en GH sur leurs génomes (Xu et al., 2007).

Même si les différences sont évidentes entre une bactérie Gram positif spécifique du microbiote des ruminants et une bactérie Gram négatif isolée du microbiote intestinal humain, il existe une interopérabilité entre les espèces du microbiote. En termes de dynamique des génomes, des événements de duplication et de fusion des domaines enzymatiques sont observés, entraînant une large diversité aussi bien organisationnelle que génétique. Néanmoins, si l’on considère chaque enzyme de dégradation des fibres comme un assemblage de modules basiques, c'est-à-dire des modules catalytiques, de fixation de substrats, de modules transmembranaires ou extra-membranaires ou bien de modules d’accrochage et de cohésion, c’est une convergence du contenu génétique qui est observée notamment chez les bactéries qui partagent le même habitat (Xu et al., 2007). La nécessité de s’adapter à la variété de substrats alimentaires explique cette diversité dans l’organisation des modules. Cependant, l’interopérabilité des espèces est le résultat d’une forte pression de sélection qui a nécessité le partage et l’intégration de ces différents modules par transferts horizontaux de gènes (Lozupone et al., 2008).

L’enjeu est de déterminer quelles espèces du microbiote possèdent cette interopérabilité fonctionnelle et cette faculté à entrainer des flux métaboliques différents dans la chaîne trophique lorsqu’il y a des changements dans l’apport en quantité de ces substrats fermentescibles arrivant dans le côlon (Voir Tableau 1). Ces nouvelles connaissances permettront d’évaluer la robustesse de l’écosystème face à des changements environnementaux.


Techniques et méthodes d’analyse

Méthodes d’extraction et de préparation des acides nucléiques

La méthode d'extraction et de purification de l'ADN est une étape extrêmement critique dans les études moléculaires d’un écosystème complexe, notamment celui du microbiote intestinal, composé de 1011 bactéries majoritairement anaérobies par gramme de matière fécale. L’extraction d’acides nucléiques bactériens demeure encore plus problématique lorsqu’il s’agit de biopsie ou bien de pièce opératoire.

Le microbiote intestinal étant composé notamment de bactéries Gram positif et Gram négatif, l’accessibilité aux acides nucléiques de certaines espèces est difficile. En effet, la couche de peptidoglycane des bactéries à Gram positif, très épaisse par rapport à celle des bactéries à Gram négatif, nécessite l’utilisation de méthodes appropriées tout en limitant l’action des enzymes dégradant l’ADN des bactéries Gram négatif. De plus, d’autres éléments tels que les acides humiques et composés aromatiques perturbent les étapes de purification qu’il convient d’éliminer avant la précipitation de l’ADN. Par ailleurs, certains d’entre eux empêchent une quantification correcte avec les techniques d’absorbance UV.

Il existe de nombreux protocoles à disposition pour extraire et purifier l'ADN de différents types de matrices. Néanmoins, en ce qui concerne l’étude du microbiote intestinal, essentiellement deux principes ont été utilisés dans les techniques d’extractions utilisées jusqu'à présent : la lyse mécanique grâce à l’agitation en présence de billes de verre ou de zirconium (Matsuki et al., 2004; Gill et al., 2006; Ley et al., 2006b) et la lyse enzymatique (Eckburg et al., 2005; Kurokawa et al., 2007). Ces deux méthodes sont non exclusives et peuvent être utilisées conjointement. L'utilisation de billes est généralement jugée plus appropriée pour assurer l'efficacité de la lyse des microorganismes Gram positif même s’il convient d’optimiser le temps d’agitation pour s’assurer d’une lyse correcte de la paroi cellulaire sans toutefois entraîner la dégradation des acides nucléiques (Zoetendal et al., 2001a). Parfois, il est nécessaire de réaliser à cette étape des réplicats techniques si les échantillons sont récalcitrants et que la quantité d’ADN est insuffisante pour la suite (McOrist et al., 2002; Scupham et al., 2007).

L’extraction ADN est évaluée en fonction de la qualité et la quantité d’ADN obtenu à partir des échantillons fécaux. Cette évaluation est nécessaire pour des analyses en aval comme la PCR et la construction de banque pour le séquençage. En outre, une bonne qualité de l'ADN est d'une importance critique pour les analyses en aval, ainsi que l’absence d’agent inhibiteur de PCR[13], comme les cycles aromatiques ou les polyphénols, sont fréquents dans des échantillons fécaux. En présence de telles molécules, il est nécessaire de réaliser une dilution telle qu’il sera possible d’effectuer l’amplification des gènes codant pour l’ARNr 16S.

Lorsque que l’on souhaite accéder à l’activité transcriptionnelle du microbiote, il est nécessaire de réaliser une extraction des ARN totaux. Cependant, cette dernière est particulièrement délicate. En effet cette molécule simple brin est sensible aux ribonucléases ubiquitaires et présentes en particulier à la surface de la peau. L’extraction d’ARN repose sur le même principe que l’extraction d’ADN à ceci près qu’elle demande l’utilisation d’une solution phénol-chloroforme à manipuler sous une hotte chimique (Zoetendal et al., 2006). L’utilisation d’une solution de phénol-chloroforme acide (i.e. pH = 5) permet de dénaturer l’ADN qui va se retrouver dans la partie organique pour ne trouver que les ARN dans la partie aqueuse. Le produit d’une extraction d’ARN fournit près de 99 % d’ARN ribosomiques comprenant les sous-unités 23S, 16S, 5S ainsi que les ARN de transfert, le reste formant les ARN messagers (ARNm). Une solution d’ARN doit être manipulée dans la glace pour ralentir l’action d’enzymes potentiellement présentes et avec des gants pour éviter toute contamination par des ribonucléases par l’utilisateur. De plus, pour une utilisation sur le long terme, cette solution doit être stockée à -80°C. Une rétro-transcription suivie d’une polymérisation permet de stabiliser l’ARN simple brin en ADN complémentaire (ADNc). Ce dernier, plus résistant, est plus facilement manipulable qu’une solution d’ARN. Si l’on souhaite étudier l’expression des gènes d’un échantillon, il est nécessaire d’accéder plus facilement aux ARNm. Ceci est rendu possible notamment grâce à l’utilisation de kits d’appauvrissement en ARNr (Voir la partie « Méthodologie pour accéder aux ARN messagers », page 61).


Ecologie moléculaire

L’écologie moléculaire consiste à appliquer des techniques de biologie moléculaire comme la PCR quantitative ou bien la génomique, à des questions écologiques comme par exemple l’étude de la composition et de la dynamique d’une communauté en fonction des changements environnementaux. L’étude de la composition du microbiote repose sur l’analyse de l’ADN génomique. En pratique, la première étape consiste à réaliser une amplification par PCR du gène à cibler notamment celui codant pour l’ARNr 16S.

La PCR du gène codant pour l’ARNr 16S

Il existe un certain nombre de biais et de limites associés à la réaction de PCR sur une matrice ADN complexe. Une des limites critiques est la sélection des amorces de PCR. En outre, des amorces considérées comme « universelles » pour le règne des bactéries excluent de fait un grand nombre de séquences issues des bases de données en perpétuelle expansion. La stratégie consiste alors à cibler un groupe de séquences connues de l’écosystème intestinal à étudier, par exemple celles appartenant à un genre, et à situer les amorces sur les régions dites conservées de l’ARNr 16S.

Cependant, cela peut engendrer le sacrifice d’une partie de la séquence au profit de plus de diversité détectée. Par exemple, l’amorce dite « universelle » située la plus en amont (en 5’) du gène codant pour l’ARNr 16S, la « Bact-8F », est placée sur la région conservée A (Figure 6), est aspécifique des Actinobactéries avec trois nucléotides polymorphes (Edwards et al., 1989). C’est pourquoi les études privilégiant l’obtention des séquences complètes d’ARNr 16S peuvent entraîner un biais vis-à-vis des Actinobactéries. A contrario, une amorce de PCR placée en amont de la région variable V3 (i.e. environ 300 pb en aval du 5’) permet de capter plus de diversité malgré une longueur de séquence finale obtenue inférieure à 1100 pb.

Created by Julien

Figure 6 : Représentation schématique de la distribution des régions hypervariables ainsi que des régions conservées du gène de l'ARN 16S d'Escherichia coli (orientation 5’ – 3’). Les régions hypervariables (notées de V1 à V9) se caractérisent par une diversité nucléotidique très importante et permettent de séparer facilement des espèces voire des souches d’une même espèce. Les régions conservées (notées de A à J) constituent le squelette inamovible de la sous-unité 16S de l’ARN ribosomal si bien qu’elles constituent des cibles idéales pour une amplification universelle par PCR.

Un autre facteur important pouvant intervenir dans la représentativité de la diversité bactérienne est le nombre de cycles de PCR. Il a été montré que plus le nombre de cycles était important plus la diversité bactérienne détectée était faible (Bonnet et al, 2002). Il est donc nécessaire de réaliser plusieurs PCR avec un nombre de cycles réduit et de regrouper les produits d’amplification avant de réaliser l’étape de séquençage.

La PCR quantitative (qPCR)

En biologie moléculaire, la réaction de polymérase en chaîne en temps réel, également appelée PCR quantitative (qPCR), utilise les principes de la PCR classique afin d’amplifier et de quantifier simultanément une molécule ciblée d’ADN. La quantification repose sur le suivi à chaque cycle de la réaction d’amplification enzymatique au moyen d’une molécule fluorescente utilisée comme marqueur et capable d’émettre dans des conditions bien définies un rayonnement proportionnel à la quantité d’ADN produite (Jung et al ; 2000).

En théorie, à partir d’un brin d’ADN on obtient 2n brins d’ADN après n cycles de PCR. Néanmoins, cette phase exponentielle, plus ou moins efficace, n’intervient qu’après une phase d’initiation nécessaire à l’obtention d’une quantité suffisante de produits PCR. Une phase plateau, correspondant à une modification du milieu réactionnel, marque la fin de la phase exponentielle.

La quantification d’une molécule d’ADN ciblée par des amorces spécifiques, par exemple le gène de l’ARNr 16S ou un autre gène d’intérêt, est relative à la durée de la phase d’initiation, ce qui conduit à détecter le moment où débute la phase exponentielle : le « treshold cycle » ou Ct. Ce moment est défini comme étant le nombre de cycles nécessaires pour obtenir un signal fluorescent significativement plus élevé que le bruit de fond. Plus le Ct est important, plus le nombre de molécules cibles d’ADN à quantifier est faible.

En écologie microbienne, la qPCR demande des conditions particulières. En effet, l’ADN extrait d’un échantillon fécal peut contenir des molécules inhibitrices de la PCR qu’il faut évaluer avant de réaliser l’analyse. Ces dernières peuvent faire varier l’efficacité de l’amplification d’un échantillon à l’autre et donc fausser l’interprétation. D’autre part, l’évaluation de la spécificité de la qPCR vis-à-vis d’une molécule cible dans un échantillon complexe est très importante. En pratique, si l’on souhaite quantifier un groupe bactérien, la molécule cible sera le gène codant pour la sous-unité 16S de l’ARNr avec des amorces spécifiques de groupe. Un alignement multiple des séquences connues pour ce groupe est comparé aux séquences que l’on ne souhaite pas cibler. C’est ainsi que l’on peut définir sur la séquence, une région de quelques nucléotides spécifique de ce groupe, où l’on dessinera in silico une amorce de PCR. Ensuite in vitro, on peut utiliser des clones bactériens et des extraits d’ADN de souches bactériennes pour borner le système PCR.

Séquençage haut débit

La méthode de séquençage Sanger a permis d’effectuer les premiers inventaires moléculaires basés sur le séquençage du gène codant l’ARNr 16S (Suau et al., 1999). Néanmoins, l’information obtenue par le clonage et le séquençage des gènes était subordonnée au nombre de clones séquencés. De plus, cette technique prend beaucoup de temps du fait de l’isolement de clones bactériens et présente des coûts relativement élevés.

Auparavant, le dilemme était de choisir entre une analyse en profondeur de quelques échantillons et une analyse avec plus d'échantillons à inclure mais avec une résolution plus faible. Avant d’être définitivement dépassée par les techniques à haut débit de séquençage comme le pyroséquençage, la technique de séquençage de Sanger permet d’obtenir des fragments de séquences plus longs, permettant un accès plus facile à plus de diversité nucléotidique par séquence.

A grande échelle, c'est-à-dire avec un nombre de séquences obtenues supérieur à 10 000 lectures, cette technique a permis de fournir de précieuses informations sur la diversité microbienne jusqu’alors inconnue de différents sites anatomiques du corps humain (Eckburg et al., 2005; Bik et al., 2006). Grâce aux avancées méthodologiques, le séquençage haut débit permet d’obtenir un grand nombre de séquences sur un grand nombre d’échantillons pour des coûts moindres par rapport à la méthode de Sanger (Tableau 3).

Le pyroséquençage inclus dans le « 454 » a permis une élévation de la puissance pour étudier la complexité des communautés microbiennes (Margulies 2005). A chaque utilisation, cette approche fournit généralement plusieurs centaines de milliers de séquences par série, là où la méthode de Sanger est limitée au nombre de puits sur une plaque PCR.

Cette technologie, qui auparavant fournissait des fragments de séquences courts d’environ 50 à 100 paires de bases nucléotidiques, permet avec l’avènement des technologies dites « FLX » puis « Titanium » d’obtenir des fragments d’une longueur supérieure à 400 paires de bases. Ces dernières requièrent encore l’utilisation de la méthode de Sanger pour finaliser le séquençage d’un génome par exemple. Néanmoins, il y a fort à parier que l’avancement technologique mettra définitivement un terme à la méthode de Sanger lorsque la longueur des séquences en haut débit atteindra plus de 1 000 paires de bases (Tableau 3).

 

Figure 7 : Illustration des différentes techniques de séquençage à haut débit. (a) la méthode de séquençage « 454 » est une approche en deux étapes. Premièrement l’ADN est nébulisé et des adaptateurs de quelques nucléotides sont attachés. Chaque fragment est attaché à une bille et chaque bille est amplifiée dans une gouttelette d’une PCR en émulsion. Ceci génère des copies multiples d’un même fragment d’ADN sur chaque bille. Deuxièmement, les billes sont capturées sur une plaque avec des puits d’un volume d’un picolitre et le pyroséquençage est réalisé en parallèle sur chaque fragment d’ADN. L’incorporation des nucléotides est détectée par le largage d’un pyrophosphate inorganique (PPi), ce qui conduit à la génération enzymatique de photons (i.e. le PPi est converti en ATP et la luciférase utilise l’ATP pour générer de la lumière). Ce cycle est itérativement répété pour les quatre bases A/T/G/C. (b) La technologie SOLiD a une procédure d’amplification similaire au « 454 », mais la stratégie de séquençage est radicalement différente. Les billes sont déposées sur une lame de verre et la séquence est déterminée par une hybridation et une ligation séquentielle d’oligonucléotides quasi aléatoires, avec une paire de bases bien déterminée identifiable par un fluorophore. Après que la couleur ait été enregistrée et l’oligonucléotide ligué enlevé, ce processus est alors répété six à sept fois afin d’obtenir une longueur de séquence d’environ 35pb. (c) La première étape du séquençage SOLEXA est basée sur l'amplification de l'ADN sur une surface solide à l'aide d’une PCR avec des amorces ancrées. De multiples cycles d’amplification sont ensuite réalisés pour créer un millier de copies simple brin de chaque fragment d’ADN. Le séquençage est effectué séquentiellement à l'aide d'amorces, de l’ADN polymérase et de quatre nucléotides labellisés par un fluorophore, bloquant réversiblement la PCR. Après l'incorporation d'un nucléotide, l'image est capturée et l'identité de la première base est enregistrée. Les fluorophores sont ensuite retirés et les étapes d'incorporation, de détection et d'identification sont répétées (Medini et al., 2008).

Tableau 3: Comparaison des coûts et des sorties des technologies de séquençage.

Méthodes de séquençage

millions de bases par série

coût par base

longueur de la lecture en paires de bases

Sanger

0,07

0,1

700

454 pyroséquençage

400

0,003

400

SOLiD/SOLEXA

2000

0,0007

35

 

De plus, l’autre intérêt de la technique de pyroséquençage réside dans l’utilisation de codes-barres que l’on place en aval des adaptateurs, par ligation sur les fragments que l’on souhaite séquencer (Figure 7). Ce code-barres constitué de nucléotides prédéterminés permet, lorsque l’on mélange plusieurs échantillons différents dans la même série, de tracer chaque échantillon individuellement. En utilisant l’approche des codes-barres, plusieurs échantillons peuvent être traités en parallèle sur une plaque. Cela permet entre autres de réaliser des réplicats techniques. Bien que cette approche ne soit pas soumise à des biais dus au clonage, il y a encore des doutes sur les déviations que pourrait introduire la PCR en émulsion. Le pyroséquençage, dont le coût est continuellement en baisse, est devenu une méthode classique dans l’analyse de la structure d’un écosystème complexe. Cette technique a d’ores et déjà été utilisée dans de nombreuses publications, aussi bien pour des inventaires moléculaires du gène codant l’ARNr 16S (Turnbaugh et al., 2009; Zhang et al., 2009) que pour des inventaires fonctionnels de microbiomes basés sur l’ADN génomique ou les ARN messagers (Gilbert et al., 2008; Willner et al., 2009).

Cependant, bien que la couverture d’espèces estimée par inventaire moléculaire du de l’ARNr 16S de l’écosystème intestinal semble être atteinte à plus de 90 % grâce au pyroséquençage, ce dernier redevient une technique exploratrice lorsqu’il s’agit d’étudier le potentiel génétique ou l’activité transcriptionnelle du microbiote. L’effort de séquençage pour couvrir les pan-génomes et transcriptomes de la communauté microbienne est bien plus important lorsqu’il s’agit d’étudier la diversité fonctionnelle d’un écosystème. C’est pour cela que les technologies de séquençage massif comme le SOLiD et SOLEXA ouvrent des perspectives telles, qu’elles sont en passe d’effacer des technologies comme les puces à ADN (Figure 7).

L’évolution de toutes ces techniques a évidemment entraîné en parallèle le fourmillement d’applications bioinformatiques. De plus en plus faciles d’utilisation pour les biologistes non experts, les outils de bioinformatique sont couplés directement à la sortie du séquenceur permettant par exemple des analyses différentielles très rapides et précises à l’échelle d’une unité taxonomique ou fonctionnelle.

Les méthodologies de séquençage ne sont plus un frein à l’exploration moléculaire d’un écosystème, aussi bien dans sa dynamique structurelle que fonctionnelle. Il appartient maintenant aux biologistes de parfaire leur plan d’expérience afin d’obtenir la puissance statistique nécessaire pour répondre à leurs questions. Il est nécessaire aussi pour le biologiste d’anticiper la quantité de données à traiter, où la séquence est devenue une unité de mesure à la fois qualitative et quantitative.

Bioinformatique

Avec l’avènement du séquençage haut débit, l’utilisation et le développement d’outils bioinformatique sont devenus encore plus indispensables. Dans une approche métagénomique, le but est aussi de pouvoir caractériser l’inconnu. Ainsi, l’utilisation, de manière systématique, de requêtes sur des bases de données de séquences connues peut engendrer un biais dans l’analyse des séquences obtenues car une partie d’entre elles sont inconnues. Dés lors, lorsque l’on veut effectuer une approche sans a priori, la première chose à faire est de comparer toutes les séquences obtenues entre elles. Deux types d’approches ont émergé. L’une, très répandue, est basée sur l’alignement de ces séquences, tandis que l’autre, en cours de développement, réunit les méthodes indépendantes de l’alignement comme l’approche tétranucléotides (Teeling et al., 2004a; Teeling et al., 2004b; Woyke et al., 2006). Ensuite, l’utilisation de ces comparaisons de séquences peut permettre de réaliser d’autres approches sans a priori comme le regroupement des séquences selon un critère de similarité ou bien de tester l’existence de ces séquences dans les bases de données relationnelles.

Pour finir, ces séquences peuvent être stockées dans des bases de données relationnelles. Avant de parcourir plus profondément les différentes méthodes de bioinformatiques appliquées à l’analyse de séquences, il est nécessaire de mentionner le problème dû aux séquences chimériques, qui est un problème typique du séquençage massif à partir d’un ADN extrait d’un échantillon complexe.

Les séquences chimériques

Des méta-analyses ont montré que de nombreuses séquences du gène codant pour l’ARNr 16S pouvaient être en fait des artefacts de la PCR. Ainsi, il a été estimé que, globalement, 5 % des inventaires moléculaires seraient susceptibles de contenir des anomalies (Ashelford et al., 2006).

La plupart des anomalies détectées dans les inventaires moléculaires sont constituées de séquences chimériques. Ces anomalies peuvent être de deux types : soit des séquences dites chimériques c'est-à-dire produites à partir de deux ou plusieurs fragments d’ADN phylogénétiquement distincts au cours de l’amplification PCR, soit des erreurs de séquençage lors de l’assemblage, mais celles-ci peuvent être rectifiées par re-séquençage.

La présence de ce grand nombre de séquences chimériques, de 1 à 30 % selon les études (Ashelford et al., 2006), inhérent à la PCR a pour conséquence de surestimer la biodiversité présente dans un écosystème. Par ailleurs, cette présence peut entraîner des relations phylogénétiques improbables, et par conséquent empêcher une identification taxonomique correcte. Le risque de ne pas rechercher systématiquement les chimères dans son jeu de données est de créer de fausses lignées phylogénétiques nouvelles et d’analyser ensuite une diversité inexistante biologiquement. Néanmoins, la PCR en émulsion utilisée dans les nouvelles technologies, qui isole chaque fragment d’ADN individuellement, tend à réduire ce problème de séquences chimériques.

Avec la croissance des inventaires moléculaires aussi bien en nombre qu’en taille, la nécessité de régler le problème des séquences chimériques est passée d’un acte occasionnel possible avec des logiciels comme « Chimera check », à un acte automatisé avec « Mallard » (Ashelford et al., 2006) ou bien « bellerophon 3 » (Huber et al., 2004). Ces outils fonctionnent sur des séquences de gène codant pour l’ARNr 16S et ont été calibrés par rapport à des jeux de données existants. Par conséquence, il est alors difficile de discerner la variabilité biologique (i.e. faux positifs) de celles engendrée par les séquences chimériques.

Comparaison des séquences par alignement

A l’ère de la post-génomique et de la métagénomique, la bioinformatique connaît une véritable révolution grâce à l’émergence des biotechnologies à haut débit. L’enjeu actuel pour les « supercalculateurs » est de soutenir ce flux de données constant, issu du séquençage en masse des acides nucléiques. L’une des applications les plus importantes qui en découlent est la comparaison des séquences afin par exemple de sonder la biodiversité fonctionnelle ou phylogénétique.

D’une manière générale, la comparaison s’effectue à travers l’alignement multiple (global ou local) des séquences nucléiques pour comparer plusieurs longs fragments génomiques (supérieurs à 40 kb) ou bien des dizaines de milliers de petites séquences (inférieures à 50 pb). Pour répondre à ces besoins, plusieurs algorithmes ont été développés, soit pour mettre en évidence des motifs communs au sein de plusieurs séquences, soit pour traiter des séquences de plus en plus distantes.

Depuis 1990, le Blast (Basic Local Alignment Search Tool) puis PSI-Blast de Altschul  et ses collègues (Altschul et al., 1997) est certainement devenu l’outil de bioinformatique le plus utilisé par les biologistes, en supplantant FASTA (alignement global) (Pearson et al, 1988), pour réaliser des alignements locaux paires à paires des séquences nucléiques et protéiques. Pour réaliser des alignements multiples globaux, ClustalW, réputé pour sa finesse, est particulièrement utilisé, aussi bien en phylogénie qu’en recherche de motifs conservés (Thompson et al., 1994).

Cependant, avec la hausse de la quantité de séquences à traiter, ClustalW apparaissant comme un algorithme trop gourmand en temps de calcul, d’autres aligneurs multiples bien plus rapides ont émergé comme MUSCLE, utilisant des k-mers, ou bien MAFFT, utilisant des transformations de Fourier. Néanmoins, la rapidité se fait bien souvent au détriment de la qualité des alignements, indispensables par la suite pour en déduire les distances génétiques séparant les séquences. L’exigence de la finesse de l’alignement conduit les biologistes à se tourner vers des aligneurs spécialisés comme NAST conçu, en s’appuyant sur une base de référence, pour aligner uniquement des séquences codant pour la sous-unité ribosomale 16S des procaryotes (DeSantis et al., 2006). Voici une liste non exhaustive de différents aligneurs :

·         ClustalW : Le plus utilisé car le plus ancien, un des plus fins, des plus diffusés et accessibles grâce à son interface ClustalX pour les biologistes. Algorithme très gourmand, mais une issue est possible avec sa version MPI[14] (Li, 2003).

·         MAFFT : Utilisant la transformation de Fourier et les itérations pour affiner l’alignement multiple, il offre une multitude d’options pour aligner localement et globalement de longs fragments ou des milliers de petites séquences. Il n’existe pas de version MPI disponible pour l’instant.

·         MUSCLE : S’appuyant sur le comptage de k-mers, il est très rapide mais moins précis que MAFFT.

·         T-coffee : S’appuyant sur des bibliothèques de pré-alignement, il est surtout utilisé pour aligner des séquences protéiques. Il est assez lent.

·         Praline : il exploite la structure secondaire des protéines pour réaliser un alignement multiple. Il est très lent.

Comparaison par approche tétranucléotides

Dans une approche métagénomique, l’ADN est directement extrait d’un échantillon environnemental et cloné dans des vecteurs tels que des cosmides, des fosmides ou bien des chromosomes artificiels bactériens (BAC). Les banques métagénomiques obtenues peuvent alors être criblées pour une fonction donnée et les inserts peuvent être séquencés, permettant l’accès à de nouvelles séquences spécifiques.

Néanmoins, malgré le potentiel de l’approche métagénomique, qui permet d’augmenter considérablement la connaissance de la composition et de la fonction d’une communauté microbienne, plusieurs problèmes méthodologiques doivent être résolus. Un des problèmes majeurs rencontré est l’identification taxonomique de l’origine de l’insert. En effet, seulement 5 à 10 % des fosmides contiennent un marqueur phylogénétique comme l’ADNr 16S ou bien des gènes de ménage (rpoA, recA) et peuvent alors être assignés à une espèce ou un groupe taxonomique.

C’est pourquoi, il y a un réel besoin de nouveaux outils d’assignation. Le biais dans la composition nucléotidique des génomes procaryotes est le résultat de la pression sélective, et des mécanismes de réparation et de réplication de l’ADN. Ce biais constitue une signature génomique qui peut être exploité pour l’assignation taxonomique. Tout d’abord, on peut apparier deux fragments nucléiques selon leur teneur en G+C %. Puis en complément, on peut utiliser le meilleur « Blast hit » ou l’usage du codon pour évaluer l’origine taxonomique (Danchin, 2002).

Cependant, ces techniques possèdent des biais importants. En effet, le G+C % peut varier considérablement au sein du génome et ne permet pas d’obtenir un signal phylogénétique puissant. Pour un insert métagénomique de 40kb, soit environ 40 gènes, sa requête contre les banques publiques de séquences par Blast peut fournir des résultats non significatifs. Fréquemment, dans un insert donné, plusieurs hits peuvent avoir une origine phylogénétique différente. C’est le cas par exemple, lorsqu’on obtient des séquences de familles de protéines phylogénétiquement non spécifiques. Quant à l’analyse de l’usage du codon, son signal phylogénétique peut être brouillé par des transferts de gènes horizontaux (Teeling et al., 2004a).

Plus que le biais de codons, l’enchaînement des codons lui-même n’est pas aléatoire. C’est pour ces raisons que l’apprentissage de la signature génomique doit s’effectuer sur des mots d’au moins quatre nucléotides (dits aussi 4-mers ou tétranucléotides). Pour un génome entier, dans le cadre d’une détection de gènes, les jeux d’apprentissage utilisés sont formés à partir de mots de cinq ou six nucléotides (dits 5-mers ou 6-mers). Il est raisonnable de penser que pour assigner des fragments métagénomiques de 40 kb, un apprentissage de la signature génomique peut s’effectuer avec des mots de quatre nucléotides (McHardy et al., 2007).

Au l’échelle du microbiome, le métagénome d’une communauté contient une mixture de plusieurs génomes individuels et ne possède pas de signature proprement-dite. Seulement, l’approche métagénomique génère beaucoup de séquences avec peu de similarité avec les séquences connues dans les bases de données. Avec les techniques à haut débit comme le pyroséquençage, il est difficile d’obtenir à partir d’un écosystème complexe de longs fragments génomiques non chimériques. Pourtant, l’équipe de F. Rohwer a émis l’hypothèse que sous la pression de son environnement, un microbiote devrait avoir sa propre signature. En effet, la composition en dinucléotides de séquences issues du pyroséquençage permet d’expliquer près de 80 % de la variabilité entre différents métagénomes d’écosystèmes très différents tels que le microbiome humain et les mines acides (Willner et al., 2009). Par ailleurs, cette propriété fonctionne aussi avec les métagénomes viraux. Ces signatures  dinucléotidiques sont entraînées par la sélection de l’environnement, lequel environnement peut être dominé par quelques espèces très abondantes influençant la fréquence des dinucléotides.

A l’échelle du génome, chaque espèce a sa propre signature génomique. Ce biais génomique peut aussi être exploité pour discriminer des niveaux phylogénétiques plus élevés. L’exploration de ce biais permet de trouver un signal phylogénétique qui peut être utilisé pour l’assignation d’un fragment de génome (Teeling et al., 2004a). L’apprentissage de cette signature génomique peut s’effectuer en comptant la fréquence des 256 combinaisons de tétranucléotides possibles. Les fragments métagénomiques peuvent être comparés les uns par rapport aux autres pour former des groupes taxonomiques auxquels ils peuvent être assignés. Ce biais génomique a pu être comparé à des phylogénies basées sur le gène de l’ARNr 16S. Les similarités observées entre les phylogénies basées sur l’ADNr 16S et celles créées à partir de l’usage des tétranucléotides indiquent que ce dernier contient un signal phylogénétique fort (Teeling et al., 2004b). Plusieurs tentatives ont été publiées en utilisant ce principe mais pour l’instant, malgré des résultats prometteurs, la précision de l’assignement n’est pas compatible avec l’exigence attendue.

En revanche, la méthode des tétranucléotides a pu être utilisée avec succès directement sur les séquences issues d’inventaires moléculaires sur le gène de l’ARNr 16S (Woyke et al., 2006; Rudi et al., 2007). Cette méthode pourrait remplacer à l’avenir les approches dépendantes de l’alignement consommant outrageusement du temps de calcul. De nouveaux algorithmes mathématiques devront être développés dans le futur pour exploiter la signature de fragment génomique.

Les matrices de distance et les regroupements de séquences.

En admettant que l’échantillonnage et le traitement d’analyse des échantillons produisent une image représentative de l’écosystème de départ, aux questions « qui sont-ils » et « que font-ils ? » vient s’ajouter la question « et en quelles proportions ? ». C’est le regroupement de séquences en unités opérationnelles qui permet de répondre à cette dernière. En effet, plus une unité opérationnelle regroupera un nombre important de séquences, plus la proportion de ce taxon ou de cette famille de gènes (un COG par exemple) aura une importance dans l’écosystème étudié (Tringe et al., 2005).

La manière la plus répandue d’estimer le contenu taxonomique d’une communauté est d’utiliser des marqueurs phylogénétiques comme le gène codant pour l’ARNr 16S. Les séquences sont regroupées entre elles en unités taxonomiques opérationnelles (OTUs) grâce à DOTUR (Schloss and Handelsman, 2005). Une séquence représentative est ensuite utilisée pour assigner les OTUs à un taxon grâce par exemple à une requête sur la base RDP II (Cole et al., 2005).

Le regroupement en OTUs nécessite la génération d’une matrice de distances nucléotidiques entre les séquences, calculée par exemple avec la suite de logiciels Phylip (Felsentein, 1989). Cependant avec l’augmentation exponentielle des données, notamment avec l’arrivée du séquençage haut débit, le temps de calcul augmente dramatiquement et de plus en plus d’algorithmes utilisent la parallélisation des flux de données sur plusieurs processeurs de manière à diminuer le délai d’obtention du résultat (Sun et al., 2009).

Une autre manière d’estimer la diversité taxonomique est de réaliser un sondage plus flexible de la communauté à partir de séquences métagénomiques. Là où un sondage « plat » déduit un rang taxonomique à partir d’un marqueur phylogénétique de confiance, un sondage « flexible » déduit des séquences différentes taxonomies dépendant du niveau de conservation des séquences. Cette approche peut être réalisée avec le logiciel MEGAN (Huson et al., 2007). Cependant, cette méthode nécessite l’utilisation d’une base de référence servant à assigner par Blast chaque séquence à un taxon afin de les trier pour effectuer des approches comparatives. On se retrouve confronté au problème dit de l’ADN « sombre », c’est-à-dire des séquences qu’on ne peut assigner et c’est dans ce sens qu’il faut plus de génomes de référence.

Il est aussi possible de regrouper sans a priori les gènes codant pour des protéines en unités opérationnelles en utilisant une distance de dissimilarité plus faible que l’ARNr 16S (Li and Godzik, 2006; Schloss and Handelsman, 2008). Le défi consiste à regrouper entre elles des séquences incomplètes codant pour le même gène mais qui ne s’alignent pas.

Les bases de données relationnelles

Les bases de données relationnelles sont des outils indispensables pour l’écologie moléculaire. De plus, ces bases de données sont relationnelles, elles stockent l’information de manière optimale et donnent aussi des informations sur la nature des échantillons. Reliées entre elles, ces bases de données permettent un gain de temps pour assigner rapidement une fonction ou un taxon à une séquence, mais surtout elles permettent de prendre du recul sur l’information engendrée pour en retenir les interconnections biologiques. Ces interconnections peuvent être de nature taxonomique (RDP II), métabolique (KEGG) ou bien fonctionnelle (COG, STRING).

Le gène de l'ARNr 16S est très conservé entre tous les microorganismes, d'une longueur convenable (environ 1500 pb) pour une analyse en bioinformatique, et est une excellente molécule pour discerner l'évolution des relations entre les organismes procaryotes. Pour toutes ces raisons, cette molécule a donné lieu à une énorme base de données publique, la « Ribosomal Database Project II » (RDP II). Le 5 octobre 2009, la base RDP version 10 contenait 1 104 383 séquences de gènes d’ARNr 16S. 180 573 proviennent de souches cultivées tandis que 923 810 proviennent d’échantillons environnementaux. 5 534 séquences proviennent de souches types. Ces dernières sont particulièrement importantes car elles permettent de relier taxonomie et phylogénie. Un des nombreux logiciels développés par l’équipe de Cole est le « RDP classifier », très efficace pour assigner jusqu’au genre avec des indices de confiance les séquences à la volée en très peu de temps (Wang et al., 2007). Les fichiers de sortie sont très facilement utilisables et permettent d’avoir un aperçu rapide de la diversité taxonomique de l’échantillon. Cependant, ils ne permettent pas de regrouper les séquences sous forme d’OTUs, démarche indispensable pour aller plus loin en écologie numérique (Voir la partie « Bio-statistique et Ecologie numérique », page 51).

La base de données KEGG pour « Kyoto Encyclopedia of Genes and Genomes »  est une base de connaissance pour l’analyse des fonctions des gènes en terme de voies métaboliques (Ogata et al., 1999). Cette base, en plus de maintenir l’effort de collection de nouvelles voies métaboliques et d’intégrer de nouveaux gènes provenant des génomes annotés, développe et fournit des outils pour reconstruire les voies métaboliques en jeu dans un génome. Avec la métagénomique, cette base de données KEGG a pris une autre dimension puisqu’elle permet de synthétiser rapidement l’information métabolique d’un microbiome. De plus, elle permet de réaliser des analyses statistiques centrées sur l’interaction métabolique entre les gènes détectés dans un métagénome (Voir la partie « Bio-statistique et Ecologie numérique », page 51). Conçue pour la génomique couplée à la métabolomique, cette base souffre d’un déficit d’assignation puisqu’une grande partie des métagénomes séquencés, dont près d’un tiers pour le microbiote intestinal, n’est pas utilisable.

Dans ce contexte où la plupart des protéines répertoriées issues du séquençage restent de fonction inconnue, les COGs, répertoriés dans une base du même nom, semblent être un moyen très utile pour la prédiction de fonctions. Actuellement, la construction de ces COGs est basée sur les séquences de 66 génomes complets, dont 50 bactériens, issus de grands groupes phylogénétiques (Tatusov et al., 2001). Tout d’abord, la comparaison de ces séquences par paires a permis de créer un réseau de protéines orthologues ou COG « spécialisé » dans une fonction unique. Ainsi, la méthode des COGs,  en regroupant des protéines d’espèces distantes, de fonction connue ou inconnue, s’appuie sur le haut degré de conservation des séquences protéiques pour réaliser ces prédictions. Comme la base KEGG, les COGs souffrent d’un manque de représentativité au regard des séquences issues de  la métagénomique, et près de 20 % des séquences codant potentiellement pour un gène sont répertoriées dans les catégories COGs très peu caractérisées, comme R « fonctions inconnues » et S « Fonction générale de prédiction seulement » (Tableau 4).

Tableau 4 : les grandes catégories  de COG et leur description

Code

Catégories

Description

A

Modification et processus des ARN

Processus et stockage de l'information

B

Dynamique et structure de la Chromatine

J

Traduction

K

Transcription

L

Réparation et réplication de l’ADN

Y

Structure nucléaire

D

Mitose et contrôle du cycle cellulaire

Processus cellulaires

O

Modification post-traductionnelle, fonction chaperonne

M

Biogénèse de la membrane et de la paroi cellulaire

N

Mobilité cellulaire

P

Métabolisme et transport des ions inorganiques

T

Transduction du signal

U

Sécrétion et trafic intracellulaire

Z

Cytosquelette

C

Conversion et production d’énergie

Métabolisme

E

Transport et métabolisme des acides aminés

F

Transport et métabolisme des nucléotides

G

Transport et métabolisme des glucides

H

Métabolisme des coenzymes

I

Métabolisme des Lipides

Q

Biosynthèse des métabolites secondaires

R

Fonctions générales prédictives seulement

Très peu caractérisées

S

Fonctions inconnues

 

En complément de ces bases de données, la base de données STRING fournit une ressource agrégeant la plupart de l’information disponible sur les interactions entre les protéines (Figure 8). La mise en œuvre des connections entre les protéines tient compte non seulement de leur homologie de séquence ainsi que de leurs occurrence et position dans les génomes séquencés, mais aussi des bases externes de données telles que KEGG, « Gene Ontology » et de l’exploration des données issues des publications. Ainsi, un score de partenariat fonctionnel est établi en fonction de tous ces paramètres et permet de relier les protéines entre elles. Les informations que l’on retire de cette base peuvent être reliées avec d’autres bases comme ExPASy[15], SMART[16] afin d’affiner l’exploration fonctionnelle d’une protéine particulière.

Figure 8 : Exemple d'utilisation de la base de données STRING avec une protéine xylanase / chitine deacetylase et le génome de Bacteroides vulgatus. (a) Cette protéine annotée « BVU_1023 » dans le génome de B. vulgatus est impliquée dans la dégradation des xylanes, elle permet notamment l’hydrolyse des liaisons carbone-azote. (b) Cette protéine fait partie du COG0726 et possède des partenaires fonctionnels tels que des glycotransferases impliquées dans la biogénèse de la membrane cellulaire, et des glycosidases comme par exemple des α-amylases. (c) La proximité dans le génome avec d’autres protéines chez B.vulgatus laisse supposer une structure en opéron par exemple.

Bio-statistique et Ecologie numérique

Ecologie numérique « classique »

Le concept théorique actuel en écologie est celui du modèle des habitats. Ce concept voit cet habitat comme un modèle pour les réponses écologiques et traite de la relation entre l’évolution des espèces et les conditions de cet habitat (Dolédec et al., 1996; Legendre and Legendre, 1998). Ceci suppose que l’habitat (par exemple le microbiome intestinal humain) fournisse des conditions telles que les forces de l’évolution puissent s’exercer sur les traits des espèces de l’écosystème (par exemple sur le microbiote intestinal humain). C’est ici qu’intervient l’écologie numérique, c’est-à-dire à la frontière entre écologie et statistique. L’écologie numérique est un champ de l’écologie quantitative consacré à l’analyse numérique de données écologiques. Le but de l’écologie numérique est de décrire et d’interpréter la structure des données en combinant une large variété d’approches numériques (Legendre and Legendre, 1998). L’écologie numérique diffère de la bio-statistique descriptive dans le sens où cette discipline combine systématiquement des méthodes statistiques multivariées avec des techniques numériques non-statistiques comme les analyses par regroupement (« clustering »).

Par exemple, pour investiguer les relations entre la structure d’une communauté et les changements environnementaux, les écologistes collectent l’abondance des espèces dans un plan d’échantillonnage et enregistrent les variables environnementales dans ce même plan d’échantillonnage. Cela conduit à l’obtention de deux types de données. D’une part, un inventaire des espèces qui contient l’abondance des espèces en fonction de l’échantillon (tableau L), et d’autre part un tableau environnemental incluant des mesures quantitatives ou qualitatives des sites de prélèvement (tableau R). Une des tâches consiste alors à arranger les échantillons et/ou les espèces le long d'un gradient environnemental et d'en tirer un motif qui permet cet arrangement (Dolédec et al., 1996).

Selon la question posée, plusieurs analyses statistiques multivariées sont disponibles. Les analyses canoniques de correspondance se focalisent sur l’occurrence des espèces en fonction de l’environnement, quand la régression PLS (« partial least squares ») cherche à prédire des variables environnementales en fonction de l’assemblage des espèces. Les analyses de co-inertie et les analyses en composantes principales sur variables instrumentales (ACPVI) permettent d’étudier le lien de variation conjointe entre l’abondance des espèces et les variables de l’environnement (Dolédec and Chessel, 1994). Cependant, le concept du modèle des habitats qui prend en compte les forces de l’évolution requiert également de s’intéresser aux variations génétiques des espèces étudiées. La mesure des ces variations génétiques est devenue très résolutive avec le développement de la biologie moléculaire et des technologies de séquençage. Ainsi, un troisième type de données peut donc être pris en compte comme une matrice de distance génétique entre les différents taxons présents dans l’écosystème (tableau Q).

La relation entre la variation génétique des espèces et leur abondance dans un échantillon peut être analysée selon plusieurs critères comme les indices de diversité classique, tels que les indices de Simpson et de Shannon, qui peuvent être calculés facilement avec DOTUR  lorsque qu’on réalise des inventaires moléculaires basés sur le gène de l’ARNr 16S par exemple (Schloss and Handelsman, 2005). L’analyse de raréfaction et l’estimation de richesse par l’indice de Chao permettent entre autres de connaître l’effort d’échantillonnage d’une communauté. L’analyse d’arbres phylogénétiques en fonction des échantillons permet aussi d’observer la pression de sélection sur les différentes lignées (Voir Figure 1 dans la partie « A l’échelle de l’évolution », page 16). Le lien entre la topologie des arbres phylogénétiques et la niche écologique des espèces peut être testé avec un test de permutation (Martin, 2002; Schloss and Handelsman, 2006). L’analyse moléculaire de la variance (ou AMOVA) permet de tester si deux communautés ont une diversité significativement distincte (Chessel, 2004; Pavoine et al., 2004; Schloss, 2008). En complément, l’analyse moléculaire de l’homoscedasticité de la variance permet de connaître si une population est une sous-population par rapport à une autre (Schloss, 2008). Si l’analyse en coordonnées principales (PCoA) permet de visualiser les relations génétiques principales entre les taxons, la double analyse en coordonnées principales (dPCoA) permet quant à elle de relier une PCoA et une table d’abondance des espèces en fonction de l’échantillon (Pavoine et al., 2004; Eckburg et al., 2005).

Figure 9 : Schéma d'un exemple d'analyse RLQ entre le microbiote, les patients et les variables cliniques. Le tableau R est un tableau de facteurs environnementaux (variables cliniques). Le tableau L est la composition en espèces et/ou fonctions décrivant un habitat (le microbiome des patients). Les données Q sont les relations génétiques ou fonctionnelles entre les protéines et/ou taxons (le microbiote). Ces différents types de données peuvent être reliés par quelques analyses statistiques comme par exemple l’AMOVA, l’ACPVI et la dPCoA. L’analyse globale RLQ peut être réalisée en effectuant une analyse des inerties des données Q et R reliées par la table de contingence L (Dolédec et al., 1996).

Lorsque l’enjeu est de connaître comment la biodiversité génétique est impactée par l’environnement, ce qui est le cas si l’on veut analyser finement le potentiel génétique du microbiote intestinal humain dans le cadre de la prise alimentaire, il est nécessaire de faire l’analyse conjointe  de ces trois types de données. Pour répondre à cette problématique, une analyse RLQ semble très appropriée (Chessel, 1996). Cette technique permet d’incorporer dans une analyse la relation entre l’abondance des espèces, leur environnement, et leurs traits génétiques (Figure 9). Dans une approche métagénomique, on pourrait relier la diversité génétique et fonctionnelle avec l’abondance des espèces et de leur environnement, ou en d’autres termes, des changements fonctionnels microbiens peuvent être reliés par leurs impacts sur l’écosystème intestinal et la santé de l’hôte.

La bio-statistique appliquée à la microbiomique

Si l’écologie numérique est applicable à des sujets tels que l’impact des saisons sur la diversité des oiseaux ou bien la distribution géographique des poissons en fonction des stations d’épuration, il y a encore un effort à fournir lorsqu’il s’agit d’appliquer ces concepts au microbiome humain. Face à l’approche métagénomique, l’écologie numérique se retrouve confrontée à deux problèmes. Premièrement, ces concepts sont basés sur la notion d’espèce dont la définition est claire pour les plantes et les animaux mais qui provoque de grands débats lorsqu’il s’agit de bactéries. En effet, même si l’ARNr 16S constitue une norme pour définir une espèce, la précaution impose désormais de parler de phylotypes car on sait que des mécanismes d’échanges génétiques sont largement utilisés entre les bactéries de genres voire de phyla différents, ce qui est impossible pour les animaux et les plantes. Deuxièmement, l’écologie numérique se retrouve confrontée à des problèmes d’ordre de grandeur en ce qui concerne la mesure de la diversité génétique des espèces comparée par exemple aux variables cliniques ou au nombre d’échantillons. Concrètement, là où pour une étude sur l’abondance des poissons, on étudie une trentaine de sites avec 10 espèces et moins d’une dizaine de variables environnementales (Dolédec and Chessel, 1994), avec la métagénomique le nombre d’espèces à étudier passe à plus d’un millier. Si l’on reprend le schéma d’analyse RLQ, la métagénomique provoque une grosse distorsion sur les données du tableau L.

Avec la microbiomique, plusieurs publications ont commencé à apporter une réflexion pour adapter les bio-statistiques et l’écologie numérique aux technologies à haut débit (Dinsdale et al., 2008; Kristiansson et al., 2009; White et al., 2009). L’équipe de F. Rohwer a permis de montrer que l’analyse canonique discriminante (CDA) est très puissante pour séparer neuf microbiomes différents regroupant 45 microbiotes au total (Dinsdale et al., 2008). La CDA est une analyse factorielle des correspondances (ici les séquences en fonction des métagénomes) sous contrainte d’une variable qualitative (les métagénomes en fonction de leur microbiome). Cependant, la CDA est une méthode d’identification de variables discriminantes entre les différents groupes, qu’il faut ensuite tester par des analyses de variance plus classiques. Un autre intérêt de la CDA décrit dans cette étude est de pouvoir construire un modèle prédictif pour classer les métagénomes en fonction de leur microbiome.

La CDA a montré son utilité à séparer des microbiomes très différents, du microbiome humain au microbiome du moustique. Néanmoins, identifier des marqueurs fonctionnels ou phylogénétiques du microbiote intestinal humain en fonction d’un effet clinique ou d’une étude nutritionnelle, demande l’utilisation de méthodes d’analyse utilisant des techniques de ré-échantillonnage et de permutation. J.R. White, avec son script R[17] nommé « Metastats »[18], a adapté un test de Student multiple pour évaluer l’effet d’un traitement sur l’abondance d’un taxon ou d’une protéine détectée. Cependant, comme le nombre de tests à réaliser dépend d’un nombre de taxa détectés (plusieurs centaines par échantillon du microbiote intestinal humain), il est nécessaire de faire une correction. C’est pourquoi, il est nécessaire de calculer en parallèle le taux de fausses découvertes qui est défini comme la proportion de faux positifs dans un ensemble de prévisions. Pour cela, des permutations statistiques sont réalisées pour tester la significativité du test de Student (White et al., 2009).

Hugenholtz et ses collègues ont développé une bibliothèque de fonctions[19] utilisables avec le langage R pour effectuer des comparaisons fonctionnelles de métagénomes. Les comparaisons de métagénomes reprennent le principe de « Metastats », excepté que l’analyse est rendue possible en tenant compte par exemple des voies métaboliques basées sur KEGG ou de familles de gènes basées sur les COGs. De plus, de nouvelles fonctions sont basées sur des modèles poissonniens, ce qui permet une flexibilité dans l’analyse de différents plans d’expérience comme des comparaisons par paires ou bien des dynamiques dans le temps.

 


Résultats et discussion du projet de thèse

Cette thèse s’inscrit dans le projet « AlimIntest » financé par l’Agence Nationale pour la Recherche. Le projet « AlimIntest » a pour objectifs d’une part de développer de nouveaux outils moléculaires pour l’étude du microbiote intestinal et d’autre part de les valider sur une étude clinique nutritionnelle. Cette étude, menée par le centre d’investigation clinique de l’hôpital universitaire de Grenoble, teste l’impact de deux régimes contrôlés variant selon leur teneur en fibres (10 g et 40 g de fibres par jour) sur des volontaires sains. Ces régimes ont été administrés à 20 volontaires, âgés de 18 à 25 ans, en cross-over randomisé et en double aveugle (Figure 10). Les deux phases de régime ont été séparées par une période de deux semaines. Les volontaires ont reçu chaque régime (trois repas par jour) pendant une période de cinq jours[20]. Pour constituer la fécathèque, les échantillons ont été collectés avant et après les deux périodes de régime. Pour réaliser un contrôle, des échantillons ont été récoltés une semaine avant le début des régimes et une semaine après la fin de l’étude. Tous les échantillons ont été étiquetés et stockés immédiatement à -80°C. Afin de tester la répétabilité technique des outils moléculaires, une partie des échantillons a été préparée en double. Par ailleurs, à l’occasion de la collecte, l’eau fécale a été extraite des échantillons par ultracentrifugation pour établir des profils d’acides gras à chaînes courtes.

En parallèle de l’étude clinique, de nouveaux outils ont été développés. Tout d’abord, un référentiel écologique basé sur un inventaire moléculaire du gène de l’ARN 16S a été créé (Article 3). Les outils moléculaires comme des systèmes de PCR quantitative (Article 1) et une puce phylogénétique ainsi que des outils bioinformatiques (Article 2) ont été validés à partir de ce référentiel. En complément, une banque métagénomique de 200 000 clones a été créée et criblée sur plusieurs fonctions hydrolytiques : glucanase, xylanase, pectinase, amylase, galactanase et fructanase. Les résultats de ce criblage ont permis, entre autres, de mettre en évidence de nouveaux modules hydrolytiques et d’utiliser ces modules pour dessiner de nouveaux systèmes qPCR.

Tous ces outils ont été testés sur l’étude clinique « AlimIntest ». Ces travaux de thèse s’appuient principalement sur le projet « AlimIntest » pour évaluer l’impact de l’alimentation sur le microbiote intestinal. Néanmoins, les outils développés au cours de ce projet qui ont un but générique, ont également servi à évaluer l’adaptation du microbiote pendant la perte de poids dans le cadre de maladies métaboliques telles que l’obésité (Article 4).

Figure 10 : Schéma de l'intervention clinique du projet AlimIntest. Chaque disque représente un point de collecte. Chaque phase de régime dure 5 jours. Les points n°1 et n°2 (avant le début de la phase clinique) sont séparés d’une semaine ainsi que les points n°5 et n°6. La première période de « wash out » dure 15 jours. Chaque groupe est composé de 10 individus.

Les résultats de ce projet de thèse se repartissent en trois parties. Tout d’abord, le développement de nouveaux outils moléculaires et bioinformatiques a été nécessaire pour répondre aux objectifs du projet « AlimIntest », mais également pour s’adapter à l’évolution des techniques de séquençage haut débit. Ensuite, la caractérisation écologique du microbiote par séquençage a débouché sur la mise en évidence d’un noyau phylogénétique. Pour finir, l’adaptation structurelle et fonctionnelle du microbiote a été évaluée en fonction du régime alimentaire.

Développement de nouveaux outils moléculaires et bioinformatiques

Au début des années 2000, l’exploration du microbiote s’effectuait essentiellement par des techniques électrophorétiques comme la TTGE et par le séquençage bas débit par méthode Sanger. Ces techniques permettent essentiellement de connaître le profil d’un échantillon d’un point de vue qualitatif. La qPCR sur le gène de l’ARNr 16S permet d’apporter un complément d’informations car elle permet de quantifier les populations bactériennes dans le microbiote. Mes premières contributions dans l’unité d’écologie du système digestif furent d’une part d’apporter un soutien bioinformatique pour l’élaboration des systèmes qPCR, et d’autre part de mettre en place une démarche d’analyse statistique pour en analyser les résultats.

Composition et activité physiologique du microbiote par PCR quantitative

Une autre variable, qui dans certains cas peut influencer la mesure et la comparaison de différents groupes bactériens, est la teneur en eau de chaque échantillon. Une faible teneur en eau pourrait contribuer à une forte concentration bactérienne. Afin de surmonter cette variable, les données sont normalisées en fonction de la population bactérienne totale.

Un objectif supplémentaire a été de développer un moyen pour quantifier l’activité transcriptionnelle du microbiote en effectuant de la qPCR sur les ARN totaux. Pour cela, Jean-Pierre Furet de l’UEPSD a développé une méthode pour extraire les ARN totaux. Après une rétro-transcription, nous utilisons les systèmes qPCR publiés (Article 1) pour évaluer la quantité de molécules d’ARNr 16S en fonction des groupes dominants du microbiote. Nous voulons utiliser cette quantification pour calculer le ratio ARN/ADN afin d’évaluer l’activité physiologique des groupes dominants du microbiote.

La méthode basée sur les tétranucléotides pour accélérer la détection des OTUs

Dans les premiers mois suivant mon arrivée, voyant augmenter la charge en séquençage de l’équipe, j’ai ressenti l’envie de connecter les logiciels existants pour détecter les OTUs dans des inventaires moléculaires. En collaboration avec Christophe Caron de l’unité MIG[21], une interface a été créée pour que chacun puisse faire la détection d’OTUs à partir d’un jeu de séquences issues d’inventaires moléculaires, de manière conviviale (Figure 11). Néanmoins, ayant rapidement en charge, avec l’utilisation de ce logiciel baptisé RapidOTU, plus de 20 000 séquences dans le projet AlimIntest et anticipant l’avènement de la technologie « 454 » dans le laboratoire, il fallait trouver une alternative aux algorithmes d’alignement. C’est pour cela que pour la première fois, j’ai décidé de connecter la fréquence des tétranucléotides d’une séquence donnée avec un logiciel de regroupement d’OTUs comme DOTUR. Les premiers résultats furent très encourageants. En plus de comparer les deux algorithmes pour valider cette nouvelle méthode, il a fallu également analyser comment la méthode utilisant les tétranucléotides se comportait avec des séquences plus courtes issues de la technologie « 454 ». Néanmoins, à l’avenir le séquençage haut débit évoluera de telle manière à obtenir des séquences aussi longues que la méthode Sanger (Voir la partie « Séquençage haut débit », page 40 ).

Figure 11 : Interface Web de RapidOTU http://genome.jouy.inra.fr/rapidotu. Via l’interface, l’utilisateur peut téléverser les séquences du gène d’ARNr 16S sur le serveur distant par un simple copier-coller ou en explorant son ordinateur. Les résultats lui seront envoyés par mail. Pour éviter une surcharge de la plateforme de calcul de l’INRA de Jouy, l’utilisateur peut analyser 20 000 séquences à la fois.

En tirant au hasard 5000 séquences dans la base RDP II et en sélectionnant les régions encadrant les parties variables V6-V8, on peut remarquer que la méthode utilisant les tétranucléotides conserve la diversité détectée au sein des 5000 séquences quelle que soit la longueur des séquences, alors que la méthode des alignements multiples sous-estime la diversité quand elle est appliquée à des séquences courtes (Figure 12).

Il était essentiel dès lors de démontrer que le regroupement d’OTUs avec les tétranucléotides était le même qu’avec la méthode utilisant des alignements (Article 2). En collaboration avec le Genoscope, nous avons élaboré une stratégie pour évaluer la similarité de regroupement entre l’algorithme basé sur l’alignement et celui basé sur les fréquences des tétranucléotides. La sensibilité  et la spécificité de la méthode des tétranucléotides par rapport à celle basée sur l’alignement ont été évaluées. La sensibilité est la faculté de classer deux éléments dans la même catégorie lorsqu’ils le sont vraiment  et la spécificité est la faculté de séparer deux éléments quand ils doivent être séparés. L’indice de Rand basé sur la spécificité et la sensibilité apparaît comme un bon indicateur pour juger les deux méthodes.

 

Figure 12 : Comparaison des différents algorithmes en fonction de la richesse estimée en OTUs et de la taille des séquences.

Cependant, cet indice n’avait jamais été testé sur une telle problématique, c’est pourquoi il a été nécessaire de tester sa fiabilité. En effectuant en parallèle des comparaisons d’échantillons indépendants et des comparaisons appariées, on peut voir que les comparaisons appariées donnent toujours un meilleur score que les comparaisons de tirages indépendants. Cela signifie que le score fourni par l’indice de Rand est un bon indicateur de similarité entre deux algorithmes de regroupement et que son score n’est pas dû au hasard (Article 2, Figure 3).

L’utilisation des fréquences de tétranucléotides pour comparer des séquences a bien évidemment d’autres avantages que la rapidité d’exécution. En effet, cette méthode est très conservatrice en ce sens que la distance qui sépare deux séquences sera toujours la même quel que soit le nombre de séquences à comparer. Ceci constitue un avantage décisif sur les algorithmes d’alignement qui peuvent fluctuer en fonction des séquences à aligner. Ainsi deux séquences n’auront pas la même distance si elles sont incluses dans des jeux de données différents. Avec la comparaison de plusieurs millions de séquences, l’utilisation des tétranucléotides pour comparer les séquences d’ARNr 16S entre elles paraît dorénavant incontournable.

Evaluation technique de l’utilisation du pyroséquençage sur le microbiote

C’est une collaboration avec le centre de recherche et développement de Nestlé, que les premières séquences de pyroséquençage sont arrivées dans l’équipe. J’ai pu tester RapidOTU sur des réplicats techniques, c’est-à-dire cinq événements de séquençage sur le même échantillon. Alors que la proportion de phyla et de familles ne varie pas au sein des réplicats (Article 5), il semble qu’un nombre important d’OTUs ne soit pas détecté dans tous les réplicats.

A partir d’un échantillon fécal, une extraction ADN a été faite puis les régions V1-V2 et V4 du gène de l’ARNr 16S ont été séquencées avec la technologie « 454 » en cinq réplicats techniques. 8617 séquences ont été obtenues pour la région V1-V2 et 10522 séquences pour la région V4. Avec la méthode des tétranucléotides, RapidOTU permet de détecter 687 OTUs pour la région V1-V2 et 719 OTUs pour la région V4. 324 OTUs pour la région V1-V2 et 361 OTUS pour la région V4 ont été trouvées dans un seul réplicat sur les cinq. Ces OTUs dites « réplicats spécifiques » ont une abondance inférieure à 5 séquences quelle que soit la région du gène de l’ARNr 16S étudiée. 132 OTUs et 142 OTUs ont été retrouvées respectivement dans les cinq réplicats pour les régions V1-V2 et V4. De manière surprenante, 14 OTUs pour la région V1-V2 et 7 OTUs pour la région V4 ayant une abondance totale supérieure à 20 séquences n’ont pas été retrouvées dans tous les réplicats.

Ces informations nous renseignent que la répétabilité technique peut engendrer un biais dans l’analyse et que les OTUs détectées dans un seul réplicat constituent un bruit de fond important représentant près de 50 % des OTUs détectées. De plus, seulement environ 20 % ont été retrouvées dans tous les réplicats et près de 2 % des OTUs détectées en abondance ne sont pas détectées dans tous les réplicats. Toutes ces observations sont en faveur de l’utilisation de réplicats techniques pour la technologie du « 454 » pour la réalisation d’inventaires moléculaires. Néanmoins, lorsqu’il n’est pas possible de réaliser des réplicats techniques, il est nécessaire de prendre en compte que près de 50 % des OTUs, généralement peu abondantes et quelle que soit la région du gène de l’ARNr 16S, peuvent être dues à l’aléatoire et non à l’échantillon étudié.

Méthodologie pour accéder aux ARN messagers

La technique d’extraction des ARN totaux mise au point par Jean-Pierre Furet de l’UEPSD permet d’avoir une quantité très importante d’acides nucléiques (jusqu’à 100 µg pour 200 mg d’échantillon fécal). Cependant, l’accès par séquençage aux ARNm qui représentent moins de 5 % des ARN totaux est très difficile. Pour l’instant, c’est le kit d’hybridation soustractive « Microbes express® » qui a été utilisé. Un kit de purification permettant d’enlever les acides faisant moins de 100 pb est utilisé. Son utilisation a aussi pour conséquence d’appauvrir l’échantillon en ARNr 5S.

Figure 13 : Visualisation sur un profil de Bioanalyzer d’un échantillon d’ARN d’origine fécale avant et après l’utilisation du kit Microbes express®. Le produit d’une extraction ARN à partir d’un échantillon fécal est appauvri avec le kit d’hybridation soustractive en ARN ribosomaux. L’acide nucléique marqué migre en fonction de sa taille dans un capillaire. Le temps de migration, calibré par un témoin de migration, permet d’évaluer la taille des fragments nucléiques. Les deux pics illustrant la présence des ARNr 16S et 23S ne sont plus retrouvés après l’utilisation du kit.

Nous avons pu vérifier par Bioanalyzer d’Agilent (Figure 13), les profils des acides nucléiques avant et après l’utilisation du kit d’hybridation soustractive. De plus, une évaluation par qPCR des ARNr 16S, a permis de montrer la réduction d’un facteur 100 du nombre de copies d’ARNr 16S dans un échantillon.

Le microbiote est constitué d’un noyau phylogénétique

Le paradoxe que constitue l’hétérogénéité de la composition du microbiote intestinal et l’homogénéité fonctionnelle permettant le maintien de l’homéostasie chez les individus sains peut être expliqué par la présence d’un petit nombre d’espèces partagées par tous : le noyau phylogénétique du microbiote intestinal humain (Article 3). Pour caractériser ce noyau phylogénétique, plus de 10 000 séquences d’ARNr 16S ont été analysées. Elles sont issues d’échantillons provenant de 17 individus ayant des régimes variés, allant des régimes omnivores et à des régimes végétariens stricts. Un petit nombre de phylotypes représentant 2 % du nombre total d’OTUs détectées représente plus du tiers des séquences analysées. De plus, ces phylotypes sont partagés par la moitié des individus. Une OTU assignée à F. prausnitzii est partagée par 16 individus sur 17. D’autre part, un inventaire plus important de 5 000 séquences sur l’individu « AT » ayant le moins contribué au noyau phylogénétique d’OTUs a permis de détecter les OTUs du noyau assignées à F. prausnitzii et apparentées au genre Faecalibacterium.

Un nombre important d’OTUs est proche d’espèces types qui ont été bien caractérisées comme Roseburia intestinalis ou bien Bacteroides vulgatus par exemple. Ce qui est intéressant, c’est qu’une large variété de fonctions métaboliques comme les chaînes trophiques du métabolisme des glucides allant de l’hydrolyse jusqu’à la production des AGCC, est couverte et peut être attribuée en grande partie à ces phylotypes. La phylogénie buissonnante du microbiote intestinal est largement attribuée aux espèces du noyau phylogénétique. Le nombre important détecté d’OTUs assignées aux genres Bacteroides, Faecalibacterium, Ruminococcus et Roseburia est une indication importante sur la diversité pan-génomique potentielle des espèces affiliées à ces genres. Les quelques génomes séquencés des espèces du noyau phylogénétique indiquent un potentiel adéquat pour la fermentation des fibres alimentaires et la plupart de ces espèces sont de fortes productrices d’AGCC.  Il reste néanmoins un nombre d’OTUs très peu caractérisées dont le potentiel génétique reste à découvrir, notamment dans la famille des Lachnospiraceae et Ruminococcaceae.

Figure 14 : Comparaison du noyau phylogénétique avec des inventaires de patients atteints de la maladie de Crohn. Les OTUs de trois et quatre inventaires moléculaires de patients atteints de la maladie de Crohn (Lepage et al., 2005; Gophna et al., 2006; Manichanh et al., 2006) et d’individus sains (Eckburg et al., 2005; Gill et al., 2006; Manichanh et al., 2006; Li et al., 2008) ont été comparées par Blast aux espèces du noyau phylogénétique.

Malgré les différentes méthodologies, ces 66 OTUs issues d’individus français et néerlandais (n=17) ont toutes été retrouvées dans les autres inventaires moléculaires issus d’individus sains américains (n=5) (Eckburg et al., 2005; Gill et al., 2006) et chinois (n=5) (Li et al., 2008).  Cela supporte le concept du noyau phylogénétique du microbiote intestinal à travers une grande partie de l’humanité. La caractérisation de ce noyau devra être supportée par des analyses à grande échelle aussi bien d’un point de vue géographique que d’un point de vue de la profondeur de séquençage. Puisque le noyau phylogénétique issu d’individus sains supporte la robustesse fonctionnelle du microbiome intestinal humain, il est intéressant de tester sa présence en cas de dysbiose comme c’est le cas dans les maladies inflammatoires telles que la maladie de Crohn (Manichanh et al., 2006).

En effet, lorsque l’on teste la présence des 66 OTUs du noyau phylogénétique dans les inventaires de patients atteints de la maladie de Crohn, 13 OTUs constituent une partie « saine » spécifique de ce noyau par rapport à cette maladie (Figure 14). Ces OTUs sont principalement des Lachnospiraceae du genre Roseburia et des Ruminococcaceae comme par exemple l’espèce Oscillibacter valericigenes. Par ailleurs, cette OTU apparentée à O. valericigenes a été très peu détectée par qPCR dans une cohorte constituée de 16 individus atteints de la maladie de Crohn par rapport aux individus sains (Mondot et al., données non publiées).

Figure 15 : Schéma de l’organisation structurelle du microbiote intestinal humain. Les espèces du noyau phylogénétique et celles faisant partie de leurs guildes fonctionnelles respectives sont prépondérantes dans le noyau fonctionnel du microbiote intestinal humain. Elles peuvent facilement acquérir de l’énergie et participent pleinement au dialogue hôte microbiote. Les espèces mutualistes qui ne sont pas partagées par tous participent en grande partie aussi à la spécificité individuelle. A contrario, les bactéries commensales qui profitent de la niche écologique sont le plus souvent en transit dans le tractus en ayant une compétitivité plus faible pour acquérir de l’énergie par rapport aux espèces du noyau phylogénétique. Néanmoins, elles peuvent participer au dialogue hôte microbiote et à la spécificité individuelle. Les espèces parasites étant capables de nuire sont expulsées de la niche écologique et ne participent pas au dialogue hôte microbiote.

Le concept du noyau phylogénétique n’est pas incompatible avec le concept du noyau fonctionnel proposé par Turnbaugh et ses collègues. Pour soutenir le principe du noyau fonctionnel, Turnbaugh propose que l’homéostasie du microbiote soit portée par une structure en guilde fonctionnelle avec des espèces interchangeables pour chaque fonction du microbiote. Chaque guilde fonctionnelle serait en mutualisme avec l’hôte. Le concept du noyau phylogénétique va plus loin en proposant des espèces en symbiose avec l’hôte partageant des niches écologiques communes avec ces guildes fonctionnelles. En termes d’évolution, les guildes fonctionnelles dérivent de ces espèces symbiotiques en formant des buissons phylogénétiques. Le noyau phylogénétique participe au maintien du bon fonctionnement de ces guildes fonctionnelles et en  conséquence assure les fonctions partagées par tous les individus sains. Si le noyau phylogénétique du microbiote est altéré, le noyau fonctionnel le sera aussi. La dysbiose fonctionnelle de l’écosystème intestinal va se refléter dans l’altération de ces guildes puis dans la disparition d’espèces du noyau.

Connaître l’impact de l’environnement, et en particulier du régime alimentaire, sur ce noyau d’espèces partagées par tous permettra d’en évaluer les bienfaits.

Impact des régimes omnivore et végétarien sur le microbiote

Parmi les 17 sujets, neufs se sont déclarés omnivores et huit se sont déclarés végétariens. Lorsque l’on compare les données de qPCR quantitative normalisées par le système « All Bacteria », on observe une différence significative entre les deux groupes au niveau de l’abondance des Bacteroides (Figure 16). Les autres systèmes qPCR ne permettent pas de mettre en évidence de différences significatives entre les omnivores et les végétariens. La PCR quantitative révèle également une grande variabilité entre les individus avec parfois des valeurs extrêmes en F. prausnitzii pour l’individu AT par exemple. Pour le genre Bifidobacterium, on observe des différences de l’ordre d’un facteur 100 entre certains individus du même groupe.

La faiblesse de l’analyse qPCR sur des grands groupes bactériens est que parfois les cibles sont très larges, en particulier pour les groupes C. coccoides et C. leptum couvrant une diversité bactérienne importante, si bien que les variations « intracibles » ne sont pas observables. Concrètement, le système qPCR ciblant le groupe C. coccoides ne permet pas d’observer de différence entre les Lachnospiraceae et les Eubacteriaceae. C’est pourquoi, l’inventaire moléculaire du gène de l’ARNr 16S semble être un bon outil pour évaluer, avec une résolution se situant au niveau de l’OTU, des différences entre les deux régimes.

L’analyse interclasses, qui est un cas particulier de l’ACPVI, entre les omnivores et les végétariens permet de comparer la fréquence de distribution des OTUs entre les deux régimes. Moins de 5% de la variabilité totale permet de discriminer significativement les deux groupes. Cela peut être mis à profit pour mettre en valeur les OTUs les plus discriminantes entre les deux régimes.

 

Figure 16 : Comparaison de la composition du microbiote de neuf volontaires sains omnivores et de huit volontaires sains végétariens par PCR quantitative. Les résultats sont normalisés par le système « All bacteria » : les résultats sont exprimés en log et en fonction de la différence entre l’abondance des groupes bactériens ciblés et l’abondance de toutes les bactéries ciblées par le système « All Bacteria ».  Le système All Bacteria est exprimé en log équivalent génome d’E. coli. *Les omnivores sont enrichis en Bacteroides par rapport aux végétariens (p = 0,028).

L’analyse en coordonnées principales permet de séparer les OTUs en fonction de leur distance génétique (Figure 17). La distance représentée alors dans un espace à deux dimensions est euclidienne. Plus la distance entre les OTUs est importante, plus la distance génétique est grande. Combinée à l’analyse interclasses, l’analyse en composantes principales permet de confirmer une distribution en OTUs assignées au phylum Bacteroidetes en faveur des sujets omnivores, confirmant alors les résultats de qPCR. Même si la plupart des espèces du genre Bacteroides contiennent l’appareillage génomique pour dégrader certaines fibres alimentaires, supposées plus abondantes chez les végétariens, B. fragilis par exemple se cultive sur des milieux riches en peptones. Le régime végétarien profite peut-être aux espèces appartenant aux Firmicutes comme R. intestinalis et R. bromii, connues pour dégrader les polyosides complexes.

Figure 17 : Analyse en coordonnées principales des OTUs du microbiote fécal de 17 individus sains. L’analyse en coordonnées principales est réalisée à partir de la matrice de distance entre les séquences représentatives de chaque OTUs. Chaque OTU est symbolisée par un disque dont l’aire est proportionnelle au nombre total de séquences. Les couleurs allant du vert au rouge tiennent compte des scores de l’analyse interclasses des OTUs en fonction des deux régimes. La couleur rouge indique une OTU retrouvée plus abondamment dans les microbiotes des sujets omnivores tandis que la couleur verte indique une OTU retrouvée plus abondamment dans les microbiotes des sujets végétariens. Les OTUs représentant une seule séquence n’ont pas été représentées.

Au niveau de l’OTU, on peut faire la distinction entre deux Bifidobactéries, l’une assignée à Bifidobacterium sp., et l’autre assignée à B. longum. La première est retrouvée exclusivement chez les omnivores tandis que la deuxième est enrichie chez les végétariens. Cela indique que pour des espèces du même genre, il existe des différences au niveau de certaines potentialités fonctionnelles.

L’apport en fibres impacte-t-il les fonctions du microbiote ?

Cette partie s’appuie sur l’étude clinique du projet AlimIntest menée par la Pr Eric Fontaine.

Structuration du microbiote par le régime

Avant le début de l’étude clinique, nous n’observons pas de variation significative des biomasses bactériennes lorsque que l’on prend en compte la mesure réalisée par le système de qPCR « All Bacteria ». Entre le point n°1 et le point n°2, les variations observées à la fois entre les individus et dans le temps ne dépassent pas un facteur dix. Nous observons une variation totale de 11 à 11,8 log de bactéries totales par gramme d’échantillon avant la phase de régime. Les mesures extrêmes pendant les phases de régime ont été mesurées à 10,7 et à 12,3 log de bactéries totales. Les comparaisons appariées des individus ne donnent pas de résultats significativement différents en biomasse bactérienne pendant l’étude clinique.

Lorsque que l’on réalise une analyse en composantes principales en prenant comme variables instrumentales (Figure 18) les points de collecte de la dynamique du régime, un test de Monte Carlo indique que la variation du microbiote est bien structurée en fonction du régime (p < 0,05). Cette variation représente près de 14 % de la variation totale observée. Cette analyse révèle de la même manière que le microbiote est aussi structuré significativement en fonction des individus. Cette variation représente près de 50 % de la variation totale (p < 0,001). D’autre part, nous observons qu’avant l’intervention clinique, les points n°1 et n°2 sont très proches entre eux, illustrant que le microbiote de chaque individu est resté stable. La différence à l’état initial entre les deux groupes n’est pas significative.

Figure 18 : Analyse en composantes principales avec la dynamique de l'étude clinique comme variables instrumentales. Chaque point correspond à un point de collecte de l’étude illustrée en Figure 10. Les variables explicatives correspondant au plan d’inertie sont illustrées sur la droite. Les points bleus correspondent aux individus ayant pris un régime de 40 g de fibres par jour en premier, tandis que les points oranges correspondent aux individus ayant pris 10 g de fibres par jour.

D’après l’ACPVI, au terme de la période où les individus reprennent pendant 15 jours leurs habitudes alimentaires après la première phase de régime (entre les points n°3 et n°4), le microbiote ne revient pas à l’état initial (points n°1 & 2). Par conséquent, la deuxième phase de régime est directement impactée par la première phase de régime et cette période de 15 jours n’est donc pas suffisante pour réaliser un « Wash out ».

Durant la première phase du régime, le groupe ayant reçu le régime riche en fibres (40 g de fibres par jour), est particulièrement perturbé sur la composante E. coli par rapport au groupe ayant reçu le régime à 10 g de fibres par jour. Cette chute d’E. coli est significative pour le premier groupe (p < 0.01). De manière surprenante, quelle que soit la séquence du régime (i.e. 40-10 ou 10-40), nous observons une baisse significative du groupe C. coccoides jusqu’à la deuxième phase du régime, compensée par une augmentation de la proportion de E. coli et du groupe Bacteroides/Prevotella. L’abondance du groupe C. coccoides augmente dès la deuxième phase du régime jusqu’à une semaine après la fin du régime.

La composition du microbiote intestinal est donc structurée significativement en fonction du régime alimentaire. Cependant, cet effet n’est pas observable significativement au niveau de son activité physiologique donnée par RT-PCR quantitative.

Profils des acides gras à chaînes courtes pendant les phases de régime

Il nous a ensuite semblé important de quantifier les acides gras à chaînes courtes afin d’estimer le rendement ou l’activité globale de fermentation. Pour cela, Catherine Philippe de l’UEPSD a dosé l’acétate, le propionate, le butyrate, le valérate, le caproate ainsi que les iso-acides respectifs.

Au temps initial, nous observons une grande hétérogénéité chez les individus. Les profils d’AGCC sont très variables. Les concentrations en AGCC dominants sont pour l’acétate de 5,66 à 60,1 mM, pour le propionate de 1,87 à 15,94 mM et pour le butyrate de 1,11 à 26 mM. Les ratios acétate : propionate : butyrate oscillent entre 62 : 10 : 26 et 44 : 20 : 36. Par ailleurs, des concentrations très distinctes en iso-acides sont également mesurées, avec des concentrations en iso-butyrate et iso-valérate allant jusqu’à 8 mM.

Quelle que soit la séquence du régime appliqué, 10-40 ou 40-10, les profils sont extrêmement variables dans le temps et en fonction des individus. Notamment, avec des réponses aux régimes différentes voire opposées en fonction des régimes et d’un « wash out » qui ne permet pas un retour à l’état initial. Par ailleurs, l’ACPVI ne permet pas de détecter une structuration significative de l’activité métabolique du microbiote en fonction de la dynamique du régime (p > 0.05). La variation inter-individus est tellement importante, que près de 55 % de la variabilité totale est expliquée par l’individu (p < 0.001). A la fin de l’intervention clinique, les rapports acétate : propionate : butyrate oscillent entre 59 : 30 : 9 et 38 : 20 : 41.

Ces données indiquent également que la représentation en ratio d’AGCC semble montrer une plus grande homogénéité dans le temps, représentant pour certains individus un profil fermentaire stable dans le temps. Par contre, cette représentation marque une dynamique très importante de chaque AGCC (Figure 19).

(b)

 

(a)

 

Figure 19 : Profils des AGCC en fonction des individus avant et après la première phase du régime. (a) La quantité totale mesurée en AGCC peut différer d’un facteur 10 entre individus. (b) Apres la première phase de régime, les individus répondent très variablement à la quantité de fibres ingérées, si bien que la variabilité inter-individus représente 55 % de la variabilité totale.

Ces observations peuvent résulter d’une modulation des flux de production, de voies métaboliques régulées de manière différente par un apport plus élevé en substrats, de transports d’AGCC dont l’expression et la régulation ne sont pas identiques d’un AGCC à l’autre et en fonction du temps. Ces données ne permettent pas de conclure quant à l’augmentation spécifique d’un AGCC, qui pourrait avoir un effet bénéfique sur la santé de l’épithélium colique et donc de l’hôte. Une alimentation riche en fibres dans le cadre d’un régime normal, basée sur ces données préliminaires, ne produit pas d’effet « butyrate » comme recherché dans l’administration d’une fibre particulière comme prébiotique.

Corrélation entre les groupes dominants du microbiote et les profils AGCC

Lorsque l’on réalise une analyse de co-inertie en fonction des individus pour comparer les structures des données de qPCR et de dosages des AGCC, nous observons une co-structure significative entre les deux jeux de données (Figure 20). La même analyse en fonction de la dynamique du régime ne permet pas d’observer de structure significative. Cela est attendu puisque l’ACPVI ne donne pas de résultat significatif en fonction du régime pour les AGCC.

Figure 20 : Décomposition statistique des relations entre la composition du microbiote, son activité physiologique et la production des AGCC en fonction du régime. Malgré un impact inter-individus de 50% sur la variation totale, la dynamique imposée par l’étude clinique impacte la composition du microbiote et est responsable de près de 14 % de la variation totale. La composition du microbiote, son activité physiologique et la production des AGCC ne peuvent être corrélés entre eux que par la spécificité individuelle avec des analyses de co-inertie.

Dès lors, grâce à l’analyse de co-inertie, nous pouvons établir des corrélations fortes entre la présence de certains groupes bactériens et le dosage des AGCC (Figure 21). Nous observons que l’abondance de E. coli est très fortement anti-corrélée avec la production des AGCC principaux tels que l’acétate, le propionate est le butyrate. E. coli est très peu fermentaire et ne doit donc pas intervenir dans la production d’AGCC.

Figure 21 : Cercle de corrélations entre l'abondance des groupes du microbiote et la quantité d’acides gras à chaînes courtes.

L’abondance du groupe Bacteroides/Prevotella est bien corrélée avec la présence d’acétate, propionate, et butyrate. De manière surprenante, l’abondance de C. coccoides est anti-corrélée avec les trois AGCC principaux. Ceci peut être expliqué par le fait que le temps de croissance connu pour les espèces isolées de ce groupe est plus long.

La production des autres AGCC et des iso-acides varie indépendamment des acides principaux et de l’abondance d’E. coli, Bacteroides et du groupe C. coccoides. La production de ces acides est plutôt bien corrélée avec l’abondance en C. leptum et en Bifides.

Si la production de certains AGCC est corrélée significativement avec certaines composantes du microbiote, il est clair que la dynamique de production des AGCC est différente de celle observée avec le microbiote. Le microbiote réagit quantitativement au régime alimentaire avec des temporalités différentes en fonction des groupes bactériens dominants. La production des AGCC est très liée à l’individu.

Il semble qu’il existe un pouvoir tampon non lié au microbiote car les évolutions basées sur la qPCR semblent minimes. En revanche, l’absorption des différents AGCC doit être très différente d’un individu à l’autre. En combinant les effets sur le temps de transit et l’absorption des AGCC, une partie des résultats peut être interprétée comme liée au pouvoir tampon du tractus digestif.

Les variations de la structure du microbiote en fonction du régime ne peuvent être liées ni avec la production des AGCC ni avec l’activité transcriptionnelle basée sur le rapport ARN/ADN. D’autres mécanismes transcriptionnels sont en jeu, notamment à l’interface hôte/microbiote[22]. Par ailleurs, nous avons montré que bien d’autres facteurs entraient en jeu dans la dynamique structurelle du microbiote et celle de l’hôte. Certaines composantes du microbiote sont corrélées dynamiquement et significativement avec des variables métaboliques et inflammatoires de l’hôte, indépendamment de l’apport calorique (Article 4).

Jours

 

Jours

 

Jours

 

Jours

 

Jours

 

Jours

 

Figure 22 : Simulation de l’étude clinique AlimIntest avec différentes habitudes alimentaires sur la production d’acétate en mM. Trois types d’habitudes alimentaires ont été testées : 5 g de fibres par jour, 10 g de fibres par jour et 25 g de fibres par jour. En haut : séquences de régimes 40-10, en bas : séquences de régimes 10-40.

Un travail du laboratoire réalisé en parallèle, sur la modélisation de la chaîne trophique du côlon humain, permet d’obtenir des simulations théoriques. A partir de données issues de la littérature, le côlon a été modélisé (Muñoz-Tamayo et al., 2007). En réalisant des simulations identiques à l’étude clinique, nous avons mimé les différents régimes de base des individus. Le modèle retenu pour le ratio acétate : propionate : butyrate est 50 : 25 : 25. Les simulations du modèle ont permis de reproduire en théorie le comportement du microbiote des volontaires après 10 puis 40 ou 40 puis 10 g de fibres, en fonction du régime de départ (5 g, 10 g ou 25 g). Malgré les recommandations santé, les individus peuvent avoir un régime de base variant de 5 à 60 g de fibres par jour.

Le modèle donne une représentation simplifiée des profils d’AGCC attendus en fonction des régimes. Les paramètres d’absorption d’AGCC sont fixes et la réaction enzymatique peu modulée dans ce modèle. Malgré ces simplifications, le modèle permet tout de même d’anticiper des variations observées dans l’étude clinique. Un des problèmes rencontrés lors des études d’intervention nutritionnelle est la caractérisation du régime des volontaires avant l’intervention. Des questionnaires validés sont utilisés mais ne détaillent pas toujours les paramètres susceptibles d’influencer le microbiote, et sont basés sur du « déclaratif ». Dans le cas d’un régime à 25 g de fibres, on peut ainsi anticiper que chez certains individus le régime à 10 g de fibres voit les AGCC diminuer, puis être restitués lors du « wash out ». L’inverse est observé si le régime de départ est à 5 g par jour. Or c’est exactement ce que l’on peut observer sur certaines dynamiques d’AGCC pour certains individus (données non montrées).

Il est clair que de nombreux paramètres, en plus des habitudes alimentaires des patients, doivent être pris en compte pour savoir si le régime alimentaire impacte l’activité du microbiote. La variabilité des individus est très importante ainsi que leur réponse face au régime alimentaire. Si la composition du microbiote semble être impactée par le régime, son activité physiologique, mesurée par le ratio ARN/ADN, et les profils AGCC ne sont pas impactés significativement par le régime alimentaire. C’est peut-être à une autre échelle que le régime alimentaire peut influencer le microbiote, notamment au niveau de son méta-transcriptome. Une approche méta-transcriptomique est en cours. Elle pour objectif d’obtenir une résolution plus fine et offrirait une vision plus large des fonctions du microbiote que régulerait un régime riche en fibres. Nous ne pouvons fournir l’analyse des données dans cette version du manuscrit, le séquençage est en cours via un prestataire de service, qui nous délivrera les données aux environs du 20 novembre. Les analyses seront intégrées à la version finale de la thèse et les résultats analysés et interprétés avec les résultats de qPCR, de dosages d’AGCC réels et de simulations.

 


Conclusions et perspectives

Ces travaux de thèse ont permis de ré-évaluer la relation intime que nous avons avec notre microbiote en mettant en évidence l’existence d’un noyau phylogénétique d’espèces partagées par tous les individus. Ce nombre limité de phylotypes est particulièrement bien adapté à l’écosystème intestinal, si bien qu’on les trouve partagés par la majorité des individus. Il contribuerait à maintenir l’homéostasie intestinale ainsi que les fonctions principales assurées par le microbiote. L’existence de ce noyau proviendrait de la coévolution entre les espèces du microbiote et l’Homme. Il y a potentiellement deux forces qui s’affrontent pour maintenir ce consortium d’espèces à l’espèce humaine. D’une part, une pression de l’hôte oblige le génome de chaque souche de chaque espèce à être spécialement adapté à l’écosystème intestinal et d’autre part, une coopération et un dialogue entre les espèces elles-mêmes s’opèrent sous la forme de chaînes trophiques et de « quorum-sensing » leur permettant d’être résilientes dans le microbiome intestinal. Cela contribue à la persistance d’un « éco-génome » intestinal, à mettre en parallèle avec la notion d’écotype, c’est-à-dire d’une fraction génomique qui permet aux espèces de s’adapter à l’écosystème intestinal.

Cet « éco-génome » peut varier en fonction des niches écologiques dans l’intestin et en fonction du style de vie de l’individu, dont ses habitudes alimentaires. De plus, par l’intermédiaire de transferts horizontaux de gènes, il peut être partagé avec d’autres espèces, leur conférant un aspect mutualiste avec l’hôte. Etant précieux pour la résilience des espèces dans le microbiote, cet « éco-génome » doit être particulièrement transcrit par le microbiote. Il manque cependant des données pour étayer ces hypothèses, comme notamment le suivi métagénomique de l’implantation du microbiote et des espèces du noyau phylogénétique chez les nouveaux-nés. Cela permettrait d’en savoir davantage sur cette fenêtre ouverte où le dialogue entre l’hôte et son microbiote, au niveau immunitaire, est particulièrement intense.

D’un point de vue épidémiologique, il sera intéressant de confronter les séquences du noyau phylogénétique avec le suivi de familles ayant des membres atteints d’une maladie inflammatoire de l’intestin, ou bien de les utiliser comme outils diagnostiques pour anticiper la récidive de la maladie chez les patients après chirurgie. A posteriori, il sera utile d’étudier l’impact de l’absence d’une ou plusieurs espèces du noyau sur l’homéostasie du microbiote intestinal.

Les nouvelles technologies comme le séquençage génomique « single cell » permettront dans un futur très proche, d’avoir accès aux génomes des espèces du noyau qui sont phylogénétiquement loin des souches cultivées, et d’anticiper ou de suggérer leur rôle fonctionnel. D’autre part, le nano-séquençage permettra de séquencer massivement sans passer par une étape chimique ou enzymatique. Cette technologie permet aussi d’avoir accès directement aux acides nucléiques simple brin sans passer par une étape de rétro-transcription. Cela facilitera bien évidemment les études de méta-transcriptomique. Le développement d’outils bioinformatiques et bio-statistiques devra faire face, plus que jamais, aux évolutions technologiques futures en créant de nouveaux concepts d’analyse. Le besoin de standardiser les méthodes d’analyse est devenu un point très critique pour intégrer les données des autres études. Tant que les méthodes de production de données et d’analyse de résultats ne seront pas standardisées, nous allons être confrontés à un grand nombre d’études dont les messages ou conclusions se contrediront alors que les données ne sont pas si antinomiques.

A travers le projet AlimIntest, ces travaux de thèse ont tenté d’intégrer des concepts mathématiques, microbiologiques, physiologiques et écologiques au service d’une question nutritionnelle et de santé. Malgré la variabilité inter-individus et intra-individus dans le temps, l’homogénéité de la cohorte clinique et le schéma de l’étude en cross-over randomisé, permettent d’avancer de premières conclusions solides sur l’impact des fibres alimentaires sur le microbiote. Celui-ci est directement structuré dans sa composition dans le temps en fonction des régimes. L’étude en cross-over a permis de révéler qu’une période de « wash-out » de 15 jours, pour ce type d’étude, n’était pas suffisante, ce qui permet indirectement aussi d’affirmer que le microbiote est impacté par le régime alimentaire pendant au moins deux semaines. Pour finir, le microbiote est d’abord corrélé à la production des AGCC par la spécificité individuelle et non par l’impact du régime. Cela suggère que les recommandations nutritionnelles futures devront tenir compte de la spécificité de chacun. Pour finir, ces travaux ouvrent ainsi de nouvelles perspectives pour de futures investigations nutritionnelles et épidémiologiques.

 

 

 


References

Acinas, S.G., Marcelino, L.A., Klepac-Ceraj, V., and Polz, M.F. (2004) Divergence and redundancy of 16S rRNA sequences in genomes with multiple rrn operons. J Bacteriol 186: 2629-2635.

Altschul, S.F., Madden, T.L., Schaffer, A.A., Zhang, J., Zhang, Z., Miller, W., and Lipman, D.J. (1997) Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Research 25: 3389-3402.

Amann, R.I., Ludwig, W., and Schleifer, K.H. (1995) Phylogenetic identification and in situ detection of individual microbial cells without cultivation. Microbiological Reviews 59: 143-169.

Anderson, J.W. (1986) Dietary fiber in nutrition management of diabetes. In Dietary fiber. Plenum (ed). New York, pp. 343-360.

Ashelford, K.E., Chuzhanova, N.A., Fry, J.C., Jones, A.J., and Weightman, A.J. (2006) New screening software shows that most recent large 16S rRNA gene clone libraries contain chimeras. Applied and Environmental Microbiology 72: 5734-5741.

Backhed, F., Ley, R.E., Sonnenburg, J.L., Peterson, D.A., and Gordon, J.I. (2005) Host-Bacterial Mutualism in the Human Intestine. Science 307: 1915-1920.

Backhed, F., Ding, H., Wang, T., Hooper, L.V., Koh, G.Y., Nagy, A. et al. (2004) The gut microbiota as an environmental factor that regulates fat storage. Proc Natl Acad Sci U S A 101: 15718-15723.

Berg Miller, M.E., Antonopoulos, D.A., Rincon, M.T., Band, M., Bari, A., Akraiko, T. et al. (2009) Diversity and strain specificity of plant cell wall degrading enzymes revealed by the draft genome of Ruminococcus flavefaciens FD-1. PLoS ONE 4: e6650.

Bik, E.M., Eckburg, P.B., Gill, S.R., Nelson, K.E., Purdom, E.A., Francois, F. et al. (2006) Molecular analysis of the bacterial microbiota in the human stomach. Proceedings of the National Academy of Sciences 103: 732-737.

Cantarel, B.L., Coutinho, P.M., Rancurel, C., Bernard, T., Lombard, V., and Henrissat, B. (2009) The Carbohydrate-Active EnZymes database (CAZy): an expert resource for Glycogenomics. Nucleic Acids Res 37: D233-238.

Chessel, D., Dufour, A.- B. and Thioulouse, J. (2004) The ade4  package-I- One-table methods. R News 4: 5 - 10.

Coen, J.A., and Dehority, B.A. (1970) Degradation and utilization of hemicellulose from intact forages by pure cultures of rumen bacteria. Appl Microbiol 20: 362-368.

Cole, J.R., Chai, B., Farris, R.J., Wang, Q., Kulam, S.A., McGarrell, D.M. et al. (2005) The Ribosomal Database Project (RDP-II): sequences and tools for high-throughput rRNA analysis. Nucleic Acids Research 33: D294-296.

Danchin, A. (2002) Génomes et évolution. Annales de l’Institut Pasteur 11: 9-18.

DeLong, E.F. (2009) The microbial ocean from genomes to biomes. Nature 459: 200-206.

DeSantis, T.Z., Jr., Hugenholtz, P., Keller, K., Brodie, E.L., Larsen, N., Piceno, Y.M. et al. (2006) NAST: a multiple sequence alignment server for comparative analysis of 16S rRNA genes. Nucleic Acids Res 34: W394-399.

Dethlefsen, L., McFall-Ngai, M., and Relman, D.A. (2007) An ecological and evolutionary perspective on human-microbe mutualism and disease. Nature 449: 811-818.

Dinsdale, E.A., Edwards, R.A., Hall, D., Angly, F., Breitbart, M., Brulc, J.M. et al. (2008) Functional metagenomic profiling of nine biomes. Nature 452: 629-632.

Dolédec, S., and Chessel, D. (1994) Co-inertia analysis: an alternative method for stidying species - environement relationships. Freshwater Biology 31: 277-294.

Dolédec, S., Chessel, D., Ter Braak, C.J.F., and Champely, S. (1996) Matching species traits to environmental variables: a new three-table ordination method. Environmental and Ecological Statistics 3: 143-166.

Duncan, S., Belenguer, A., Holtrop, G., Johnstone, A., Flint, H., and Lobley, G. ( 2007) Reduced dietary intake of carbohydrates by obese subjects results in decreased concentrations of butyrate and butyrate-producing bacteria in feces. Applied and Environmental Microbiology 73: 1073-1078.

Duncan, S.H., Scott, K.P., Ramsay, A.G., Harmsen, H.J.M., Welling, G.W., Stewart, C.S., and Flint, H.J. (2003) Effects of Alternative Dietary Substrates on Competition between Human Colonic Bacteria in an Anaerobic Fermentor System. In, pp. 1136-1142.

Duncan, S.H., Lobley, G.E., Holtrop, G., Ince, J., Johnstone, A.M., Louis, P., and Flint, H.J. (2008) Human colonic microbiota associated with diet, obesity and weight loss. Int J Obes (Lond) 32: 1720-1724.

Eckburg, P.B., Bik, E.M., Bernstein, C.N., Purdom, E., Dethlefsen, L., Sargent, M. et al. (2005) Diversity of the Human Intestinal Microbial Flora. Science 308: 1635-1638.

Edwards, U., Rogall, T., Blocker, H., Emde, M., and Bottger, E.C. (1989) Isolation and direct complete nucleotide determination of entire genes. Characterization of a gene coding for 16S ribosomal RNA. Nucleic Acids Res 17: 7843-7853.

Egert, M., de Graaf, A.A., Smidt, H., de Vos, W.M., and Venema, K. (2006) Beyond diversity: functional microbiomics of the human colon. Trends Microbiol 14: 86-91.

Favier, C.F., Vaughan, E.E., De Vos, W.M., and Akkermans, A.D. (2002) Molecular monitoring of succession of bacterial communities in human neonates. Applied and Environmental Microbiology 68: 219-226.

Felsentein, J. (1989) PHYLIP - Phylogeny Inference Package (Version 3.2). Cladistics 5: 164-166.

Field, D., Garrity, G., Gray, T., Morrison, N., Selengut, J., Sterk, P. et al. (2008) The minimum information about a genome sequence (MIGS) specification. Nat Biotechnol 26: 541-547.

Finegold, S.M., Attebery, H.R., and Sutter, V.L. (1974) Effect of diet on human fecal flora: comparison of Japanese and American diets. Am J Clin Nutr 27: 1456-1469.

Firkins, J.L., Bowman, J.G., Weiss, W.P., and Naderer, J. (1991) Effects of protein, carbohydrate, and fat sources on bacterial colonization degradation of fiber in vitro. J Dairy Sci 74: 4273-4283.

Flint, H.J., Duncan, S.H., Scott, K.P., and Louis, P. (2007) Interactions and competition within the microbial community of the human colon: links between diet and health. In, pp. 1101-1111.

Flint, H.J., Bayer, E.A., Rincon, M.T., Lamed, R., and White, B.A. (2008) Polysaccharide utilization by gut bacteria: potential for new insights from genomic analysis. Nature Reviews. Microbiology 6: 121-131.

Frank, D.N., St Amand, A.L., Feldman, R.A., Boedeker, E.C., Harpaz, N., and Pace, N.R. (2007) Molecular-phylogenetic characterization of microbial community imbalances in human inflammatory bowel diseases. Proc Natl Acad Sci U S A 104: 13780-13785.

Gianoulis, T.A., Raes, J., Patel, P.V., Bjornson, R., Korbel, J.O., Letunic, I. et al. (2009) Quantifying environmental adaptation of metabolic pathways in metagenomics. Proc Natl Acad Sci U S A 106: 1374-1379.

Gibson, G.R. (1998) Dietary modulation of the human gut microflora using prebiotics. British Journal of Nutrition 80: S209-212.

Gilbert, J.A., Field, D., Huang, Y., Edwards, R., Li, W., Gilna, P., and Joint, I. (2008) Detection of large numbers of novel sequences in the metatranscriptomes of complex marine microbial communities. PLoS One 3: e3042.

Gill, S.R., Pop, M., DeBoy, R.T., Eckburg, P.B., Turnbaugh, P.J., Samuel, B.S. et al. (2006) Metagenomic Analysis of the Human Distal Gut Microbiome. Science 312: 1355-1359.

Gophna, U., Sommerfeld, K., Gophna, S., Doolittle, W.F., and Veldhuyzen van Zanten, S.J.O. (2006) Differences between Tissue-Associated Intestinal Microfloras of Patients with Crohn's Disease and Ulcerative Colitis▿‡. J Clin Microbiol 44: 4136-4141.

Guigoz, Y., Dore, J., and Schiffrin, E.J. (2008) The inflammatory status of old age can be nurtured from the intestinal environment. Curr Opin Clin Nutr Metab Care 11: 13-20.

Handelsman, J. (2004) Metagenomics: application of genomics to uncultured microorganisms. Microbiol Mol Biol Rev 68: 669-685.

Hayashi, H., Sakamoto, M., and Benno, Y. (2002a) Fecal microbial diversity in a strict vegetarian as determined by molecular analysis and cultivation. Microbiology and Immunology 46: 819-831.

Hayashi, H., Sakamoto, M., and Benno, Y. (2002b) Phylogenetic analysis of the human gut microbiota using 16S rDNA clone libraries and strictly anaerobic culture-based methods. Microbiology and Immunology 46: 535-548.

Holdeman, L.V., Good, I.J., and Moore, W.E.C. (1976) Human fecal flora : variation in bacterial composition within individuals and a possible effect of emotional stess. Applied and Environmental Microbiology 31: 359-375.

Hooper, L.V., and Gordon, J.I. (2001) Commensal Host-Bacterial Relationships in the Gut. Science 292: 1115-1118.

Huber, T., Faulkner, G., and Hugenholtz, P. (2004) Bellerophon: a program to detect chimeric sequences in multiple sequence alignments. Bioinformatics 20: 2317-2319.

Hugenholtz, P., and Tyson, G.W. (2008) Microbiology: metagenomics. Nature 455: 481-483.

Huson, D.H., Auch, A.F., Qi, J., and Schuster, S.C. (2007) MEGAN analysis of metagenomic data. Genome Res 17: 377-386.

Jacobs, L.R. (1986) Dietary fiber and gastrointestinal epithelial cell proliferation. In Dietary fiber. Plenum (ed). New york, pp. 211-228.

Jimenez, E., Fernandez, L., Marin, M.L., Martin, R., Odriozola, J.M., Nueno-Palop, C. et al. (2005) Isolation of commensal bacteria from umbilical cord blood of healthy neonates born by cesarean section. Curr Microbiol 51: 270-274.

Kristiansson, E., Hugenholtz, P., and Dalevi, D. (2009) ShotgunFunctionalizeR: an R-package for functional comparison of metagenomes. Bioinformatics 25: 2737-2738.

Kruse, H.P., Kleessen, B., and Blaut, M. (1999) Effects of inulin on faecal bifidobacteria in human subjects. Br J Nutr 82: 375-382.

Kurokawa, K., Itoh, T., Kuwahara, T., Oshima, K., Toh, H., Toyoda, A. et al. (2007) Comparative metagenomics revealed commonly enriched gene sets in human gut microbiomes. DNA Research 14: 169-181.

Lay, C., Sutren, M., Rochet, V., Saunier, K., Doré, J., and Rigottier-Gois, L. (2004) Design and validation of 16S rRNA probes to enumerate members of the Clostridium leptum subgroup in human faecal microbiota. Environmental Microbiology in press.

Lee, Z.M., Bussema, C., 3rd, and Schmidt, T.M. (2009) rrnDB: documenting the number of rRNA and tRNA genes in bacteria and archaea. Nucleic Acids Res 37: D489-493.

Legendre, P., and Legendre, L. (1998) Numerical ecology. Second english edition. Amsterdam: Elsevier.

Lepage, P., Seksik, P., Sutren, M., Cochetière, M.-F.d.l., Jian, R., Marteau, P., and Doré, J. (2005) Biodiversity of the mucosa-associated microbiota is stable along the distal digestive tract in healthy individuals and patients with IBD. Inflammatory Bowel Diseases 11: 473-480.

Ley, R.E., Peterson, D.A., and Gordon, J.I. (2006a) Ecological and evolutionary forces shaping microbial diversity in the human intestine. Cell 124: 837-848.

Ley, R.E., Turnbaugh, P.J., Klein, S., and Gordon, J.I. (2006b) Microbial ecology: Human gut microbes associated with obesity. Nature 444: 1022.

Ley, R.E., Backhed, F., Turnbaugh, P., Lozupone, C.A., Knight, R.D., and Gordon, J.I. (2005) Obesity alters gut microbial ecology. Proceedings of the National Academy of Sciences 102: 11070-11075.

Ley, R.E., Hamady, M., Lozupone, C., Turnbaugh, P.J., Ramey, R.R., Bircher, J.S. et al. (2008) Evolution of mammals and their gut microbes. Science 320: 1647-1651.

Li, K.B. (2003) ClustalW-MPI: ClustalW analysis using distributed and parallel computing. Bioinformatics 19: 1585-1586.

Li, M., Wang, B., Zhang, M., Rantalainen, M., Wang, S., Zhou, H. et al. (2008) Symbiotic gut microbes modulate human metabolic phenotypes. Proceedings of the National Academy of Sciences of the United States of America 105: 2117-2122.

Li, W., and Godzik, A. (2006) Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences. Bioinformatics 22: 1658-1659.

Lozupone, C.A., Hamady, M., Cantarel, B.L., Coutinho, P.M., Henrissat, B., Gordon, J.I., and Knight, R. (2008) The convergence of carbohydrate active gene repertoires in human gut microbes. Proc Natl Acad Sci U S A 105: 15076-15081.

Lupton, J.R., Coder, D.M., and Jacobs, L.R. (1985) Influence of luminal pH on rat large bowel epithelial cell cycle. American Journal of Physiology 249: G382-G388.

Macdonald, T.T., and Monteleone, G. (2005) Immunity, inflammation, and allergy in the gut. Science 307: 1920-1925.

Mackie, R., Sghir, A., and Gaskins, H.R. (1999) Developmental microbial ecology of the neonatal gastrointestinal tract. American Journal of Clinical Nutrition 69: 1035S-1045S.

Manichanh, C., Rigottier-Gois, L., Bonnaud, E., Gloux, K., Pelletier, E., Frangeul, L. et al. (2006) Reduced diversity of faecal microbiota in Crohn's disease revealed by a metagenomic approach. Gut 55: 205-211.

Mariat, D., Firmesse, O., Levenez, F., Guimaraes, V., Sokol, H., Dore, J. et al. (2009) The Firmicutes/Bacteroidetes ratio of the human microbiota changes with age. BMC Microbiol 9: 123.

Martin, A.P. (2002) Phylogenetic approaches for describing and comparing the diversity of microbial communities. Applied and Environmental Microbiology 68: 3673-3682.

Matsuki, T., Watanabe, K., Fujimoto, J., Kado, Y., Takada, T., Matsumoto, K., and Tanaka, R. (2004) Quantitative PCR with 16S rRNA-gene-targeted species-specific primers for analysis of human intestinal bifidobacteria. Applied and Environmental Microbiology 70: 167-173.

Mazmanian, S.K., Liu, C.H., Tzianabos, A.O., and Kasper, D.L. (2005) An immunomodulatory molecule of symbiotic bacteria directs maturation of the host immune system. Cell 122: 107-118.

McHardy, A.C., Martin, H.G., Tsirigos, A., Hugenholtz, P., and Rigoutsos, I. (2007) Accurate phylogenetic classification of variable-length DNA fragments. Nat Methods 4: 63-72.

McIntyre, A., Gibson, P.R., and Young, G.P. (1993) Butyrate production from dietary fibre and protection against large bowel cancer in a rat model. Gut 34: 386-391.

Medini, D., Donati, C., Tettelin, H., Masignani, V., and Rappuoli, R. (2005) The microbial pan-genome. Curr Opin Genet Dev 15: 589-594.

Medini, D., Serruto, D., Parkhill, J., Relman, D.A., Donati, C., Moxon, R. et al. (2008) Microbiology in the post-genomic era. Nat Rev Microbiol 6: 419-430.

Miron, J., Ben-Ghedalia, D., and Morrison, M. (2001) Invited review: adhesion mechanisms of rumen cellulolytic bacteria. J Dairy Sci 84: 1294-1309.

Mourino, F., Akkarawongsa, R., and Weimer, P.J. (2001) Initial pH as a determinant of cellulose digestion rate by mixed ruminal microorganisms in vitro. J Dairy Sci 84: 848-859.

Muñoz-Tamayo, R., Steyer, J.P., Laroche, B., and Leclerc, M. (2007) Human colon: a complex bioreactor. conceptual modelling for the anaerobic digestion of the functional trophic chain. Proc. 11th World Congress Anaerobic Digestion Bioenergy for our Future, Brisbane, Australia.

Mutch, D.M., Simmering, R., Donnicola, D., Fotopoulos, G., Holzwarth, J.A., Williamson, G., and Corthesy-Theulaz, I. (2004) Impact of commensal microbiota on murine gastrointestinal tract gene ontologies. Physiol Genomics 19: 22-31.

Ogata, H., Goto, S., Sato, K., Fujibuchi, W., Bono, H., and Kanehisa, M. (1999) KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res 27: 29-34.

Pavoine, S., Dufour, A.B., and Chessel, D. (2004) From dissimilarities among species to dissimilarities among communities: a double principal coordinate analysis. Journal of Theoretical Biology 228: 523-537.

Penders, J., Thijs, C., Vink, C., Stelma, F.F., Snijders, B., Kummeling, I. et al. (2006) Factors influencing the composition of the intestinal microbiota in early infancy. Pediatrics 118: 511-521.

Penders, J., Thijs, C., van den Brandt, P.A., Kummeling, I., Snijders, B., Stelma, F. et al. (2007a) Gut microbiota composition and development of atopic manifestations in infancy: the KOALA Birth Cohort Study. Gut 56: 661-667.

Penders, J., Stobberingh, E.E., van den Brandt, P.A., Thijs, C., Penders, J., Thijs, C. et al. (2007b) The role of the intestinal microbiota in the development of atopic disorders

Gut microbiota composition and development of atopic manifestations in infancy: the KOALA Birth Cohort Study

Breastfeeding and infant eczema in the first year of life in the KOALA birth cohort study: a risk period-specific analysis. Allergy 62: 1223-1236.

Perez, P.F., Dore, J., Leclerc, M., Levenez, F., Benyacoub, J., Serrant, P. et al. (2007) Bacterial Imprinting of the Neonatal Immune System: Lessons From Maternal Cells? Pediatrics 119: e724-732.

Pérez, S., and Mazeau, K. (2005) Conformation, Structures, and Morphologies of Celluloses. In Polysaccharides: structural diversity and functional versatility. New York: CRC; 2 edition, pp. 41-68.

Pryde, S.E., Duncan, S.H., Hold, G.L., Stewart, C.S., and Flint, H.J. (2002) The microbiology of butyrate formation in the human colon. FEMS Microbiology Letters 217: 133-139.

Raes, J., Foerstner, K.U., and Bork, P. (2007) Get the most out of your metagenome: computational analysis of environmental sequence data. Current Opinion in Microbiology 10: 490-498.

Rigottier-Gois, L., Le Bourhis, A.-G., Gramet, G., Rochet, V., and Doré, J. (2003a) Fluorescent hybridisation combined with flow cytometry and hybridisation of total RNA to analyse the composition of microbial communities in human faeces using 16S rRNA probes. FEMS Microbiology Ecology 43: 237-245.

Rigottier-Gois, L., Rochet, V., Garrec, N., Suau, A., and Dore, J. (2003b) Enumeration of Bacteroides species in human faeces by fluorescent in situ hybridisation combined with flow cytometry using 16S rRNA probes. Systematic and Applied Microbiology 26: 110-118.

Rigottier-Gois, L., Le Bourhis, A.-G., Gramet, G., Rochet, V., and Dore, J. (2003c) Fluorescent hybridisation combined with flow cytometry and hybridisation of total RNA to analyse the composition of microbial communities in human faeces using 16S rRNA probes. FEMS Microbiology Ecology 43: 237-245.

Robert, C., and Bernalier-Donadille, A. (2003) The cellulolytic microflora of the human colon: evidence of microcrystalline cellulose-degrading bacteria in methane-excreting subjects. FEMS Microbiology Ecology 46: 81-89.

Rondon, M.R., August, P.R., Bettermann, A.D., Brady, S.F., Grossman, T.H., Liles, M.R. et al. (2000) Cloning the Soil Metagenome: a Strategy for Accessing the Genetic and Functional Diversity of Uncultured Microorganisms. Applied and Environmental Microbiology 66: 2541-2547.

Rowland, I.R., Rumney, C.J., Coutts, J.T., and Lievense, L.C. (1998) Effect of Bifidobacterium longum and inulin on gut bacterial metabolism and carcinogen-induced aberrant crypt foci in rats. Carcinogenesis 19: 281-285.

Rudi, K., Zimonja, M., Kvenshagen, B., Rugtveit, J., Midtvedt, T., and Eggesbo, M. (2007) Alignment-independent comparisons of human gastrointestinal tract microbial communities in a multidimensional 16S rRNA gene evolutionary space. Applied and Environmental Microbiology 73: 2727-2734.

Russell, J.B., and Wilson, D.B. (1996) Why are ruminal cellulolytic bacteria unable to digest cellulose at low pH? J Dairy Sci 79: 1503-1509.

Savage, D.C. (1977) Microbial ecology of the gastrointestinal tract. Ann. Rev. Microbiol. 31: 107-133.

Schloss, P.D. (2008) Evaluating different approaches that test whether microbial communities have the same structure. Isme J 2: 265-275.

Schloss, P.D., and Handelsman, J. (2005) Introducing DOTUR, a Computer Program for Defining Operational Taxonomic Units and Estimating Species Richness. Applied and Environmental Microbiology 71: 1501-1506.

Schloss, P.D., and Handelsman, J. (2006) Introducing TreeClimber, a Test To Compare Microbial Community Structures. Applied and Environmental Microbiology 72: 2379-2384.

Schloss, P.D., and Handelsman, J. (2008) A statistical toolbox for metagenomics: assessing functional diversity in microbial communities. BMC Bioinformatics 9: 34.

Schloss, P.D., Larget, B.R., and Handelsman, J. (2004) Integration of Microbial Ecology and Statistics: a Test To Compare Gene Libraries. Applied and Environmental Microbiology 70: 5485-5492.

Schwarz, W.H. (2001) The cellulosome and cellulose degradation by anaerobic bacteria. Appl Microbiol Biotechnol 56: 634-649.

Schwiertz, A., Taras, D., Schafer, K., Beijer, S., Bos, N.A., Donus, C., and Hardt, P.D. (2009) Microbiota and SCFA in Lean and Overweight Healthy Subjects. Obesity (Silver Spring) 4: 4.

Sghir, A., Gramet, G., Suau, A., Rochet, V., Pochart, P., and Dore, J. (2000) Quantification of Bacterial Groups within Human Fecal Flora by Oligonucleotide Probe Hybridization. Applied and Environmental Microbiology 66: 2263-2266.

Sonnenburg, J.L., Chen, C.T., and Gordon, J.I. (2006) Genomic and metabolic studies of the impact of probiotics on a model gut symbiont and host. PLoS Biol 4: e413.

Sonnenburg, J.L., Xu, J., Leip, D.D., Chen, C.-H., Westover, B.P., Weatherford, J. et al. (2005) Glycan Foraging in Vivo by an Intestine-Adapted Bacterial Symbiont. Science 307: 1955-1959.

Stam, M.R., Danchin, E.G., Rancurel, C., Coutinho, P.M., and Henrissat, B. (2006) Dividing the large glycoside hydrolase family 13 into subfamilies: towards improved functional annotations of alpha-amylase-related proteins. Protein Engineering, Design and Selection 19: 555-562.

Suau, A., Bonnet, R., Sutren, M., Godon, J.J., Gibson, G.R., Collins, M.D., and Dore, J. (1999) Direct analysis of genes encoding 16S rRNA from complex communities reveals many novel molecular species within the human gut. Applied and Environmental Microbiology 65: 4799-4807.

Sun, Y., Cai, Y., Liu, L., Yu, F., Farrell, M.L., McKendree, W., and Farmerie, W. (2009) ESPRIT: estimating species richness using large collections of 16S rRNA pyrosequences. Nucleic Acids Research 37: e76.

Swidsinski, A., Ladhoff, A., Pernthaler, A., Swidsinski, S., Loening-Baucke, V., Ortner, M. et al. (2002) Mucosal flora in inflammatory bowel disease. Gastroenterology 122: 44-54.

Tannock, G.W. (2007) What immunologists should know about bacterial communities of the human bowel. Semin Immunol 19: 94-105.

Tatusov, R.L., Natale, D.A., Garkavtsev, I.V., Tatusova, T.A., Shankavaram, U.T., Rao, B.S. et al. (2001) The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res 29: 22-28.

Teeling, H., Meyerdierks, A., Bauer, M., Amann, R., and Glockner, F.O. (2004a) Application of tetranucleotide frequencies for the assignment of genomic fragments. In, pp. 938-947.

Teeling, H., Waldmann, J., Lombardot, T., Bauer, M., and Glockner, F.O. (2004b) TETRA: a web-service and a stand-alone program for the analysis and comparison of tetranucleotide usage patterns in DNA sequences. BMC Bioinformatics 5: 163.

Thompson, J.D., Higgins, D.G., and Gibson, T.J. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Research 22: 4673-4680.

Tringe, S.G., von Mering, C., Kobayashi, A., Salamov, A.A., Chen, K., Chang, H.W. et al. (2005) Comparative Metagenomics of Microbial Communities. Science 308: 554-557.

Tschop, M.H., Hugenholtz, P., and Karp, C.L. (2009) Getting to the core of the gut microbiome. Nat Biotechnol 27: 344-346.

Turnbaugh, P.J., Ley, R.E., Mahowald, M.A., Magrini, V., Mardis, E.R., and Gordon, J.I. (2006) An obesity-associated gut microbiome with increased capacity for energy harvest. Nature 444: 1027.

Turnbaugh, P.J., Ley, R.E., Hamady, M., Fraser-Liggett, C.M., Knight, R., and Gordon, J.I. (2007) The human microbiome project. Nature 449: 804-810.

Turnbaugh, P.J., Hamady, M., Yatsunenko, T., Cantarel, B.L., Duncan, A., Ley, R.E. et al. (2009) A core gut microbiome in obese and lean twins. Nature 457: 480-484.

van Tongeren, S.P., Slaets, J.P., Harmsen, H.J., and Welling, G.W. (2005) Fecal microbiota composition and frailty. Appl Environ Microbiol 71: 6438-6442.

Vasquez, N., Mangin, I., Lepage, P., Seksik, P., Duong, J.-P., Blum, S. et al. (2007) Patchy distribution of mucosal lesions in ileal Crohn's disease is not linked to differences in the dominant mucosa-associated bacteria: A study using fluorescence in situ hybridization and temporal temperature gradient gel electrophoresis. Inflammatory Bowel Diseases 13: 684-692.

Wang, Q., Garrity, G.M., Tiedje, J.M., and Cole, J.R. (2007) Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Appl Environ Microbiol 73: 5261-5267.

Wei, C., and Brent, M.R. (2006) Using ESTs to improve the accuracy of de novo gene prediction. BMC Bioinformatics 7: 327.

Weimer, P.J. (1996) Why don't ruminal bacteria digest cellulose faster? J Dairy Sci 79: 1496-1502.

White, J.R., Nagarajan, N., and Pop, M. (2009) Statistical methods for detecting differentially abundant features in clinical metagenomic samples. PLoS Comput Biol 5: e1000352.

Willner, D., Thurber, R.V., and Rohwer, F. (2009) Metagenomic signatures of 86 microbial and viral metagenomes. Environ Microbiol 18: 18.

Woese, C.R. (1979) A proposal concerning the origin of life on the planet earth. Journal of Molecular Evolution 13: 95-101.

Woese, C.R. (1987) Bacterial evolution. Microbiological Reviews 51: 221-271.

Woodmansey, E.J. (2007) Intestinal bacteria and ageing. J Appl Microbiol 102: 1178-1186.

Woyke, T., Teeling, H., Ivanova, N.N., Huntemann, M., Richter, M., Gloeckner, F.O. et al. (2006) Symbiosis insights through metagenomic analysis of a microbial consortium. Nature 443: 950.

Xu, J., Bjursell, M.K., Himrod, J., Deng, S., Carmichael, L.K., Chiang, H.C. et al. (2003) A Genomic View of the Human-Bacteroides thetaiotaomicron Symbiosis. Science 299: 2074-2076.

Xu, J., Mahowald, M.A., Ley, R.E., Lozupone, C.A., Hamady, M., Martens, E.C. et al. (2007) Evolution of Symbiotic Bacteria in the Distal Human Intestine. PLoS Biology 5: e156.

Yang, X., Xie, L., Li, Y., and Wei, C. (2009) More than 9,000,000 unique genes in human gut bacterial community: estimating gene numbers inside a human body. PLoS One 4: e6074.

Zhang, H., DiBaise, J.K., Zuccolo, A., Kudrna, D., Braidotti, M., Yu, Y. et al. (2009) Human gut microbiota in obesity and after gastric bypass. Proc Natl Acad Sci U S A 106: 2365-2370.

Zilber-Rosenberg, I., and Rosenberg, E. (2008) Role of microorganisms in the evolution of animals and plants: the hologenome theory of evolution. FEMS Microbiol Rev 32: 723-735.

Zoetendal, E.G., Akkermans, A.D., and De Vos, W.M. (1998) Temperature gradient gel electrophoresis analysis of 16S rRNA from human fecal samples reveals stable and host-specific communities of active bacteria. Applied and Environmental Microbiology 64: 3854-3859.

Zoetendal, E.G., Rajilic-Stojanovic, M., and de Vos, W.M. (2008) High-throughput diversity and functionality analysis of the gastrointestinal tract microbiota. Gut 57: 1605-1615.

Zoetendal, E.G., Ben-Amor, K., Akkermans, A.D., Abee, T., and de Vos, W.M. (2001a) DNA isolation protocols affect the detection limit of PCR approaches of bacteria in samples from the human gastrointestinal tract. Systematic and Applied Microbiology 24: 405-410.

Zoetendal, E.G., Akkermans, A.D.L., Akkermans-van Vliet, W.M., De Visser, J.A.G.M., and De Vos, W.M. (2001b) The Host Genotype Affects the Bacterial Community in the Human Gastronintestinal Tract. Microbial Ecology in Health and Disease 13: 129 - 134.

Zoetendal, E.G., Booijink, C.C., Klaassens, E.S., Heilig, H.G., Kleerebezem, M., Smidt, H., and de Vos, W.M. (2006) Isolation of RNA from bacterial samples of the human gastrointestinal tract. Nat Protoc 1: 954-959.

 


 

 


Publications

L’article 1 intitulé « Comparative assessment of human and farm animal faecal microbiota using real-time quantitative PCR » publié dans FEMS Microbiology Ecology a permis de dessiner et de valider de nouveaux systèmes qPCR pour l’étude du microbiote ainsi qu’une démarche statistique. L’article 2 intitulé « RapidOTU: 16S rRNA gene sequences clustering into operational taxonomic units using tetranucleotides frequencies » soumis à PLoS Computational Biology est un article méthodologique qui propose une alternative pour l’analyse de séquences issues d’inventaire moléculaire du gène de l’ARNr 16S. L’article 3 intitulé « Towards the human intestinal microbiota phylogenetic core » publié dans Environmental Microbiology confirme l’existence d’un noyau phylogénétique partagé par tous, dont les espèces qui le compose devront attirer une attention particulière pour les futures études épidémiologiques et nutritionnelles. L’article 4 intitulé « Differential adaptation of human gut microbiota to bariatric surgery-induced weight loss: links with metabolic and low grade inflammation markers. » soumis à PLoS medecine montre que certains grands groupes bactériens sont corrélés à des paramètres inflammatoires, métaboliques et nutritionnelles chez les obèses ayant subi un by-pass gastrique. L’article 5, en préparation, intitulé « Profiling microbial communities using multiplex pyrosequencing: a validation study » est article méthodologique qui évalue l’utilisation de la technologie « 454 » pour réaliser des inventaires moléculaires sur le gène de l’ARN 16S en fonction de la région ciblée.

Tous les articles sont mis les uns à la suite des autres dans les pages suivantes.



[1] L’acide ribonucleique ribosomique ou ARNr est le constituant principal du ribosome, organite cellulaire très conservé au sein d’une même espèce. Les ARNr sont eux-mêmes produits à partir de gènes codés dans l'ADN.

[2] La coloration de Gram permet de mettre en évidence les propriétés de la paroi bactérienne, et d'utiliser ces propriétés pour distinguer et classifier les bactéries.

[3] rrnDB : http://ribosome.mmg.msu.edu/rrndb/

[4] Population source : population pionnière dans un milieu donné et en pleine expansion

[5] Population puits : population en déclin suite à la colonisation du milieu par d'autres espèces

[6] Guilde : Ensemble d'espèce qui exploitent, d'une façon comparable, la même catégorie de ressources dans un écosystème et appartenant au même groupe taxonomique ou étant apparentées.

[7] La microbiomique est un néologisme de plus en plus utilisé pour qualifier cette nouvelle science qui utilise les moyens modernes de la biologie moléculaire visant l’étude d’une communauté microbienne avec comme objectifs de la caractériser et d’évaluer ses fonctions et ses impacts sur son environnement.

[8] Microbiome : définit l’habitat , l’aire de vie du microbiote.

[9] L’hologénome est défini comme la somme des informations génétiques de l’hôte et de son microbiote. La théorie de l’hologénome repose sur le principe que l’hôte doit établir des relations symbiotiques avec son microbiote, que le microbiote doit être transmis entre les générations, et que l’association entre l’hôte et son symbiote détermine son adaptation avec son environnement.

[10] Lait infantile : Lait reconstitué, lait industriel, en anglais  « formula feds »

[11] Un biofilm est une communauté de micro-organismes (bactéries, champignons, algues ou protozoaires), adhérant entre eux et à une surface, et marquée par la sécrétion d'une matrice adhésive et protectrice.

[12] La base de données CAZy (http://www.cazy.org) décrit les familles d’enzymes issues des domaines Eucaryote, Archea et Bacteria impliquent dans la dégradation, la modification ou la création de liaisons glucosidiques.

[13] PCR : la « polymerase chain reaction » ou réaction en chaîne par polymérase, permet de copier avec un facteur de l’ordre du milliard une séquence d’ADN.

[14] MPI pour Message Parsing Interface est un protocole de communication utiliser pour programmer des ordinateurs dans une architecture parallélisée.  L’utilisation du protocole MPI et d’architectures parallélisées permet de réduire considérablement la temps de calcul.

[15] La base « Expert Protein Analysis Sytem » ou ExPASy est disponible sur : http://www.expasy.ch/

[16] « Simple Modular Architecture Research Tool » ou SMART : http://smart.embl.de/

[17] Le langage R est un langage de programmation et un environnement mathématique utilisés pour le traitement de données et l'analyse statistique. http://www.r-project.org/

[18] Une interface web de Metastats est disponible sur : http://metastats.cbcb.umd.edu/

[19] ShotgunFunctionalizeR disponible en téléchargement sur : http://shotgun.zool.gu.se/

[20] La composition des repas à 10 g et 40 g de fibres par jour se situe en annexe.

[21] MIG : Mathématique, Informatique et Génome

[22] Nous attendons des données métatranscriptomiques.