Les Tropheus - Génomiques de Tropheus moorii et Petrochromis trewavasae

Texte à méditer : Les cons de l'an passé se sont nettement améliorés ... Si, si ... Ils ont acquis un an d'expérience supplémentaire ... eek

► News ... ◄

News du Burundi
Hiérarchisation
- - Simulacres
- - La hiérarchisation chez les Tropheus
A l'écoute
- - Sons de Tropheus
News
- - Hybridations naturelles
News 2025
- - Le Lac s'étouffe...
- - Observations et rectifications
News du Lac 2024
- - De Kushangaza à Halembe
- - Interdiction de Pêche
News du lac 2020
- - De moins en moins de poissons à pêcher dans le lac Tanganyika

► Menu ◄

Articles
News
Maladies
Astuces
- - Anti-mouches ecologique
Remèdes
- - Aquafuran & Flagyl
- - Ciproxine
- - Homéopathie
F. O. B.
Espèces de Tropheus
- - Tropheus moorii
- - Tropheus annectens
- - Tropheus brichardi
- - Tropheus duboisi
- - Tropheus Kasabae
- - Tropheus polli
Pollution au Lac Tanganyika
Hommage
- - Hommage à George Kazumbe
- - A toi mon fils
- - Jérôme Nzojibwami
- - Jacky Schreyen
- - Robert Allgayer
News 2014
Divers
- - Ferme
- - Humanitaire
Divers
News du Lac
Tropheus F.O.B.

► ◘◘◘◘◘◘ ◄

►++++++◄

Lexique
- - A
- - B
- - C
- - D
- - E
- - F
- - G
- - H
- - I
- - J
- - K
- - L
- - M
- - N
- - O
- - P
Voyages
Voyage 2011
- - Voyage au Burundi 2011
- - Bujumbura
- - Resha
- - Mugere
- - C.N. de Bujumbura
- - Kabezi
- - Ruziba
- - Magara
- - 04-08-2011
- - Rumonge
- - Intermède
- - Gatumba
- - Nyanza Lac
- - Gitega
- - Resha II
- - Kinindo
- - Mutimbuzi (Gatumba)
- - Gitaza
- - Photos & vidéos
Voyage 2013
- - Préparatifs
- - Le voyage
- - Le voyage - suite
- - 2013 en photos...
- - Suite 1 ...
- - Suite 2
- - Suite 3
- - Suite 4
- - Suite 5
- - Suite 6
- - Suite 7
- - Suite 8
- - Suite 9
- - Suite et fin
- - Vidéos de 2013
Voyage 2017
- - Préparatifs 2017
- - Concrétisation
Vu et lu sur le Web
Copyright
- - Les droits d'auteur
Divers

► Divers ◄

Erin
Voyages au Burundi
- - Voyage 2001

Recherches

Compteur

visiteurs

visiteurs en ligne

Infos Webmaster

	Nous contacter
	Recommander
	Version texte

Génomiques de Tropheus moorii et Petrochromis trewavasae

Séquences génomiques de Tropheus moorii et Petrochromis trewavasae , deux poissons cichlidés écomorphologiquement divergents endémiques du lac Tanganyika - Publié : 22 février 2021

C. Fischer , S. Koblmüller , C. Börger , G. Michelitsch , S. Trajanoski , C. Schlötterer , C. Guelly , GG Thallinger & C. Sturmbauer

Avec plus de 1 000 espèces, les cichlidés d'Afrique de l'Est représentent le rayonnement vertébré le plus rapide et le plus riche en espèces connu, offrant un modèle idéal pour étudier les mécanismes moléculaires sous-jacents à la diversification adaptative récurrente. Nous ajoutons des reconstructions génomiques de haute qualité pour deux espèces phylogénétiques clés d'une lignée ayant divergé il y a environ 3 à 9 millions d'années (Ma), représentant la première division des haplochromines dites modernes à l'origine de rayonnements supplémentaires, comme ceux du lac Malawi et de l'État Victoria. Outre les génomes annotés, nous avons analysé les caractéristiques génomiques discriminantes des espèces étudiées, chacune représentant une morphologie trophique extrême, l'une étant un brouteur d'algues, l'autre un brouteur d'algues. Les génomes de Tropheus moorii (TM) et de Petrochromis trewavasae (PT) comprennent 911 et 918 Mbp, avec respectivement 40 300 et 39 600 gènes prédits. Nos données de séquences d'ADN sont basées sur 5 et 6 individus de TM et PT, ainsi que sur les séquences transcriptomiques d'un individu par espèce et par sexe, respectivement. Concernant la variation, nous avons observé en moyenne 1 variant pour 220 pb (interspécifique) et 1 variant pour 2540 pb (PT vs PT)/1561 pb (TM vs TM) (intraspécifique). L'analyse d'enrichissement GO des régions génétiques affectées par les variants a révélé plusieurs candidats susceptibles d'influencer les modifications phénotypiques liées à la morphologie faciale et maxillaire, tels que les gènes appartenant à la voie Hedgehog ( SHH , SMO , WNT9A ) et aux familles BMP et GLI.

Avec 1727 espèces décrites 1 , les poissons cichlidés sont parmi les familles de poissons téléostéens les plus riches en espèces. Leur point chaud de biodiversité se situe en Afrique de l'Est, et en particulier dans les trois Grands Lacs, Victoria, Malawi et Tanganyika 2 . Malgré un degré élevé de similitude indiquant une évolution récurrente d'espèces éco-morphologiquement équivalentes 3 , les trois radiations de cichlidés présentent des différences importantes en ce qui concerne le nombre d'espèces, l'âge évolutif des lignées, la diversité des modèles de soins parentaux et le degré de divergence morphologique 2 , 3 , 4 . Cela est probablement dû à différents ensembles d'espèces colonisatrices et surtout à leur âge évolutif différent.

Avec un âge de 9 à 12 millions d'années (ma) 5 , 6 , le lac Tanganyika est de loin le plus ancien de ces lacs. En raison de son âge ancien, l'assemblage d'espèces du lac Tanganyika est à un stade de maturité, de sorte qu'il comprend la plus grande diversité génétique et phénotypique parmi les radiations de cichlidés d'Afrique de l'Est, mais la diversification ultérieure se déroule principalement sans grande innovation éco-morphologique 2 . Lors de la colonisation du lac émergent, les cichlidés ont profité de la fenêtre d'opportunité écologique et se sont rapidement diversifiés 4 . En fait, deux lignées colonisatrices ont subi une hybridation au tout début de la radiation, un événement qui pourrait avoir déclenché ou accéléré le début 6 . La radiation du lac Tanganyika occupe une position clé pour l'ensemble de la faune de cichlidés africains modernes, dans la mesure où trois des lignées lacustres nouvellement émergentes ont réussi à coloniser les rivières environnantes, de sorte que la radiation a balayé à plusieurs reprises les limites du lac en maturation 7 , 8 , 9 , 10 . Français Trois des lignées émergentes, les Lamprologini non incubateurs buccaux, les Orthochromini incubateurs buccaux et certains Haplochromini primitifs tels que les ancêtres des genres Pseudocrenilabrus et Serranochromis , ont quitté le lac à divers stades de maturation pour coloniser des plans d'eau environnants particuliers 7 , 8 , 9 , 11 , 12 , 13 . Un groupe d'haplochromines primitifs a continué d'évoluer dans l'interface lac-marais-rivière vers des incubateurs buccaux maternels plus élaborés, délimités par un dimorphisme sexuel accru et des taches d'œufs sur la nageoire anale 6 , 9 , les haplochromines dites modernes. Ces haplochromines modernes ont non seulement colonisé la plupart des systèmes fluviaux dans toute l'Afrique australe et orientale, mais sont également réintégrés dans l'écosystème du lac Tanganyika, déjà beaucoup plus profond et mature, pour évoluer vers la tribu endémique du lac Tanganyika Tropheini 9 , 14 . Ainsi, les Tropheini ont réussi à s'introduire dans une radiation lacustre en cours et déjà complexe, tandis que ses sœurs non lacustres se sont répandues dans plusieurs systèmes fluviaux pour ensemencer des radiations dans les lacs émergents le long de leurs voies de dispersion fluviale 6 , 8 , 9 , 15 , 16 .

La tribu Tropheini, endémique du lac Tanganyika, représente le groupe frère de tous les haplochromines modernes en dehors du lac et en a divergé il y a environ 3 à 9 millions d'années 6 . Le fait que cinq des 29 espèces de Tropheini soient présentes à la fois dans le lac lui-même et en amont dans les rivières affluentes et/ou dans certaines parties de la rivière Lukuga, le seul exutoire du lac, pourrait être dû à leur origine marécageuse 17 . C'est pourquoi nous avons décidé de séquencer et de comparer les génomes de deux espèces écologiquement divergentes de la tribu Tropheini, endémique du lac Tanganyika. En termes de génétique, les haplochromines modernes, y compris les Tropheini, sont emblématiques car leurs génomes généralistes adaptés aux rivières ont subi à plusieurs reprises des modifications adaptatives récurrentes lors d'opportunités écologiques, fournies par les lacs nouvellement émergents 4 . Français Il a été suggéré que les espèces écologiquement et phénotypiquement flexibles adaptées aux habitats fluviaux saisonnièrement instables peuvent supplanter les autres colonisateurs dans l'ensemencement des radiations lacustres, car elles peuvent rapidement s'adapter à un espace de niche vide via la plasticité phénotypique 18 . Selon l'hypothèse de la tige flexible, une population phénotypiquement plastique est subdivisée en phénotypes adaptatifs alternatifs et ensuite les facteurs génétiques adaptatifs sont triés pendant la spéciation pour progresser via l'accommodation génétique et l'assimilation génétique. Au cours de la divergence adaptative pendant les radiations adaptatives répétées, l'évolution génomique a probablement été façonnée par l'opportunité écologique, en combinaison avec des événements de fragmentation géographique, des épisodes de goulots d'étranglement et des expansions de population, ainsi que des mélanges ou des fusions répétés dans les événements d'hybridation causés par les fluctuations du niveau des lacs induites par le climat 4 , 19 . Outre la divergence et le flux génétique accidentel 6 , 20 , la duplication et la sélection géniques 6 , 21 ont apparemment remodelé les génotypes. Français Au niveau phénotypique, le succès évolutif des cichlidés d'Afrique de l'Est a été attribué à des innovations clés particulières, notamment (1) le découplage fonctionnel des mâchoires orales et pharyngiennes facilitant l'exploitation de diverses niches trophiques 22 , (2) l'adaptation du système visuel à différentes turbidités de l'eau 23 , et (3) les soins parentaux et la coloration d'accouplement des mâles dictés par la sélection sexuelle facilitant l'isolement reproductif 24 . À ce stade, la série de mécanismes génétiques modifiant le substrat génomique sous-jacent à l'énorme éco-morphospace phénotypique couvert par les cichlidés reste largement inconnue (voir 25 pour une revue récente).

Les premières étapes importantes vers la compréhension des mécanismes moléculaires à l'origine de ces morphologies divergentes ont été franchies en élucidant les génomes et les transcriptomes de cinq espèces de cichlidés : Oreochromis niloticus représentant une lignée externe, Neolamprologus pulcher représentant une lignée de reproducteurs sur substrat du Tanganyika, et trois haplochromines modernes, à savoir Astatotilapia burtoni représentant une lignée fluviatile, Maylandia zebra représentant le lac Malawi et Pundamilia nyererei représentant le lac Victoria. Cette étude a mis en évidence un excès de duplications de gènes dans la lignée est-africaine par rapport à Oreochromis et d'autres téléostéens, une abondance de divergence d'éléments non codants, une évolution accélérée des séquences codantes, une divergence d'expression ainsi que des insertions d'éléments transposables et une régulation par de nouveaux microARN 21 . L'étude a également révélé une sélection diversifiante à l'échelle du génome sur les variantes codantes et régulatrices, dont certaines provenaient d'anciens polymorphismes.

Des ébauches de génomes de haute qualité (HQ) basées sur les données de Pacific Biosciences (PacBio) sont devenues disponibles en particulier au cours des deux dernières années. Des ébauches HQ de Simochromis diagramma (Afrique de l'Est, lac Tanganyika) et d'Astatotilapia calliptera (Afrique de l'Est, lac Malawi) ont été générées par l'Institut Sanger (2018) et une ébauche HQ d' Archocentrus centrarchus (Amérique centrale) a été générée par le groupe G10K-VGP (2019) ; des assemblages des cichlidés sud-américains Amphilophus citrinellus (2014, Université de Constance) et Andinoacara coeruleopunctatus (2015, Institut Sanger) 26 sont également disponibles. Les génomes d'O. niloticus (ON) et de M. zebra (MZ) ont récemment (2019) été nouvellement assemblés et ancrés avec une approche PacBio + carte génétique à haute couverture 27 ; Français les génomes de A. calliptera, A. centrarchus et S. diagramma (non ancré) ont été reconstruits de manière similaire. Oreochromis niloticus, M. zebra , A. calliptera et A. centrarchus sont les seules reconstructions au niveau chromosomique (groupes de liaison). Sept brouillons HQ ont reçu des annotations du NCBI Annotation Pipeline 28 ( S. diagramma pas encore) ; O. niloticus, A. calliptera et A. citrinellus ont également reçu des annotations d'Ensemble 29. Ces génomes couvrent des espèces des Grands Lacs et des rivières d'Afrique et des lacs de cratère d'Amérique centrale et d'Amérique du Sud (Fig. 1 ).

Figure 1

Phylogénie calibrée temporellement des espèces de cichlidés, dont les génomes complets sont accessibles au public. Cette phylogénie repose sur 519 locus génomiques ancrés, séquencés ou extraits de la séquence génomique 6. Les espèces étudiées sont indiquées en gras, celles dont les génomes sont annotés de haute qualité sont en noir et celles dont les assemblages sont de haute qualité (mais dont les génomes ne sont pas encore annotés) sont indiquées en gris (figure créée avec Inkscape https://inkscape.org ).

Nous présentons des reconstructions des deux génomes de Tropheus moorii (TM) et Petrochromis trewavasae (PT), ainsi que des ensembles d'annotations structurales et fonctionnelles. Les deux espèces appartiennent à deux sous-lignées au sein des Tropheini qui ont divergé il y a environ 2 à 6,5 millions d'années et représentent la division la plus profonde au sein de la tribu Tropheini. Outre la génération de données génomiques et transcriptomiques pour deux espèces clés représentant les haplochromines modernes du lac Tanganyika, l'intérêt principal de cette étude portait sur l'origine génétique des morphologies faciales et maxillaire divergentes de ces espèces morphologiquement diverses. À cette fin, nous fournissons les premiers éléments d'information sur les variants génétiques potentiellement impliqués dans la différenciation morphologique des deux espèces étudiées.

Assemblées

Sur la base des tailles de génome estimées d'environ 900 Mbp (tableau supplémentaire S11 ), nos efforts de séquençage ont produit des données de séquence avec une couverture de base moyenne d'environ 1,5×, environ 88×, environ 34× et environ 10,5× (PT) et environ 1,2×, environ 38×, environ 29× et environ 9,1× (TM) pour Roche 454, Illumina PE, Illumina MP et PacBio, respectivement (voir tableau supplémentaire S23 ). Les données de séquence filtrées ont été utilisées pour générer des assemblages primaires dérivés de différents algorithmes de reconstruction (assembleurs) et combinaisons de données (voir Méthodes). Les reconstructions finales du génome des deux espèces sont basées sur des méta-assemblages de ces ensembles d'assemblages primaires. Les méta-assemblages avec les meilleurs scores basés sur les mauvais assemblages, la contiguïté et les prédictions de gènes ont été utilisés dans les analyses ultérieures.

Petrochromis trewavasae

Les assemblages primaires présentent des tailles d'assemblage allant d'environ 779 Mbp à environ 966 Mbp (907 Mbp pour PacBio uniquement ; voir le tableau supplémentaire S11 ). L'assemblage final est constitué de 7 261 échafaudages avec un N50 de 1,84 Mbp, 1,44 % des nucléotides sont indéterminés (N) et 90 % du génome assemblé est contenu dans 885 fragments de plus de 70 kbp. La taille totale de l'assemblage est de 917,57 Mbp (tableau 1 ).

Tableau 1 : Statistiques de contiguïté et de taille d'assemblage : Les génomes assemblés se composent de 917,57 et 911,13 Mbp pour P. trewavasae et T. moorii , respectivement. Le nombre et le nombre de bases pour les échafaudages et les contigs sont indiqués. Les échafaudages ont été décomposés en contigs à des segments de Ns de longueur ≥ 10. Les statistiques sur O. niloticus ont été obtenues auprès du NCBI et étendues si nécessaire (en bleu) ; du point de vue technologique, la version 2 est comparable, la version 4 est basée sur des données de cartographie optique et PacBio à haute couverture.

Tropheus moorii

Les assemblages primaires présentent des tailles d'assemblage d'environ 754 Mbp à environ 952 Mbp (879 Mbp PacBio seulement ; voir le tableau supplémentaire S11 ). L'assemblage final est constitué de 7662 échafaudages avec un N50 de 1,64 Mbp, 1,29 % des nucléotides sont indéterminés (N) et 90 % du génome assemblé est contenu dans 657 fragments de plus de 192 kbp. La taille totale de l'assemblage est de 911,13 Mbp (tableau 1 ). Les deux tailles d'assemblage sont dans la plage attendue ; les prédictions basées sur les spectres k-mer suggèrent des tailles de génome proches de 900 Mbp (voir le tableau supplémentaire S11 ) et des tailles de 900 à 1000 Mbp ont également été rapportées pour d'autres génomes de cichlidés 21 , 30 .Dans ce qui suit, nous comparons nos résultats aux génomes et annotations publiés de plusieurs cichlidés, en mettant l'accent sur O. niloticus et M. zebra en raison de leur état bien développé. Les dernières versions (v4) d' O. niloticus (44 × PacBio, nouvellement ancré) et de M. zebra (maintenant 65 × PacBio et ancré) ont été publiées par Conte et al . 27 ; la tendance par rapport aux versions antérieures est claire, la qualité des séquences et des annotations est améliorée et le nombre de structures annotées a encore augmenté. En ce qui concerne les distributions de longueur des gènes (tableau supplémentaire S1 ), les mesures de contiguïté obtenues pour PT et TM sont satisfaisantes et se situent dans la plage typique, compte tenu des technologies de séquençage appliquées et de la couverture (tableau 1 ; pour une comparaison avec les versions d'O. niloticus , voir le tableau supplémentaire S2 , et pour une comparaison générale avec les génomes de poissons publiés, voir le tableau supplémentaire S23 de Vij et al. 31 ).

Annotations

L'annotation structurelle a donné respectivement environ 40 300 gènes (PT) et 39 600 gènes (TM) et environ 54 200 gènes (PT) et 56 800 transcrits (TM) (Tableau 2 ) ; cela concorde avec les résultats des différentes versions d'annotation d'ON (environ 30 200 à 42 600 gènes). En ce qui concerne les caractéristiques annotées, PT et TM présentent des nombres similaires qui se situent souvent entre ceux des versions 2 et 3 des annotations ON respectives. À des fins de comparaison, les statistiques pour ON v2–v4 (la plus récente) sont ajoutées, car ON a reçu le plus d'efforts et de données de la communauté pour l'assemblage et l'annotation du génome de tous les cichlidés (Tableau supplémentaire S2 ). La prédiction des longs ARN non codants a donné respectivement 2 782 et 2 112 lncRNA pour PT et TM. Français Avec 57,7 % et 63,2 %, une légère préférence pour le brin sens a pu être observée (tableau supplémentaire S3 ). Une annotation fonctionnelle basée sur l'homologie a pu être faite pour 41 970 (PT) et 43 918 (TM) des séquences codantes (CDS) ; des signaux sécrétoires putatifs ont été prédits pour 5 899 (PT) et 6 016 (TM) d'entre elles, respectivement (tableau 3 ). La cartographie du domaine Pfam a donné respectivement 78 900 (PT) et 84 158 (TM). RepeatMasker 27 a identifié respectivement 31,1 % (PT) et 30,0 % (TM) des génomes comme répétitifs ; les plus grandes proportions de types de répétitions classifiées étaient détenues par des transposons d'ADN, des LINE et des transposons LTR avec ~ 13 %, ~ 7 % et ~ 2 % (tableau 4 ).

Tableau 2 : Statistiques d'annotation structurelle de PT et TM en comparaison avec ON : l'annotation structurelle a produit respectivement environ 40 300 et 39 600 gènes. Ces résultats concordent avec ceux des différentes versions d'annotation d'ON (environ 30 200 à 42 600).

Tableau 3 : Statistiques d’annotation fonctionnelle : Le nombre de protéines trouvées dans UniProt et NR est indiqué. De plus, le tableau indique le nombre de protéines présentant une activité protéase (Merops) et glucidique (CAZymes), le nombre d’orthologues dans fiNOG, le nombre de protéines correspondant aux modèles de vertébrés BUSCO et le nombre de protéines présentant des signaux sécrétoires présumés (SignalP). Enfin, le nombre d’occurrences des séquences protéiques pour les différentes bases de données de domaines InterPro est présenté.

Tableau 4 : Statistiques d’annotation répétées telles que déterminées par RepeatMasker 32 .

Disponibilité et visualisation des données

Les assemblages du génome et du transcriptome (FASTA), les annotations structurelles et fonctionnelles (GFF3), les mappages de lecture (BAM) et les fichiers de suivi supplémentaires Integrative Genomics Viewer (IGV) 33 (ARN non codants courts et longs, répétitions, ORF, îlots CpG, microsatellites, domaines IPR et eggNOG, appels de variantes, mappages de lecture, épissage alternatif et appels d'erreur REAPR ; Fig. 2 ) sont disponibles sur https://cichlidgenomes.tugraz.at .

Figure 2

Exemple de pistes IGV et d'annotations étendues. ( a ) Les séquences, ainsi que les informations structurelles et fonctionnelles (survol de la souris), sont fournies via les pistes IGV. Nous avons ajouté un ensemble complet de pistes de données et d'annotations (non toutes affichées) pour faciliter les analyses en aval. ( b ) Ensemble de données basé sur les séquences protéiques avec annotations des domaines fonctionnels identifiés (les figures représentent des captures d'écran de https://cichlidgenomes.tugraz.at ).

Évaluation de la qualité

La qualité de l'assemblage a été évaluée avec BUSCO 34 et CEGMA 35. BUSCO a identifié 98,3 % et 98 % des 4 584 protéines de la base de données Actinopterygii sous forme complète pour PT et TM, respectivement ; 1,7 % et 2 % des orthologues universels à copie unique de référence (BUSCO) étaient fragmentés ou manquants. Ces résultats se comparent bien à ceux des génomes publiés et sont généralement du même ordre que ceux des versions ultérieures des brouillons du génome d' O. niloticus (tableau 5 ). CEGMA a identifié l'ensemble des 248 gènes eucaryotes centraux (CEG) pour PT et TM (tableau 6 ) ; les résultats CEGMA pour les assemblages de transcriptomes PT et TM peuvent être trouvés dans le tableau supplémentaire S6 . Cependant, REAPR rapporte 17 166/11 992 erreurs d'assemblage probables (PT/TM) (tableau supplémentaire S10 ) ; il existe des pistes IGV mettant en évidence des régions douteuses pour guider la prudence lors de l'analyse à proximité (voir Fig. 2 ). L'intégralité des domaines protéiques conservés a été évaluée avec DOGMA 36. DOGMA a trouvé 91,8 % et 90,5 % des 1051 domaines conservés attendus à une taille d'arrangement de domaine conservé de 1 pour PT et TM, respectivement (Tableau 7 ).

Tableau 5 : Résultats BUSCO : Les gènes identifiés sont classés comme « complets » lorsque leurs longueurs sont dans les deux écarts types de la longueur moyenne du groupe BUSCO (c'est-à-dire dans une espérance mathématique d'environ 95 %). Les gènes « complets » trouvés avec plus d'une copie sont classés comme « dupliqués » ; on s'attend à ce que les BUSCO évoluent sous le contrôle d'une seule copie, par conséquent la récupération de nombreux doublons peut indiquer un assemblage erroné d'haplotypes. Les gènes partiellement récupérés sont classés comme « fragmentés » et les gènes non récupérés sont classés comme « manquants » 34 . Les dernières versions des assemblages ont été utilisées dans tous les cas (c'est-à-dire V4 d' O. niloticus et de M. zebra ). Voir les résultats BUSCO pour les assemblages de transcriptome PT et TM dans le tableau supplémentaire S5 . Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé, pire. BUSCO signifie benchmarking universal single-copy ortholog.

Tableau 6 : Résultats CEGMA : Les versions les plus récentes sont présentées dans tous les cas ; pour ON et MZ, en plus de la version 4 (basée sur PacBio), la version 2 (basée sur Illumina PE + MP) est listée à titre de comparaison (PT et TM ayant été principalement construits à l'aide des mêmes technologies). Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé, pire. CEG signifie "gène eucaryote central".

Tableau 7 : Résultats de DOGMA : DOGMA 36 évalue un échantillon de transcriptome/protéome en fonction de l'exhaustivité des domaines protéiques conservés, exprimés en pourcentage d'un ensemble de base défini (les domaines conservés sont des éléments constitutifs structurels et fonctionnels des protéines). L'analyse confirme l'idée (voir les longueurs moyenne et médiane des protéines dans le tableau 2 ) selon laquelle les modèles génétiques des gènes codant pour les protéines doivent être améliorés. Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé, pire. CDA signifie « arrangement des domaines conservés ».

Analyse comparative

Nous avons comparé les génomes de PT et de TM en cartographiant les lectures brutes d'une espèce avec le génome de l'autre espèce. Cela a donné 4 105 604 et 4 178 777 petits variants (SMV ; SNP et InDels) pour PT et TM, respectivement. De plus, 356 428 et 577 124 SMV ont été identifiés pour PT et TM, lors du mappage des lectures de la même espèce avec leurs génomes respectifs. En moyenne, 1 variant toutes les ~ 220 pb (interespèces) et 1 variant toutes les 2 540 pb (PT vs PT)/1 561 pb (TM vs TM) (intraespèces) ont été identifiés (Tableau 8 ). Pour les deux espèces, 93 842 et 89 489 grandes variantes structurelles (VS ; insertions, délétions, duplications, inversions et translocations) entre les espèces ont été détectées, la majorité étant des délétions avec respectivement 60 % et 65,6 % (tableau 8 ).

Tableau 8 : Aperçu des résultats de l’analyse des variantes inter- et intra-espèces : Les chiffres représentent l’hétérogénéité entre espèces (pour PT vs TM et TM vs PT) et l’hétérogénéité au sein des espèces (pour PT vs PT et TM vs TM). Ces chiffres peuvent inclure l’effet net de problèmes techniques (par exemple, avec les algorithmes d’assemblage, d’annotation, de cartographie et d’appel).

Statistiques de base	PT contre TM	MT contre PT	PT contre PT	MT contre MT
Génome	Projet de TM v1.0	Projet PT v1.0	Projet PT v1.0	Projet de TM v1.0
Données	Lectures filtrées PT	Lectures filtrées TM	Lectures filtrées PT	Lectures filtrées TM
Nombre de variantes traitées	4 105 604	4 178 777	356 428	577 124
Nombre d'entrées vcf multi-alléliques	17 885	26 099	2 607	3 940
Nombre de variantes avec effets ¹	9 046 617	8 610 805	742 872	1 305 064
Longueur totale du génome	911 126 605	917 573 940	917 573 940	911 126 605
Longueur effective du génome	906 396 323	913 305 292	905 543 956	901 211 269
Taux variable	1 variante sur 220 bases	1 variante dans 218 bases	1 variante dans 2540 bases	1 variante dans 1561 bases
Variantes locales à petite échelle (VLE)
SNP	3 081 328	3 159 251	241 245	416 002
Ins	511 111	487 934	54 489	75 775
Del	513 165	531 592	60 694	85 347
Total	4 105 604	4 178 777	356 428	577 124
Variantes structurelles à grande échelle (SV)
Reproduction	3559	2247	2870	3628
Effacement	56 396	58 692	11 989	21 047
Inversion	1853	1218	1343	1692
Translocation	18 829	12 351	11 566	15 022
Insertions	13 205	14 981	1316	2147
Total	93 842	89 489	29 084	43 536

1 tel que déterminé par SNPeff 37 .

La distribution des SMV et des SV observée par l'analyse comparative suit largement la couverture génomique de régions structurales/fonctionnelles particulières. On observe des différences légères, mais notables : (1) les SMV sont (légèrement) sous-représentés dans les régions promotrices, 5′ UTR, codantes, du site d'épissage, 3′ UTR et intergéniques ; ils sont surreprésentés dans les introns ; (2) les SV sont (légèrement) sous-représentés dans les régions promotrices, 5′ UTR, codantes, 3′ UTR et intergéniques ; ils sont surreprésentés dans les introns et les sites d'épissage (par chevauchement) (Fig. 3 A).

Figure 3

Le SNPeff 37 classe les effets des variants sur le gène en quatre groupes selon leur localisation et leur nature : " ÉLEVÉ ", " MODÉRÉ ", " FAIBLE " ou " MODIFICATEUR ". Ce dernier désigne les variants non codants ou affectant des gènes non codants, pour lesquels les prédictions sont difficiles ou sans preuve d'impact. Dans notre analyse, plus de 97 % des variants identifiés sont classés comme « MODIFICATEUR » (tableau 9 ).

Tableau 9 : Aperçu des effets putatifs des variants intra- et inter-espèces : Les annotations des effets des variants, telles que déterminées par SNPeff 37 , sont présentées. Les nombres représentent l’hétérogénéité inter-espèces (pour PT vs TM et TM vs PT) et l’hétérogénéité intra-espèces (pour PT vs PT et TM vs TM). Ces nombres peuvent inclure l’effet net de problèmes techniques (par exemple, avec les algorithmes d’assemblage, d’annotation, de cartographie et d’appel).

	PT contre TM		MT contre PT		PT contre PT		MT contre MT
Catégorie d'impact attendue	[Compter]	[%]	[Compter]	[%]	[Compter]	[%]	[Compter]	[%]
Haut	13 761	0,15	12 131	0,14	2348	0,32	3679	0,28
Modéré	84 185	0,93	82 142	0,95	7579	1.02	11 802	0,90
Faible	149 561	1,65	142 956	1,66	11 728	1,58	19 951	1,53
Modificateur	8 799 110	97,26	8 373 576	97,25	721 217	97,09	1 269 632	97,29
Effet sur les séquences codantes
Absurdité	788	0,44	791	0,45	77	0,52	132	0,54
Faux-sens	78 503	43,48	76 737	43,35	6708	45,34	10 871	44,59
Silencieux	101 260	56,08	99 477	56,20	8010	54.14	13 378	54,87

Les gènes d'intérêt, qui sont possiblement affectés par des mutations, sont mis en évidence dans le Tableau 10 (voir Informations supplémentaires pour plus de détails sur la sélection des gènes et l'analyse d'enrichissement GO, respectivement). Ici, nous avons commencé à analyser les gènes qui sont liés au développement du viscérocrâne (sélection de gènes non ciblée) et du système pharyngé (sélection de gènes ciblée, c'est-à-dire biaisée d'après la littérature — voir Tableau S17 ) ; cependant, il existe d'autres termes GO d'intérêt qui sont systématiquement enrichis par différentes approches d'analyse telles que la signalisation BMP, par exemple. Un résultat d'analyse GO condensé pour une approche non ciblée (A2, voir Tableau S14 b) est présenté dans le Tableau 11 ; ici, les catégories de gènes sont basées sur des groupes de comparaison de variants (au sein et entre les groupes d'espèces) combinés à un classement quantile et un seuillage ( p = 0,5, c'est-à-dire médiane), et le nombre de variants (« charges de mutation ») a été utilisé comme critère. Le terme « morphogenèse du viscérocrâne embryonnaire » est enrichi dans les ensembles de gènes intra et inter-espèces pour toutes les approches (voir le tableau supplémentaire S16 ; les gènes appartenant à ce terme ont été combinés avec les gènes de l'approche ciblée et utilisés pour des analyses ultérieures en aval (voir les tableaux supplémentaires S14 a, S14 b, S15 , S16 , S18 et S21 ). Dans l'analyse comparative, les espèces biologiques sont codées A (PT) et B (TM) (tableau 11 ). Les catégories (AA, AB, BA et BB) font référence aux comparaisons intra et inter-groupes. Autrement dit, il existe des mutations aux mêmes emplacements génomiques (nucléotides) qui sont soit identiques au sein d'une même espèce et entre les espèces (appelées, par exemple, identiques (AA) et redondamment identiques (AB)), soit non identiques (appelées, par exemple, non identiques (BB) et non identiques (BA) ); de plus, il existe des mutations qui sont uniques à un groupe. (appelés, par exemple, uniques (AA) et uniques (AB), c'est-à-dire qu'à l'emplacement génomique, il n'existe qu'une seule variante chez l'espèce A (unique (AA)) ou qu'il n'existe qu'une seule variante entre les espèces A et B (unique (AB)), respectivement). Dans l'exemple présenté, pour SMV, les appels à la morphogenèse du viscérocrâne sont symétriques, à l'exception de la catégorie AB (qui se situe en dessous du seuil), c'est-à-dire que le terme GO est systématiquement enrichi au sein d'une même espèce et entre les espèces. Des analyses plus poussées des gènes appartenant à ce terme confirment clairement la présence de mutations communes et spécifiques à l'espèce dans ces gènes (voir l'exemple dans la section supplémentaire " Identification des gènes potentiellement liés à la morphologie faciale et maxillaire ").). Il existe donc une variation substantielle de ces gènes, susceptible d'induire des modifications de la morphologie. Cependant, nous ne pouvons pas encore délimiter les effets possibles des variants partagés et non partagés.

Tableau 10 : Sélection de gènes affectés par des variants. Afin de restreindre la liste des gènes porteurs de variants, une approche ciblée et une analyse d'enrichissement GO ont été réalisées ; ce tableau répertorie les gènes liés à la morphologie faciale et maxillaire . Les résultats présentés sont filtrés et simplifiés : (1) les types et localisations des variants ont été unifiés pour les isoformes de transcription et les doublons de gènes (annotés), et (2) ils ont été intersectés entre les comparaisons d'espèces. SMV : petit(s) variant(s) ; SV : variant(s) structurel(aux).

Gène	Description	Type de variante	Emplacement de la variante
Prédit : protéine de liaison au facteur de croissance analogue à l'insuline 3 (igfbp-3)	L'IGFBP-3 joue un rôle dans la régulation du cartilage pharyngé et du développement et de la croissance de l'oreille interne chez le poisson zèbre ¹³⁵	SMV	3′ UTR, intron, exon, en aval, en amont
		SV	–
Prédit : Facteur de croissance des fibroblastes de type 8 (fgf-8)	Le FGF-8 est actif in vitro dans les cellules osseuses de souris et de rat, stimulant la prolifération des ostéoblastes par une voie indépendante de MAPK et inhibant l'ostéoclastogenèse par un mécanisme indépendant de RANKL/OPG ¹³⁶ . Il joue un rôle important dans la régulation du développement embryonnaire, de la prolifération, de la différenciation et de la migration cellulaires. Nécessaire au développement normal du cerveau, des yeux, des oreilles et des membres pendant l'embryogenèse [UniProt].	SMV	3′ UTR, intron, exon, en aval, en amont, épissure
		SV	–
Prédit : Barx Homeobox 1 (barx1)	BARX1 réprime les articulations et favorise la formation de cartilage dans le squelette craniofacial chez le poisson zèbre ¹³⁷	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : Barx Homeobox 1 (barx1)		SV	-
Prédit : T-box 10 (tbx10) **	On pense que les mutations du gène Tbx10 chez la souris et l'homme sont une cause de fente labiale isolée avec ou sans fente palatine ^138 , 139. Les gènes T-box contribuent de manière majeure au développement craniofacial ( *Tbx1* , *Tbx10* , Tbx15 , Tbx22 ) et au développement du cerveau ( Tbr1 , Eomes ), de la glande mammaire ( Tbx2 , Tbx3 ), de l'hypophyse ( Tbx3 , Tbx19 ), du thymus ( Tbx1 ), du foie ( Tbx3 ), des poumons ( Tbx2 , Tbx4 , Tbx5 ), de la pigmentation ( Tbx15 ) et du système immunitaire ( Tbx21 ), entre autres ¹⁴⁰	SMV	3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : T-box 10 (tbx10) **		SV	en aval
Prédit : Protéine sécrétée acide riche en cystéine (ostéonectine) (sparc)	SPARC est une protéine acide associée à la matrice, riche en cystéine, nécessaire à la calcification du collagène osseux. Elle intervient également dans la synthèse de la matrice extracellulaire et favorise les modifications de la forme cellulaire. SPARC est nécessaire à la croissance normale des otolithes de poisson zèbre ^141 , 142.	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
		SV	en aval
Prédit : domaine de tétramérisation du canal potassique contenant 15 (kctd15) *	KCTD15 régule la formation des crêtes neurales en agissant sur la signalisation Wnt et l'activité du facteur de transcription AP-2 dans les embryons de poisson zèbre et les cellules humaines ¹⁴³ . Chez l'homme, l'expression de KCTD15 a montré un effet hautement focal, limité à l'extrémité nasale ⁵² ; il a été démontré que KCTD15 régule TFAP2A , qui joue un rôle essentiel dans la formation des crêtes neurales et, lorsqu'il est muté, entraîne une réduction de la longueur du museau chez la souris, entre autres anomalies. KCTD15 pourrait affecter la forme de l'extrémité nasale chez l'homme en influençant la prolifération des chondrocytes dans la cloison nasale.	SMV	5′ UTR, 3′ UTR, intron, en aval, en amont
		SV	–
Prédit : T-box 1 (tbx1) **	Tbx1 a été associé à un développement anormal de l'arc pharyngé et du visage chez la souris ^144 , 145. Les gènes T-box contribuent de manière majeure au développement craniofacial ( *Tbx1* , *Tbx10* , Tbx15 , Tbx22 ) et au développement du cerveau ( Tbr1 , Eomes ), de la glande mammaire ( Tbx2 , Tbx3 ), de l'hypophyse ( Tbx3 , Tbx19 ), du thymus ( Tbx1 ), du foie ( Tbx3 ), des poumons ( Tbx2 , Tbx4 , Tbx5 ), de la pigmentation ( Tbx15 ) et du système immunitaire ( Tbx21 ), entre autres ¹⁴⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : T-box 1 (tbx1) **		SV	en aval, en amont
Prédit : Facteur 1 associé au SAF (FAF1)	Le gène FAF1 est perturbé dans la fente palatine et conserve sa fonction chez le poisson zèbre. L'inactivation du gène FAF1 du poisson zèbre entraîne des anomalies du cartilage pharyngé et des anomalies de la mâchoire ^.	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : Facteur 1 associé au SAF (FAF1)		SV	intron
Prédit : domaine PR contenant 1 avec domaine ZNF (prdm1)	Chez le poisson zèbre, une expression erronée de prdm1 inhibe la formation des structures dorso-antérieures et réduit l'expression de la chordine, qui code un antagoniste des BMP . Plus tard au cours du développement, prdm1/blimp1 est exprimé dans de nombreux tissus, notamment les arcades pharyngiennes ^147.	SMV	3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : domaine PR contenant 1 avec domaine ZNF (prdm1)		SV	en aval
Prédit : répétitions du dipeptide d'acide glutamique (RE) (rere)	On pense que RERE/Atrophine-2 fonctionne comme un corépresseur transcriptionnel au cours du développement embryonnaire chez la drosophile ¹⁴⁸ . Ce régulateur transcriptionnel est nécessaire à la structuration normale de l'embryon précoce de vertébré, notamment du système nerveux central, des arcades pharyngées et des membres. Conformément à son rôle de corépresseur transcriptionnel, RERE se lie aux histones désacétylases 1 et 2 ( HDAC1/2 ) et à des récepteurs nucléaires orphelins tels que Tlx chez le poisson zèbre ¹⁴⁹ . Il joue un rôle dans la symétrie bilatérale chez la souris ⁵⁷ et des variants sont également liés aux structures craniofaciales chez l'homme ¹⁵⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
		SV	intron, en amont
Prédit : Homéobox distale sans 2 (dlx2) **	Les protéines DLX joueraient un rôle dans le développement du cerveau antérieur et craniofacial. Il a été démontré que cette famille de gènes est soumise à une sélection positive chez les cichlidés d'Afrique de l'Est ¹⁵¹ . On trouve des groupes DLX1-DLX2 , DLX3-DLX4 et DLX5-DLX6 chez les vertébrés, liés respectivement aux groupes de gènes Hox HOXD , HOXB et HOXA ¹⁵²	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
Prédit : Homéobox distale sans 2 (dlx2) **		SV	–
Prédit : Récepteur de l'acide rétinoïque de type gamma-A (RARGA)	Les RAR sont impliqués dans la structuration embryonnaire et l'organogenèse, les déficiences squelettiques craniofaciales affectant les mutants Rara/g- nuls ¹⁵³ . Chez le poisson-zèbre, des rôles combinatoires des récepteurs de l'acide rétinoïque dans le cerveau postérieur, les membres et les arcades pharyngées ont été identifiés ¹⁵⁴	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
		SV	intron
Prédit : Membre de la famille 9A du site d'intégration Mmtv de type sans ailes (wnt9a)	Rôle démontré dans la morphogenèse du palais du poisson zèbre ^155. Ligand des membres de la famille des sept récepteurs transmembranaires frizzled. Fonctionne dans la voie de signalisation canonique Wnt/bêta-caténine . Nécessaire au timing normal de l'expression de l'IHH pendant le développement osseux embryonnaire, à la maturation normale des chondrocytes et à la minéralisation osseuse normale pendant le développement osseux embryonnaire. Joue un rôle redondant dans le maintien de l'intégrité articulaire [UniProt].	SMV	3′ UTR, intron, en aval, en amont
		SV	–
Prédit : Facteur de croissance transformant bêta 2 (tgfb2)	Il a été démontré qu'il joue un rôle dans la morphogenèse du palais du poisson zèbre ¹⁵⁵ . La majorité des ostéoblastes et des chondrocytes de la région craniofaciale proviennent des cellules de la crête neurale crânienne (CNCC), qui produisent le squelette facial. La signalisation du TGF -β joue un rôle crucial dans le développement craniofacial, et sa perte dans les CNCC entraîne des malformations squelettiques craniofaciales ¹⁵⁶	SMV	En aval, en amont
Prédit : Facteur de croissance transformant bêta 2 (tgfb2)		SV	–
Prédiction : Mères contre l'homologue 5 décapentaplégique (SMAD5)	Il a été démontré qu'il joue un rôle dans la morphogenèse du palais du poisson zèbre ^155. Modulateur transcriptionnel activé par le récepteur kinase de type 1 des protéines morphogénétiques osseuses (BMP). SMAD5 est un SMAD régulé par un récepteur [UniProt].	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
		SV	–
Prédit : Paired Box 9 (pax9)	Il a été démontré qu'il joue un rôle dans la morphogenèse du palais du poisson zèbre ^155. Facteur de transcription nécessaire au développement normal du thymus, des glandes parathyroïdes, des corps ultimobranchiaux, des dents, des éléments squelettiques du crâne et du larynx, ainsi que des membres distaux [UniProt].	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
Prédit : Paired Box 9 (pax9)		SV	–
Prédit : Facteur de croissance des fibroblastes de type 10 (FGF10)	Il a été démontré qu'il joue un rôle dans la morphogenèse du palais du poisson zèbre ¹⁵⁵ . Il joue un rôle important dans la régulation du développement embryonnaire, la prolifération et la différenciation cellulaires. Il est nécessaire à la morphogenèse normale des ramifications [UniProt]. Le FGF10 est largement exprimé dans les tissus mésenchymateux et est essentiel à la vie postnatale en raison de son rôle crucial dans le développement du complexe cranio-facial. Des modèles murins génétiques ont démontré que la dysrégulation ou l'absence de fonction du FGF10 affecte la fermeture du palais, le développement des glandes salivaires et lacrymales, l'oreille interne, les paupières, les papilles gustatives de la langue, les dents et les os du crâne. Des mutations du locus FGF10 ont été décrites en lien avec des malformations cranio-faciales chez l'homme ¹⁵⁷	SMV	3′ UTR, intron, exon, en aval, en amont
		SV	–
Prédit : Récepteur de l'ectodysplasine a (edar) *	L'EDAR , qui a déjà été lié à la forme des oreilles et des dents ainsi qu'à la texture des cheveux, affecte la protrusion du menton chez l'homme ⁵⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
Prédit : Récepteur de l'ectodysplasine a (edar) *		SV	intron
Prédit : Dachsous Cadherin-Related 2 (dchs2) *	DCHS2 , également lié au cartilage, contrôle la pointe du nez chez l'homme ⁵⁰	SMV	Intron, exon, en aval, en amont, épissure
Prédit : Dachsous Cadherin-Related 2 (dchs2) *		SV	intron
Prédit : doigt de zinc de la famille GLI 1 (gli1)	GLI1 (2 et 3) sont impliqués dans le développement craniofacial chez la souris ¹⁵⁸	SMV	Exon, en aval, en amont
Prédit : doigt de zinc de la famille GLI 1 (gli1)		SV	–
Prédit : Doigt de zinc de la famille GLI 3 (gli3) *	Le gène GLI3, connu pour être impliqué dans la croissance du cartilage, est lié à la largeur des narines d'une personne chez l'homme ⁵⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
Prédit : Doigt de zinc de la famille GLI 3 (gli3) *		SV	intron
Prédit : facteur de transcription 2 lié à Runt (runx2) *	Le gène RUNX2 , qui stimule le développement osseux, est associé à la largeur de l'arête du nez, la partie supérieure du nez chez l'homme ⁵⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
Prédit : facteur de transcription 2 lié à Runt (runx2) *		SV	–
Prédit : Boîte appariée 1 (PAX1) *	Le gène PAX1, connu pour être impliqué dans la croissance du cartilage, est lié à la largeur des narines chez l'homme ⁵⁰	SMV	5′ UTR, 3′ UTR, intron, exon, en aval, en amont
Prédit : Boîte appariée 1 (PAX1) *		SV	en amont
Prédit : Boîte appariée 3 (PAX3) *	PAX3 influence la position du nasion chez l'homme ⁵¹	SMV	5′ UTR, intron, exon, en amont
Prédit : Boîte appariée 3 (PAX3) *	PAX3 influence la position du nasion chez l'homme ⁵¹	SV	intron

*Également identifié chez l’homme comme jouant un rôle dans la morphologie craniofaciale.
**Autre membre de la famille identifié chez l'homme comme jouant un rôle dans la morphologie craniofaciale.

Tableau 11 : Résultat de l’analyse d’enrichissement GO – termes du processus biologique (condensé). Ce tableau présente les résultats de l’approche A2 (voir tableau supplémentaire S14b ). L’enrichissement a été évalué par un test exact de Fisher avec un seuil de p ≤ 0,001 et la topologie GO a été prise en compte (package R topGO, pondération de la méthode ). Dans la colonne « Type » , les espèces biologiques sont codées A (PT) et B (TM) ; les variants identiques et non identiques aux mêmes positions nucléotidiques, ainsi que les variants uniques, sont indiqués. Français Les catégories (AA, AB, BA et BB) se réfèrent à la comparaison intra et inter : identique (AA) signifie que les variants intraspécifiques (SMV et SV) dans ce groupe ont également été appelés dans la comparaison interspécifique (AB) apparentée au même endroit, avec non identique (AA) un variant différent a été appelé au même endroit (par exemple, A → T à l'intérieur et A → G entre les espèces), avec unique (AA) uniquement au sein de l'espèce A et avec unique (AB) uniquement entre les espèces A et B un variant a été appelé à cette position ; le même principe s'applique à l'espèce B et aux catégories BB et BA. Les comparaisons ont été menées dans les deux sens, c'est-à-dire A vs B et B vs A ; les groupes ont été testés par rapport à un univers génétique contenant tous les gènes avec des informations GO (l'ensemble de données contient 7905 (PT) et 7688 (TM) termes GO au total). SMV : petit(s) variant(s) (SNP et InDels) ; SV : variant(s) structurel(aux) (insertions, délétions, duplications, inversions et translocations). Voir le tableau supplémentaire S15 pour des listes détaillées.

Outre les variantes de la structure de l'ADN, l'épissage alternatif (AS) a été analysé. On compte environ 6 200 événements d'AS dans environ 2 600 gènes entre les sexes de chaque espèce et environ 39 000 événements d'AS dans environ 9 400 gènes entre les deux espèces (voir tableau supplémentaire S13 ).

Assemblage et annotation

Le méta-assemblage d'un ensemble d'assemblages primaires a donné des ébauches de génome de haute qualité avec 918 et 911 Mbp pour Petrochromis trewavasae et Tropheus moorii , respectivement. Cela correspond aux tailles comprises entre 900 et 1 000 Mbp rapportées pour d'autres génomes de cichlidés 21 , 30 et aux ~ 940 Mbp estimés par notre validation d'assemblage avec REAPR 38 . Le dernier assemblage d'Oreochromis niloticus s'étend sur ~ 1 Gbp ; cette variation de taille du génome peut être due à des différences biologiques mais pourrait également indiquer que certaines portions de l'ADN répétitif dans la reconstruction du génome respectif (PT/TM) ne sont pas incluses dans l'assemblage en raison d'un effondrement de séquence (par exemple, répétitions effondrées) 39 .

Généralement, les assemblages sont basés sur les données génomiques d'un seul individu, idéalement issu d'une lignée consanguine. Dans ce projet, nous avons assemblé à partir de 6 (PT) et 5 (TM) individus non consanguins, respectivement ; cela a nécessité une approche d'assemblage plus complexe. De plus, nous avons réalisé un séquençage de novo sans aucune donnée de liaison ni de carte optique (comme le montrent les dernières versions du génome d' O. niloticus et d'A. calliptera ) et la couverture PacBio était (avec environ 9–10 ×) considérablement inférieure à celle utilisée pour les assemblages d' O. niloticus (44 × pour v3 30 et v4 27 ) et de M. zebra (16,5 × pour v3 40 , ajouté aux couvertures PE et MP d'Illumina déjà élevées, et 65 × pour v4 27 ). Français Néanmoins, les deux assemblages se comparent bien aux versions préliminaires du génome publiées d'espèces comparables en ce qui concerne les mesures typiques concernant le contenu génétique. Les résultats BUSCO (Tableau 5 ) montrent un faible taux d'environ 4 à 8 % (selon la base de données) de BUSCO dupliqués dans PT et TM. Ce taux est légèrement supérieur aux environ 2 à 4 % rapportés pour d'autres génomes de cichlidés, ce qui peut être une conséquence d'un assemblage incorrect d'haplotypes provenant d'individus non consanguins. En ce qui concerne le nombre total de BUSCO identifiés, les BUSCO fragmentés et manquants, la reconstruction du génome PT et TM fonctionne très bien.

Pour les deux espèces, les annotations se sont avérées valides pour les premières analyses en aval pertinentes, mais certains modèles génétiques pourraient nécessiter des améliorations supplémentaires, par exemple par l'entraînement répété des prédicteurs génétiques ; cependant, pour AUGUSTUS, le prédicteur central, les évaluations du modèle montrent déjà de bons états d'entraînement (voir le tableau supplémentaire S12 ). Les sources les plus pertinentes de modèles génétiques insuffisants pourraient inclure les fusions, les divisions et surtout les troncatures de gènes, qui sont évidentes après une inspection plus approfondie ; ceci est typique des annotations précoces, en particulier lorsque le pipeline d'annotation est encore en cours de développement. Nous observons une longueur moyenne et médiane relativement faible des séquences protéiques (voir le tableau 2 ) dans les deux assemblages/annotations. Cela pourrait refléter une erreur systématique dans le processus de génération, par exemple des InDels conduisant à des décalages de cadre et, par conséquent, à des traductions erronées et à des codons stop prématurés. L'étude de ce phénomène a montré des InDels non triplets ; cependant, on les retrouve également entre, par exemple, les modèles de transcription d'O. niloticus et de M. zebra . Français De plus, le taux de mutations non-sens identifiées dans PT et TM est faible (Tableau 9 ). Les pipelines d'annotation NCBI et Ensembl sont à la pointe de la technologie ; de plus, la quantité et la diversité des données de séquençage d'ARN utilisées pour l'annotation, par exemple, d'O. niloticus étaient bien plus importantes que pour l'une ou l'autre espèce dans ce projet. Par conséquent, le plus grand nombre d'isoformes de transcription identifiées (ainsi que le nombre moyen plus élevé d'exons par transcription) peuvent être considérés comme des conséquences directes. Cependant, le nombre total d'exons dans les deux espèces est comparable aux annotations ON. Il est intéressant de noter que le nombre de modèles génétiques dans PT et TM est également comparable à celui d'ON v3. Comme il n'existe pas de méthode bien établie pour évaluer l' exactitude des modèles génétiques (peut-être par une vérification de structure générale et un score majoritaire de similarité basé sur une base de données), il s'agit simplement d'une comparaison du nombre d'éléments. De plus, comme mentionné précédemment, il existe des fusions et des divisions génétiques dans les modèles génétiques PT et TM, ce qui fausse le nombre de gènes dans une certaine mesure. DOGMA 36 et PfamScan 41 ont également été utilisés comme mesure de la qualité des gènes codant pour des protéines annotées ; les résultats corroborent l'hypothèse de modèles génétiques défectueux dans cet ensemble, qui ne contiennent pas certains domaines protéiques ou seulement des fragments de ceux-ci (tableau 7 ).

Analyse comparative

Nous avons choisi les deux espèces étudiées pour les raisons suivantes. Tropheus moorii est un brouteur d'algues très performant, présent en grand nombre sur tous les types de rivages rocheux, tandis que Petrochromis trewavasae est un brouteur d'algues réparti sur les rivages rocheux de la rive ouest du lac, vivant en sympatrie avec Tropheus . La famille des Tropheini comprend trois espèces prédatrices : une omnivore, dix brouteurs d'algues et quinze brouteurs d'algues. Les brouteurs d'algues possèdent des dents en forme de ciseau pour mordre les algues filamenteuses du substrat rocheux, tandis que les brouteurs d'algues possèdent des dents en forme de peigne disposées en plusieurs rangées pour éliminer les algues unicellulaires et les détritus des rochers. Français En raison de l'âge ancien de la tribu Tropheini, s'élevant à environ 2 à 6,5 millions d'années pour le début de leur radiation 6 , le degré de divergence éco-morphologique est plus grand que dans les équivalents éco-morphologiques beaucoup plus récents du lac Victoria, mais comparable à l'éco-morphospace couvert par l'ensemble du troupeau du lac Malawi. Il est intéressant de noter que le genre Tropheus comprend environ 120 populations, principalement allopatriques et distinctes en termes de couleur, et des espèces sœurs morphologiquement similaires. Elles sont toutes restées dans la même niche trophique sur tous les rivages rocheux du lac. Petrochtomis trewavasae ne présente pas beaucoup de variation de couleur, a une distribution restreinte sur le rivage sud-ouest du lac et fait partie d'une lignée brouteuse complexe et morphologiquement distincte, comprenant le complexe d'espèces P. polyodon beaucoup plus diversifié . Si l'on considère l'ensemble de la lignée, elle a suivi une trajectoire évolutive similaire à celle de Tropheus . Il convient de noter ici que le nombre généralement beaucoup plus faible d'espèces dans le lac Tanganyika par rapport aux lacs Malawi et Victoria résulte également des différents concepts d'espèces utilisés, dans la mesure où plusieurs entités allopatriques sont traitées comme des espèces dans les lacs Victoria et Malawi, alors que comme des variétés géographiques dans le rayonnement plus ancien du lac Tanganyika.

L'analyse comparative présentée ici a produit, comme prévu, un grand nombre de régions variantes entre les deux espèces et même une quantité considérable au sein de chaque espèce. La grande quantité de variation au niveau intraspécifique peut en fait être due à notre approche consistant à utiliser plusieurs individus F1 non consanguins d'une seule population échantillonnée dans l'environnement naturel, mais reflète mieux la diversité intrapopulation et finalement l'âge évolutif ancien de la lignée. Nous avons utilisé GATK 42 et DELLY 43 , deux outils bien établis, pour l'appel de variantes ; cependant, l'appel de variantes n'est pas encore un problème bien résolu avec souvent peu de chevauchement entre les résultats des différentes routes algorithmiques (par exemple, voir 44 , 45 ). Quant aux statistiques rapportées sur les effets des variantes, il est connu que l'état de l'annotation structurelle et l'annotateur d'effet de variante utilisé influencent fortement les résultats 46 . Les résultats d'analyse présentés ici reflètent l'état des reconstructions du génome (v1).

Le nombre relativement important de SV et SMV réciproquement triés parmi les deux espèces étudiées est remarquable et pourrait refléter le temps de divergence relativement ancien entre les deux espèces étudiées s'élevant à environ 2,5 à 6 millions d'années pour les deux clades 6 . En fait, on s'attend à ce que les mutations structurelles affectant l'information de codage aient besoin de plus de temps pour évoluer que les mutations régulatrices. Ainsi, en comparant les espèces des lacs Victoria et Malawi, beaucoup plus récents, on ne s'attendrait pas à un degré aussi marqué de variation de codage réciproquement distincte. Le SV et le SMV peuvent également être interprétés à la lumière de l'hypothèse de la tige flexible 4 , 18 . La tige flexible des radiations de cichlidés est formée d'espèces écologiquement et phénotypiquement flexibles adaptées aux habitats fluviaux saisonnièrement instables. Une fois qu'elles ensemencent les radiations lacustres, elles peuvent rapidement s'adapter à un espace de niche vide dans cet environnement plus stable en raison de leur grande portée de plasticité phénotypique 18 . Par la suite, la population phénotypiquement plastique est subdivisée en phénotypes adaptatifs alternatifs, puis les facteurs génétiques adaptatifs sont triés lors de la spéciation pour progresser par accommodation génétique et assimilation génétique 47 . La plasticité phénotypique ou développementale fait référence à la capacité d'un seul génotype à produire de multiples phénotypes dans différentes conditions environnementales. L'hypothèse de la tige flexible postule que la plasticité d'une population peut influencer la direction de l'évolution en exposant une variation génétique cryptique à la sélection dans un nouvel environnement. Selon ce modèle, des sous-ensembles d'une population ancestrale exploitent des niches écologiques distinctes dans un nouvel habitat, comme différents types d'aliments. Au cours d'une seule génération, la plasticité anatomique peut conduire à une augmentation de la fitness, par exemple une capture ou une transformation plus efficace des aliments, dans chaque niche. La variation phénotypique nouvellement exposée sera ciblée par la sélection, et si le nouvel environnement est stable, les phénotypes plastiques peuvent être canalisés par assimilation génétique. Français L'hypothèse est que les mécanismes moléculaires de la réponse plastique sous-tendent également l'évolution des phénotypes clés, c'est-à-dire que la variation génétique dans les mêmes molécules/voies de signalisation, qui permettent la plasticité, est ciblée par sélection et fixée afin de canaliser le phénotype. Dans une étude récente, le rôle de la signalisation hedgehog (Hh) dans la plasticité cranio-faciale chez les téléostéens a été mis en évidence, démontrant que les niveaux de Hh ajustent la sensibilité aux signaux mécaniques liés aux conditions de recherche de nourriture – où les changements morphologiques adaptatifs dans les structures immédiatement affectées, par exemple, les os pharyngés, peuvent propager des changements morphologiques à d'autres structures cranio-faciales 48 .

Des variants ont été appelés dans pratiquement toutes les régions génétiques. Environ 99 % ont au moins un variant possible dans le corps du gène ou 5 kb en amont/en aval, selon les paramètres appliqués (Fig. 3 B). Les gènes présentant au moins une mutation ont été soumis à une analyse d'ontologie génétique (GO) afin d'obtenir des indices sur d'éventuels groupes fonctionnels intéressants affectés par davantage de variants. Autrement dit, le nombre de variants (ou « charge mutationnelle ») a été utilisé comme indicateur de la probabilité de changements effectifs. La justification de cette approche était l'hypothèse de l'exactitude du modèle infinitésimal ou du modèle omnigénique 49 , respectivement. On peut s'attendre à ce que les changements phénotypiques observés ne soient pas dus à quelques variants à fort impact (généralement dans la région codante), mais plutôt à plusieurs variants à « faible impact » (dans les catégories utilisées, probablement les " variants modificateurs " qui représentent généralement > 90 % de la charge mutationnelle). Français Même si à ce stade la pertinence de la variation dans les gènes sélectionnés n'est pas claire, tous les gènes listés ont de multiples appels concernant SMV et SV (Fig. 3 B) ce qui peut augmenter les chances d'influences efficaces sur les phénotypes. Étant donné les fonctions qui leur sont assignées rapportées dans d'autres organismes (Tableau 10 ), cependant, ces gènes méritent d'être sondés. Par exemple, cinq gènes liés à la définition de la forme du nez et du menton ( DCHS2 , RUNX2 , GLI3 , PAX1 et EDAR ) ont récemment été identifiés dans une étude GWAS humaine 50 ; plusieurs variants dans tous ces gènes ont également été trouvés entre les deux espèces. De plus, PAX3 , KCTD15 et les membres de la famille TBX ( TBX1 et TBX10 , mais pas TBX15 comme rapporté précédemment) sont dans l'ensemble des résultats ; ces gènes ont été liés à la morphologie faciale chez l'homme dans deux autres études GWAS récentes 51 , 52 (Tableau 10 ). Les futures analyses en aval devraient se concentrer en particulier sur les gènes présentant des différences d'expression stables entre les espèces étudiées. Comme indiqué précédemment, nous nous concentrons sur les différences de formes faciales et pharyngées (voir figure supplémentaire S1 ).). Il est intéressant de noter que cette méthode simple de comptage de variants non biaisés (« charge de mutation ») génère de manière reproductible les termes GO liés à la morphogenèse du viscérocrâne (voir Informations supplémentaires), sans donner une longue liste de termes GO plutôt peu spécifique. Le résultat GO met en évidence plusieurs voies de signalisation importantes : la signalisation BMP (par exemple, bmp2, bmp4), la signalisation Hedgehog (Hh) (par exemple, Shh, famille Gli, famille Sec, smo, med12, plcb3), la signalisation de l'endothéline (par exemple, edn1, furine, famille dlx), la signalisation de l'acide rétinoïque (RA) (par exemple, rere, rerea) et la signalisation du facteur de croissance des fibroblastes (FGF) (par exemple, fgf8, fgf20b) (voir Tableau 10 et Tableau supplémentaire S21 ). Tous ces réseaux de signalisation sont connus pour jouer un rôle dans la régulation de la morphogenèse faciale des vertébrés, et ils interagissent. Il existe, par exemple, de fortes interactions coopératives et fonctionnelles entre Shh et l'acide rétinoïque 53 , 54 , 55 , 56 , 57 , 58 . Une analyse comparative plus approfondie de la distribution des variantes génétiques observées entre les deux espèces et leurs phénotypes respectifs n'a pas été réalisée à ce stade ; ce sera une tâche importante pour les études de suivi.

En résumé, les deux nouveaux génomes préliminaires ajoutent deux espèces clés monophylétiques et écomorphologiquement divergentes, comblant ainsi une importante lacune phylogénétique. De plus, elles représentent la première ramification des cichlidés haplochromines modernes, la lignée la plus riche en espèces de cichlidés d'Afrique de l'Est. Alors que les Tropheini rayonnaient dans les limites du lac Tanganyika, leurs alliés se sont répandus sur plusieurs rivières, ensemençant des radiations supplémentaires, comme celles des lacs Malawi et Victoria, où celles-ci ont atteint une diversité écomorphologique comparable.

Méthodes

Étudier les espèces

Les spécimens échantillonnés de T. moorii sont des descendants F2 d'individus sauvages capturés dans la section zambienne de la rive sud-ouest du lac Tanganyika (08°38′ S 30°52′ E) près du village de Nakaku, qui ont été apportés à l'Université de Graz en 2005. Les spécimens de P. trewavasae utilisés dans cette étude sont des descendants F1 de poissons sauvages également de la rive sud-ouest, mais plus au nord-est près du village de Katete (08°20′S 30°30′E) et ont été obtenus auprès d'un importateur de poissons d'ornement. Français La collecte de la génération parentale de poissons a été réalisée dans le cadre d'un protocole d'accord entre le Département des pêches du Ministère de l'agriculture et des coopératives de Zambie, le Département des sciences biologiques de l'Université de Zambie à Lusaka, le Département de zoologie de l'Université de Graz en Autriche, le Département d'écologie comportementale de l'Université de Berne en Suisse et le Département de zoologie de l'Université de Bâle en Suisse, en vertu du permis de recherche délivré à CSt par le Ministère zambien de l'intérieur (numéro de permis : SP006515). Les données de séquence présentées ici sont basées sur des extractions d'ADN de 6 individus de P. trewawasae et 5 individus de T. moorii ; les spécimens comprenaient les deux sexes et étaient âgés d'environ un an.

Séquençage et procédures de laboratoire

Nous avons séquencé l'ADN génomique extrait des échantillons ci-dessus en utilisant plusieurs technologies de séquençage : Illumina HiSeq paired-end 2 × 101 pb (taille des fragments de 300 pb et 600 pb), Illumina Nextera mate-pair 2 × 100 pb (taille des fragments de 1 à 6 kbp), 454 Life Sciences (longueur de lecture moyenne d'environ 350 pb ; taille des fragments de 8 et 20 kbps) et technologie de séquençage en temps réel de molécule unique (SMRT) de Pacific Biosciences (PacBio) (longueur de lecture moyenne d'environ 8 000 à 9 000 pb après correction).

Les méthodes de laboratoire (extraction d'ADN, préparation de la banque et séquençage) ont, en partie, été décrites précédemment dans l'article d'accompagnement sur les génomes mitochondriaux 59 . De plus, nous avons effectué deux séquençages en utilisant la technologie de séquençage de deuxième génération de Pacific Biosciences basée sur un individu par espèce. L'extraction d'ADN a été réalisée à Graz, la préparation de la banque et le séquençage au Lausanne Genomic Technologies Facility : l'ADN a été cisaillé dans un Covaris g-TUBE (Covaris, Woburn, MA, États-Unis) pour obtenir des fragments de 20 kbp. Après cisaillage, la distribution de taille de l'ADN a été vérifiée sur un analyseur de fragments (Advanced Analytical Technologies, Ames, IA, États-Unis). 5 μg de l'ADN cisaillé ont été utilisés pour préparer une banque SMRTbell avec le PacBio SMRTbell Template Prep Kit 1 (Pacific Biosciences, Menlo Park, CA, États-Unis) selon les recommandations du fabricant. La banque obtenue a été sélectionnée par taille sur un système BluePippin (Sage Science, Inc. ; Beverly, MA, États-Unis) pour les molécules supérieures à 11 kbp. La banque récupérée a été séquencée sur treize/seize cellules SMRT (TM/PT) avec la chimie P6/C4 et des MagBeads sur un système PacBio RSII (Pacific Biosciences, Menlo Park, CA, États-Unis) à une durée de 240 minutes.

Pour l'ARN-seq, l'ARN total d'un individu mâle et femelle par espèce (regroupés à partir des tissus suivants : foie, rate, cerveau, cœur et muscle squelettique) a été extrait avec Trizol comme suit : le tissu a été homogénéisé avec MagnaLyser et incubé avec un tube Trizol 5 min à température ambiante (TA) ; 200 µl de chloroforme (/ml de Trizol) ont été ajoutés et agités vigoureusement pendant 15 s, incubés pendant 2 à 3 min/TA et centrifugés à 12 200 tr/min/4 °C/15 min ; le surnageant a été transféré dans un nouveau tube de 1,5 ml et 500 µl d'isopropanol (/ml de Trizol) ont été ajoutés ; après vortexage, incubation pendant 10 min/TA, centrifugation à 12 200 tr/min/4 °C/10 min, le surnageant a été jeté et le culot placé sur de la glace immédiatement. Les culots ont été lavés deux fois : ajouter 1 ml d’EtOH 80 % (–20 °C), centrifuger à pleine vitesse/4 °C/5 min, éliminer le surnageant et enfin sécher à 37 °C. Les culots séchés ont été remis en suspension dans 20 µl d’eau distillée. Les banques d’ARN-seq ont été dérivées de l’ARN total, appauvri en ARNr, normalisé et séquencé sur une seule voie Illumina HiSeq 2500 par espèce.

(Pré)traitement général des données

L'intégralité du pipeline et des traitements de haut niveau a été réalisée avec R/Bioconductor, quelques pipelines mineurs en Bash et certaines fonctionnalités essentielles ont été écrites en C++ (appelées depuis R). Pour plus de détails sur le paramétrage des étapes/outils importants, voir le tableau supplémentaire S22 .

FastQC v0.10.1 60 a été utilisé pour l'évaluation de base de la qualité de lecture. Une approche personnalisée basée sur le spectre k-mer utilisant JELLYFISH v2.0 61 (en conjonction avec une base de données de séquences techniques connues) et une approche basée sur De Bruijn (implémentée dans Minion à partir du package Kraken v13-274 62 ) ont été utilisées pour l'identification automatique des contaminants techniques et des séquences suspectes (sur la base des fréquences attendues). De plus, FastQScreen v0.4.4 63 a été utilisé pour l'identification spécifique à l'espèce de la contamination biologique et DeconSeq v0.4.3 64 pour son élimination. Cutadapt v1.5 65 a été utilisé pour la suppression des contaminants techniques, Scythe v0.994 66 pour un ajustement supplémentaire de l'adaptateur 3', CLC quality trim v4.2 67 pour un ajustement de lecture basé sur le score de qualité et Reaper v13-274 62 pour un filtrage supplémentaire basé sur la qualité et la complexité. BBmerge v33.40 68 a été utilisé pour la fusion des lectures appariées superposées et FastUniq v1.1 69 pour la suppression des doublons. Nextclip v1.2 70 a été utilisé pour le filtrage et la classification des lectures par paires mates Nextera. 454 ensembles de données ont également été filtrés avec sffToCA (utilitaire Celera Assembler). Français BAMtools v2.4.0 71 , SAMtools/BCFtools/HTSlib v1.4 72 et les outils Picard v1.119 73 ont été utilisés pour la cartographie et les manipulations de fichiers de séquences telles que l'indexation, la fusion, le tri et la génération de sous-ensembles, la suppression des lectures en double et la suppression de la contamination PE des bibliothèques MP dans les fichiers de séquences. Proovread v2.13.10 74 a été utilisé pour la correction de lecture PacBio en utilisant toutes les données PE Illumina disponibles et les unités créées par MaSuRCA v2.3.2 75 . SEECER v0.1.3 76 et Rcorrector v1.0.2 77 ont été utilisés pour le RNA-seq et Musket v1.1 78 pour la correction des bases-calls du DNA-seq. Les ensembles de données DNA-seq et RNA-seq ont été prétraités en utilisant le même pipeline (avec des paramètres différents) ; en général, deux régimes de filtrage ont été appliqués à chaque ensemble de données (« strict »/« standard » et « détendu ») en prévision de différents cas d'utilisation en aval (voir le tableau supplémentaire S22 ). Les tailles des génomes ont été estimées par une approche basée sur le spectre k-mer implémentée dans GCE v1.0.2 79 .

Assemblage du génome

Du point de vue du méta-assemblage réalisé, l'algorithme implémenté dans MaSuRCA v2.3.2 75 (utilise Celera Assembler v6.5 80 ) a servi de procédure d'assemblage principale ; tous les ensembles de données disponibles à ce moment (c.-à-d. Illumina PE et MP, Illumina Nextera MP et 454 MP et SE) ont été utilisés. Celera Assembler v8.3rc2 (CA) 80 a été utilisé pour les assemblages « PacBio uniquement ». Comme plusieurs individus par espèce (tous des diploïdes non consanguins) ont été séquencés dans ce projet, l'hétérozygotie était une préoccupation. Par conséquent, des algorithmes d'assemblage spécifiquement conçus pour mieux gérer la divergence ont été intégrés à l'approche de reconstruction : Platanus v1.2.1 81 est un assembleur récent adapté pour traiter plus judicieusement les problèmes d'hétérozygotie dans les données génomiques (5 itérations ; tous les ensembles de données Illumina ont été utilisés) ; Redundans v0.12c 82 (utilise SSPACE3 83 , GapCloser 84 , bwa 85 et last 86 ) vise également à fournir des assemblages plus précis et contigus de génomes hautement hétérozygotes (5 itérations ; tous les ensembles de données Illumina ont été utilisés). La suite PBJelly v15.8.24 87 (utilise BLASR 88 ) a été utilisée pour incorporer les longues lectures de séquences (PacBio) dans un processus d'assemblage guidé par référence dans les brouillons établis (5 itérations). L'ensemble diversifié de brouillons de génomes générés a été soumis à Metassembler 89 dans le but de générer des séquences consensus de haute qualité. Un algorithme personnalisé, qui prend en compte plusieurs mesures sur les erreurs d'assemblage probables, la contiguïté et les prédictions de gènes (en s'appuyant sur des informations de QUAST 90 et REAPR 38 ), a été appliqué pour déterminer le meilleur ordre des méta-assemblages successifs.

Finition du génome

Pour une nouvelle phase de comblement des lacunes inter-échafaudages, GMcloser 91 (utilisant Nucmer 92 / BLAST 93 et Bowtie2 94 ) a été appliqué aux méta-assemblages avec les données PacBio et Illumina PE. Enfin, Sealer 95 (utilisant Konnector , une partie du pipeline d'assemblage ABYSS 96 ) a été utilisé avec les bibliothèques Illumina PE (libérales) pour combler les lacunes finales, et une finition génomique personnalisée basée sur GATK 42 (via la cartographie arrière et le rappel consensuel d'Illumina PE) a été appliquée.

Validation du génome

REAPR v1.0.18 38 (utilisant SMALT v0.7.0.1 97 ) a été utilisé avec les bibliothèques Illumina Nextera mate-pair (6 kbp) et Illumina PE (600 bp) pour évaluer l'exactitude des assemblages et QUAST v4.1 90 a été appliqué pour les statistiques de contiguïté et de prédiction des gènes. L'exhaustivité des assemblages a été évaluée en utilisant CEGMA v2.5 35 (utilisant GeneWise v2.4.1 98 , HMMER v3.0 99 et NCBI BLAST + v2.2.29 + 93 ) avec optimisation des paramètres pour les génomes de vertébrés (–vrt) et BUSCO v3.0.2 34 (utilisant NCBI BLAST + v2.2.29 + , HMMER v3.1 99 et AUGUSTUS v3.2.1 100 ).

Assemblage du transcriptome et cartographie de lecture de l'ARN-seq

Les assemblages de transcriptome ont été réalisés avec Trinity v2.3.2 101 , 102 et le pipeline PASA2 v2.0.2 103 (en utilisant GMAP v2014-12–06 104 , BLAT v36.1 105 et MySQL v5.7.12 106 ); Transdecoder v3.0.1 102 a également été appliqué pour identifier les régions codantes candidates (utilisé avec MAKER3 107 ). Les alignements de lecture RNA-seq pour d'autres analyses ont été généralement réalisés avec STAR v2.4.2a 108 en utilisant les paramètres par défaut.

Annotation du génome

Les annotations structurelles ont été réalisées à partir de données expérimentales issues d'ensembles de données mRNA-Seq. De plus, des informations ont été tirées de modèles de transcription et de protéines issus de jeux de données sélectionnés et accessibles au public ( Danio rerio , H. burtoni, M. zebra, N. brichardi, O. niloticus et P. nyererei ) et d'autres modèles dans UniProt|Swiss-Prot, nr/nt et UniRef90|teleost. L'annotation fonctionnelle a été principalement réalisée via des comparaisons BLAST avec les bases de données mentionnées et via une multitude de bases de données coordonnées par InterProScan 5 (voir tableau 2 ).

L'annotation structurelle des gènes codants et des ARNt a été générée à l'aide des pipelines MAKER v3.0 107 (en utilisant les détecteurs de gènes GeneMark-ES v4.32 109 , AUGUSTUS v3.2.1 100 , SNAP v2013-11–29 110 et tRNAscan v1.3.1 111 ), Funannotate v0.5.5-v0.7.0 112 (FA) et BRAKER1 v1.9 113 (en utilisant GeneMark-ET v4.32 114 et AUGUSTUS v3.2.1 100 ) ; BRAKER1 a également été utilisé pour l'entraînement AUGUSTUS. De plus, des modèles de gènes ont été créés avec StringTie v1.3.2d 115 et Cufflinks v2.2.1 116 .
Tous les modèles ont été combinés par EVidenceModeler v1.1.1 117 (EVM) sous le contrôle de MAKER3. Pour les ARN non codants, Infernal v1.1.2 118 , Rfam v12.1 119 et FEELnc v0.1.0 120 ont été utilisés. L'ensemble d'entraînement d'ARNm pour FEELnc a été dérivé des données d'annotation FA/MAKER, où des modèles génétiques présumés « bons » avec une structure similaire aux modèles précédemment publiés ont été sélectionnés ; l'ensemble d'entraînement d'ARNlnc a été généré par mélange des séquences d'ARNm. Les microsatellites ont été appelés avec MISA v1.0 121 , les îlots CpG avec EMBOSS v6.6.0 122 cpgplot et les ORFs avec EMBOSS v6.6.0 getorf (et post-traitement R). Les répétitions ont été déterminées à l'aide de RepeatMasker v4.0.6 32 (avec RepBase v20160321 123 et des bibliothèques spécifiques aux espèces générées avec RepeatModeler v1.0.8 124 ), RepeatScout v1.0.5 125 et TRF v406 126 .

L'annotation fonctionnelle a été réalisée à l'aide d'InterProScan v5.24–63.0 127 (en utilisant les bases de données CDD-3.14, Coils-2.2.1, Gene3D-3.5.0, Hamap-201605.11, MobiDBLite-1.0, PANTHER-11.1, Pfam-30.0, PIRSF-3.01, PRINTS-42.0, ProDom-2006.1, ProSitePatterns-20.119, ProSiteProfiles-20.119, SFLD-2, SMART-7.1, SUPERFAMILY-1.75, TIGRFAM-15.0 et TMHMM-2.0c). De plus, sous le contrôle de FA, les bases de données eggNOG v4.5.1 128 (fiNOG), MEROPS v12.0 129 , dbCAN v5.0 130 et BUSCO vertebrata v3 34 ont été utilisées pour les recherches de similarité et SIGNALP v4.1 131 pour l'identification des séquences de signaux de localisation des cibles.

L'intégration finale de toutes les annotations a été réalisée avec R 3.4.3/Bioconductor 3.6 en utilisant les packages data.table 1.12.2, GenomicFeatures 1.30.3, VariantAnnotation 1.24.5 et leurs dépendances.

Cartographie de lecture de séquences d'ADN

Les lectures prétraitées ont été alignées en mode paired-end avec BWA mem 85 en utilisant les paramètres par défaut avec les indicateurs ‐M et ‐R. Les lectures alignées ont été triées par coordonnées avec Picard SortSam v1.119 73 et indexées avec SAMtools index v1.4 72 . Les doublons ont été supprimés avec Picard MarkDuplicates v1.119. La qualité des mappages a été évaluée avec QualiMap v2.0 132 .

Analyse comparative — appel de variantes petites (SMV) et structurelles (SV) — prédiction de l'effet des variantes

La boîte à outils d'analyse du génome (GATK) v3.7 a été utilisée pour le réalignement local des lectures et la détection et le filtrage des variantes SNP/InDel (appelées petites variantes, SMV) 42 comme recommandé par la documentation GATK ; le HaplotypeCaller a été appliqué, avec un score minimum pour l'émission de variantes de 10, pour l'appel de 30 et un élagage minimum de 10. Les SMV avec un score de qualité ≥ 30 ont été inclus dans d'autres analyses. DELLY v0.7.7 43 a été appliqué pour appeler les variantes structurelles (SV, insertions, délétions, duplications, inversions et translocations) avec une taille d'insertion limite de 3 (pour les délétions) et une qualité de mappage d'extrémités appariées minimale de 20. Toutes les variantes avec un minimum de 5 paires de lectures rompues supportant la variante ainsi qu'avec une longueur minimale de 300 pb (pour les délétions, les inversions et les duplications) ont été incluses dans d'autres analyses, comme recommandé par la documentation DELLY. Les effets de variante présumés ont été appelés avec SNPeff v4.3r 37 . Whippet v0.11.1 133 a été utilisé pour l'appel d'événements d'épissage alternatifs. Les analyses comparatives ont été menées dans R 3.4.3/Bioconductor 3.6 en utilisant les packages data.table 1.12.2, GenomicFeatures 1.30.3, Variant Annotation 1.24.5 et leurs dépendances.

Analyse GO

Afin de restreindre la liste des gènes candidats, une analyse d'enrichissement GO a été réalisée sur les régions génétiques porteuses de variants à l'aide du package R topGO v2.30.1 134 ; les annotations GO personnalisées ont été générées à partir des mappages InterProScan. La topologie GO a été prise en compte ( pondération de la méthode ) et l'enrichissement a été évalué par un test exact de Fisher avec un seuil de p ≤ 0,001. Voir les détails de l'analyse GO dans les informations complémentaires.

Approbation éthique et consentement à participer

Les traitements animaux décrits dans cet article sont conformes aux normes de la loi autrichienne sur le bien-être animal et à la directive européenne 86/609. Les poissons ont été élevés dans notre aquarium certifié à l'Institut de biologie de l'Université de Graz. Les individus ont été prélevés par CSt et SK, euthanasiés par surdose d'huile essentielle de clou de girofle et décapités conformément à la législation autrichienne sur le bien-être animal. Conformément à la loi autrichienne sur l'expérimentation animale (TVG, BGBI. Nr. 501/1989, modifiée en dernier lieu par BGBI. I Nr. 162/2005), aucune autorisation n'était requise, car aucun traitement expérimental n'a été effectué.

Disponibilité des données

Les brouillons du génome ont été téléchargés sur EBI, TM : [GCA_902810505], PT : [GCA_902810495] ; les assemblages du génome et du transcriptome (FASTA), les annotations structurelles et fonctionnelles (GFF3), les mappages de lecture (BAM) et les fichiers de suivi IGV 33 supplémentaires sont disponibles sur https://cichlidgenomes.tugraz.at .

Sources : https://www.nature.com/articles/s41598-021-81030-z

Télécharger l'article original ( Anglais ) : https://www.nature.com/articles/s41598-021-81030-z.pdf

Catégorie : - Articles Scientifiques

Réactions à cet article

Personne n'a encore laissé de commentaire.
Soyez donc le premier !