Séquences
génomiques de Tropheus moorii et Petrochromis trewavasae ,
deux poissons cichlidés écomorphologiquement divergents endémiques du
lac Tanganyika -
Publié :
C. Fischer , S. Koblmüller , C. Börger , G. Michelitsch , S.
Trajanoski , C. Schlötterer , C. Guelly , GG Thallinger &
C. Sturmbauer
.
Avec plus de 1 000 espèces, les cichlidés d'Afrique de l'Est
représentent le rayonnement vertébré le plus rapide et le plus riche en
espèces connu, offrant un modèle idéal pour étudier les mécanismes
moléculaires sous-jacents à la diversification adaptative récurrente.
Nous ajoutons des reconstructions génomiques de haute qualité pour deux
espèces phylogénétiques clés d'une lignée ayant divergé il y a environ 3
à 9 millions d'années (Ma), représentant la première division des
haplochromines dites modernes à l'origine de rayonnements
supplémentaires, comme ceux du lac Malawi et de l'État Victoria. Outre
les génomes annotés, nous avons analysé les caractéristiques génomiques
discriminantes des espèces étudiées, chacune représentant une
morphologie trophique extrême, l'une étant un brouteur d'algues, l'autre
un brouteur d'algues. Les génomes de Tropheus
moorii (TM)
et de
Petrochromis trewavasae (PT)
comprennent 911 et 918 Mbp, avec respectivement 40 300 et 39 600 gènes
prédits. Nos données de séquences d'ADN sont basées sur 5 et 6 individus
de TM et PT, ainsi que sur les séquences transcriptomiques d'un individu
par espèce et par sexe, respectivement. Concernant la variation, nous
avons observé en moyenne 1 variant pour 220 pb (interspécifique) et 1
variant pour 2540 pb (PT vs PT)/1561 pb (TM vs TM) (intraspécifique).
L'analyse d'enrichissement GO des régions génétiques affectées par les
variants a révélé plusieurs candidats susceptibles d'influencer les
modifications phénotypiques liées à la morphologie faciale et
maxillaire, tels que les gènes appartenant à la voie Hedgehog ( SHH , SMO , WNT9A )
et aux familles BMP et GLI.
.
Avec 1727 espèces décrites 1 ,
les poissons cichlidés sont parmi les familles de poissons téléostéens
les plus riches en espèces. Leur point chaud de biodiversité se situe en
Afrique de l'Est, et en particulier dans les trois Grands Lacs,
Victoria, Malawi et Tanganyika 2 . Malgré un degré élevé de similitude
indiquant une évolution récurrente d'espèces éco-morphologiquement
équivalentes 3 , les trois radiations de cichlidés présentent des
différences importantes en ce qui concerne le nombre d'espèces, l'âge
évolutif des lignées, la diversité des modèles de soins parentaux et le
degré de divergence morphologique 2 , 3 , 4 . Cela est probablement dû à
différents ensembles d'espèces colonisatrices et surtout à leur âge
évolutif différent.
Avec un
âge de 9 à 12 millions d'années (ma) 5 , 6 , le lac Tanganyika est de
loin le plus ancien de ces lacs. En raison de son âge ancien,
l'assemblage d'espèces du lac Tanganyika est à un stade de maturité, de
sorte qu'il comprend la plus grande diversité génétique et phénotypique
parmi les radiations de cichlidés d'Afrique de l'Est, mais la
diversification ultérieure se déroule principalement sans grande
innovation éco-morphologique 2 . Lors de la colonisation du lac
émergent, les cichlidés ont profité de la fenêtre d'opportunité
écologique et se sont rapidement diversifiés 4 . En fait, deux lignées
colonisatrices ont subi une hybridation au tout début de la radiation,
un événement qui pourrait avoir déclenché ou accéléré le début 6 . La
radiation du lac Tanganyika occupe une position clé pour l'ensemble de
la faune de cichlidés africains modernes, dans la mesure où trois des
lignées lacustres nouvellement émergentes ont réussi à coloniser les
rivières environnantes, de sorte que la radiation a balayé à plusieurs
reprises les limites du lac en maturation 7 , 8 , 9 , 10 . Français
Trois des lignées émergentes, les Lamprologini non incubateurs
buccaux, les Orthochromini incubateurs buccaux et certains
Haplochromini primitifs tels que les ancêtres des genres
Pseudocrenilabrus et Serranochromis , ont quitté le lac à
divers stades de maturation pour coloniser des plans d'eau environnants
particuliers 7 , 8 , 9 , 11 , 12 , 13 . Un groupe d'haplochromines
primitifs a continué d'évoluer dans l'interface lac-marais-rivière vers
des incubateurs buccaux maternels plus élaborés, délimités par un
dimorphisme sexuel accru et des taches d'œufs sur la nageoire anale 6 ,
9 , les haplochromines dites modernes. Ces haplochromines modernes ont
non seulement colonisé la plupart des systèmes fluviaux dans toute
l'Afrique australe et orientale, mais sont également réintégrés dans
l'écosystème du lac Tanganyika, déjà beaucoup plus profond et mature,
pour évoluer vers la tribu endémique du lac Tanganyika Tropheini 9 , 14
. Ainsi, les Tropheini ont réussi à s'introduire dans une
radiation lacustre en cours et déjà complexe, tandis que ses sœurs non
lacustres se sont répandues dans plusieurs systèmes fluviaux pour
ensemencer des radiations dans les lacs émergents le long de leurs voies
de dispersion fluviale 6 , 8 , 9 , 15 , 16 .
La tribu Tropheini,
endémique du lac Tanganyika, représente le groupe frère de tous les
haplochromines modernes en dehors du lac et en a divergé il y a environ
3 à 9 millions d'années 6 . Le fait que cinq des 29 espèces de
Tropheini soient présentes à la fois dans le lac lui-même et en
amont dans les rivières affluentes et/ou dans certaines parties de la
rivière Lukuga, le seul exutoire du lac, pourrait être dû à leur origine
marécageuse 17 . C'est pourquoi nous avons décidé de séquencer et de
comparer les génomes de deux espèces écologiquement divergentes de la
tribu Tropheini, endémique du lac Tanganyika. En termes de génétique,
les haplochromines modernes, y compris les Tropheini, sont
emblématiques car leurs génomes généralistes adaptés aux rivières ont
subi à plusieurs reprises des modifications adaptatives récurrentes lors
d'opportunités écologiques, fournies par les lacs nouvellement émergents
4 . Français Il a été suggéré que les espèces écologiquement et
phénotypiquement flexibles adaptées aux habitats fluviaux
saisonnièrement instables peuvent supplanter les autres colonisateurs
dans l'ensemencement des radiations lacustres, car elles peuvent
rapidement s'adapter à un espace de niche vide via la plasticité
phénotypique 18 . Selon l'hypothèse de la tige flexible, une population
phénotypiquement plastique est subdivisée en phénotypes adaptatifs
alternatifs et ensuite les facteurs génétiques adaptatifs sont triés
pendant la spéciation pour progresser via l'accommodation génétique et
l'assimilation génétique. Au cours de la divergence adaptative pendant
les radiations adaptatives répétées, l'évolution génomique a
probablement été façonnée par l'opportunité écologique, en combinaison
avec des événements de fragmentation géographique, des épisodes de
goulots d'étranglement et des expansions de population, ainsi que des
mélanges ou des fusions répétés dans les événements d'hybridation causés
par les fluctuations du niveau des lacs induites par le climat 4 , 19 .
Outre la divergence et le flux génétique accidentel 6 , 20 , la
duplication et la sélection géniques 6 , 21 ont apparemment remodelé les
génotypes. Français Au niveau phénotypique, le succès évolutif des
cichlidés d'Afrique de l'Est a été attribué à des innovations clés
particulières, notamment (1) le découplage fonctionnel des mâchoires
orales et pharyngiennes facilitant l'exploitation de diverses niches
trophiques 22 , (2) l'adaptation du système visuel à différentes
turbidités de l'eau 23 , et (3) les soins parentaux et la coloration
d'accouplement des mâles dictés par la sélection sexuelle facilitant
l'isolement reproductif 24 . À ce stade, la série de mécanismes
génétiques modifiant le substrat génomique sous-jacent à l'énorme éco-morphospace
phénotypique couvert par les cichlidés reste largement inconnue (voir 25
pour une revue récente).
Les premières étapes importantes
vers la compréhension des mécanismes moléculaires à l'origine de ces
morphologies divergentes ont été franchies en élucidant les génomes et
les transcriptomes de cinq espèces de cichlidés : Oreochromis
niloticus représentant une lignée externe, Neolamprologus pulcher
représentant une lignée de reproducteurs sur substrat du Tanganyika, et
trois haplochromines modernes, à savoir Astatotilapia burtoni
représentant une lignée fluviatile, Maylandia zebra représentant le lac
Malawi et Pundamilia nyererei représentant le lac Victoria. Cette
étude a mis en évidence un excès de duplications de gènes dans la lignée
est-africaine par rapport à Oreochromis et d'autres téléostéens,
une abondance de divergence d'éléments non codants, une évolution
accélérée des séquences codantes, une divergence d'expression ainsi que
des insertions d'éléments transposables et une régulation par de
nouveaux microARN 21 . L'étude a également révélé une sélection
diversifiante à l'échelle du génome sur les variantes codantes et
régulatrices, dont certaines provenaient d'anciens polymorphismes.
Des ébauches de génomes de haute
qualité (HQ) basées sur les données de Pacific Biosciences (PacBio) sont
devenues disponibles en particulier au cours des deux dernières années.
Des ébauches HQ de Simochromis diagramma (Afrique de l'Est, lac
Tanganyika) et d'Astatotilapia calliptera (Afrique de l'Est, lac
Malawi) ont été générées par l'Institut Sanger (2018) et une ébauche HQ
d' Archocentrus centrarchus (Amérique centrale) a été générée par le
groupe G10K-VGP (2019) ; des assemblages des cichlidés sud-américains
Amphilophus citrinellus (2014, Université de Constance) et
Andinoacara coeruleopunctatus (2015, Institut Sanger) 26 sont
également disponibles. Les génomes d'O. niloticus (ON) et de M.
zebra (MZ) ont récemment (2019) été nouvellement assemblés et ancrés
avec une approche PacBio + carte génétique à haute couverture 27 ;
Français les génomes de A. calliptera, A. centrarchus et
S. diagramma (non ancré) ont été reconstruits de manière
similaire. Oreochromis niloticus, M. zebra , A.
calliptera et A. centrarchus sont les seules reconstructions
au niveau chromosomique (groupes de liaison). Sept brouillons HQ ont
reçu des annotations du NCBI Annotation Pipeline 28 ( S. diagramma
pas encore) ; O. niloticus, A. calliptera et A.
citrinellus ont également reçu des annotations d'Ensemble 29. Ces
génomes couvrent des espèces des Grands Lacs et des rivières d'Afrique
et des lacs de cratère d'Amérique centrale et d'Amérique du Sud (Fig. 1
).
.
Figure 1
Phylogénie calibrée
temporellement des espèces de cichlidés, dont les génomes complets sont
accessibles au public. Cette phylogénie repose sur 519 locus génomiques
ancrés, séquencés ou extraits de la séquence génomique 6. Les espèces
étudiées sont indiquées en gras, celles dont les génomes sont annotés de
haute qualité sont en noir et celles dont les assemblages sont de haute
qualité (mais dont les génomes ne sont pas encore annotés) sont
indiquées en gris (figure créée avec Inkscape https://inkscape.org ).
.
Nous présentons des
reconstructions des deux génomes de Tropheus moorii (TM) et
Petrochromis trewavasae (PT), ainsi que des ensembles d'annotations
structurales et fonctionnelles. Les deux espèces appartiennent à deux
sous-lignées au sein des Tropheini qui ont divergé il y a environ
2 à 6,5 millions d'années et représentent la division la plus profonde
au sein de la tribu Tropheini. Outre la génération de données
génomiques et transcriptomiques pour deux espèces clés représentant les
haplochromines modernes du lac Tanganyika, l'intérêt principal de cette
étude portait sur l'origine génétique des morphologies faciales et
maxillaire divergentes de ces espèces morphologiquement diverses. À
cette fin, nous fournissons les premiers éléments d'information sur les
variants génétiques potentiellement impliqués dans la différenciation
morphologique des deux espèces étudiées.
.
Assemblées
.
Sur la base des tailles de
génome estimées d'environ 900 Mbp (tableau supplémentaire S11 ), nos
efforts de séquençage ont produit des données de séquence avec une
couverture de base moyenne d'environ 1,5×, environ 88×, environ 34× et
environ 10,5× (PT) et environ 1,2×, environ 38×, environ 29× et environ
9,1× (TM) pour Roche 454, Illumina PE, Illumina MP et PacBio,
respectivement (voir tableau supplémentaire S23 ). Les données de
séquence filtrées ont été utilisées pour générer des assemblages
primaires dérivés de différents algorithmes de reconstruction
(assembleurs) et combinaisons de données (voir Méthodes). Les
reconstructions finales du génome des deux espèces sont basées sur des
méta-assemblages de ces ensembles d'assemblages primaires. Les
méta-assemblages avec les meilleurs scores basés sur les mauvais
assemblages, la contiguïté et les prédictions de gènes ont été utilisés
dans les analyses ultérieures.
.
Petrochromis trewavasae
.
Les assemblages primaires
présentent des tailles d'assemblage allant d'environ 779 Mbp à environ
966 Mbp (907 Mbp pour PacBio uniquement ; voir le tableau supplémentaire
S11 ). L'assemblage final est constitué de 7 261 échafaudages avec un
N50 de 1,84 Mbp, 1,44 % des nucléotides sont indéterminés (N) et 90 % du
génome assemblé est contenu dans 885 fragments de plus de 70 kbp. La
taille totale de l'assemblage est de 917,57 Mbp (tableau 1 ).
.
Tableau 1 : Statistiques de contiguïté et de taille d'assemblage : Les
génomes assemblés se composent de 917,57 et 911,13 Mbp pour P.
trewavasae et T.
moorii ,
respectivement. Le nombre et le nombre de bases pour les échafaudages et
les contigs sont indiqués. Les échafaudages ont été décomposés en
contigs à des segments de Ns de longueur ≥ 10. Les statistiques sur O.
niloticus ont été obtenues auprès du NCBI et étendues si nécessaire (en
bleu) ; du point de vue technologique, la version 2 est comparable, la
version 4 est basée sur des données de cartographie optique et PacBio à
haute couverture.
.
.
Tropheus moorii
Les assemblages primaires
présentent des tailles d'assemblage d'environ 754 Mbp à environ 952 Mbp
(879 Mbp PacBio seulement ; voir le tableau supplémentaire S11 ).
L'assemblage final est constitué de 7662 échafaudages avec un N50 de
1,64 Mbp, 1,29 % des nucléotides sont indéterminés (N) et 90 % du génome
assemblé est contenu dans 657 fragments de plus de 192 kbp. La taille
totale de l'assemblage est de 911,13 Mbp (tableau 1 ). Les deux tailles
d'assemblage sont dans la plage attendue ; les prédictions basées sur
les spectres k-mer suggèrent des tailles de génome proches de 900 Mbp
(voir le tableau supplémentaire S11 ) et des tailles de 900 à 1000 Mbp
ont également été rapportées pour d'autres génomes de cichlidés 21 , 30
.Dans ce qui suit, nous comparons nos résultats aux génomes et
annotations publiés de plusieurs cichlidés, en mettant l'accent sur
O. niloticus et M. zebra en raison de leur état bien
développé. Les dernières versions (v4) d' O. niloticus (44 ×
PacBio, nouvellement ancré) et de M. zebra (maintenant 65 ×
PacBio et ancré) ont été publiées par Conte et al . 27 ; la tendance par
rapport aux versions antérieures est claire, la qualité des séquences et
des annotations est améliorée et le nombre de structures annotées a
encore augmenté. En ce qui concerne les distributions de longueur des
gènes (tableau supplémentaire S1 ), les mesures de contiguïté obtenues
pour PT et TM sont satisfaisantes et se situent dans la plage typique,
compte tenu des technologies de séquençage appliquées et de la
couverture (tableau 1 ; pour une comparaison avec les versions d'O.
niloticus , voir le tableau supplémentaire S2 , et pour une
comparaison générale avec les génomes de poissons publiés, voir le
tableau supplémentaire S23 de Vij et al. 31 ).
.
Annotations
.
L'annotation structurelle a
donné respectivement environ 40 300 gènes (PT) et 39 600 gènes (TM) et
environ 54 200 gènes (PT) et 56 800 transcrits (TM) (Tableau 2 ) ; cela
concorde avec les résultats des différentes versions d'annotation d'ON
(environ 30 200 à 42 600 gènes). En ce qui concerne les caractéristiques
annotées, PT et TM présentent des nombres similaires qui se situent
souvent entre ceux des versions 2 et 3 des annotations ON respectives. À
des fins de comparaison, les statistiques pour ON v2–v4 (la plus
récente) sont ajoutées, car ON a reçu le plus d'efforts et de données de
la communauté pour l'assemblage et l'annotation du génome de tous les
cichlidés (Tableau supplémentaire S2 ). La prédiction des longs ARN non
codants a donné respectivement 2 782 et 2 112 lncRNA pour PT et TM.
Français Avec 57,7 % et 63,2 %, une légère préférence pour le brin sens
a pu être observée (tableau supplémentaire S3 ). Une annotation
fonctionnelle basée sur l'homologie a pu être faite pour 41 970 (PT) et
43 918 (TM) des séquences codantes (CDS) ; des signaux sécrétoires
putatifs ont été prédits pour 5 899 (PT) et 6 016 (TM) d'entre elles,
respectivement (tableau 3 ). La cartographie du domaine Pfam a donné
respectivement 78 900 (PT) et 84 158 (TM). RepeatMasker 27 a identifié
respectivement 31,1 % (PT) et 30,0 % (TM) des génomes comme répétitifs ;
les plus grandes proportions de types de répétitions classifiées étaient
détenues par des transposons d'ADN, des LINE et des transposons LTR avec
~ 13 %, ~ 7 % et ~ 2 % (tableau 4 ).
.
Tableau 2 : Statistiques
d'annotation structurelle de PT et TM en comparaison avec ON :
l'annotation structurelle a produit respectivement environ 40 300 et 39
600 gènes. Ces résultats concordent avec ceux des différentes versions
d'annotation d'ON (environ 30 200 à 42 600).
.
.
Tableau 3 : Statistiques
d’annotation fonctionnelle : Le nombre de protéines trouvées dans
UniProt et NR est indiqué. De plus, le tableau indique le nombre de
protéines présentant une activité protéase (Merops) et glucidique (CAZymes),
le nombre d’orthologues dans fiNOG, le nombre de protéines correspondant
aux modèles de vertébrés BUSCO et le nombre de protéines présentant des
signaux sécrétoires présumés (SignalP). Enfin, le nombre d’occurrences
des séquences protéiques pour les différentes bases de données de
domaines InterPro est présenté.
.
.
Tableau 4 : Statistiques
d’annotation répétées telles que déterminées par RepeatMasker 32 .
.
.
Disponibilité et
visualisation des données
Les assemblages du génome et du
transcriptome (FASTA), les annotations structurelles et fonctionnelles
(GFF3), les mappages de lecture (BAM) et les fichiers de suivi
supplémentaires Integrative Genomics Viewer (IGV) 33 (ARN non codants
courts et longs, répétitions, ORF, îlots CpG, microsatellites, domaines
IPR et eggNOG, appels de variantes, mappages de lecture, épissage
alternatif et appels d'erreur REAPR ; Fig. 2 ) sont disponibles sur
https://cichlidgenomes.tugraz.at .
.
Figure 2
Exemple de pistes IGV et
d'annotations étendues. ( a ) Les séquences, ainsi que les informations
structurelles et fonctionnelles (survol de la souris), sont fournies via
les pistes IGV. Nous avons ajouté un ensemble complet de pistes de
données et d'annotations (non toutes affichées) pour faciliter les
analyses en aval. ( b ) Ensemble de données basé sur les séquences
protéiques avec annotations des domaines fonctionnels identifiés (les
figures représentent des captures d'écran de https://cichlidgenomes.tugraz.at
).
.
Évaluation de la qualité
.
La qualité de l'assemblage a été
évaluée avec BUSCO 34 et CEGMA 35. BUSCO a identifié 98,3 % et 98 % des
4 584 protéines de la base de données Actinopterygii sous forme complète
pour PT et TM, respectivement ; 1,7 % et 2 % des orthologues universels
à copie unique de référence (BUSCO) étaient fragmentés ou manquants. Ces
résultats se comparent bien à ceux des génomes publiés et sont
généralement du même ordre que ceux des versions ultérieures des
brouillons du génome d' O. niloticus (tableau 5 ). CEGMA a identifié
l'ensemble des 248 gènes eucaryotes centraux (CEG) pour PT et TM
(tableau 6 ) ; les résultats CEGMA pour les assemblages de
transcriptomes PT et TM peuvent être trouvés dans le tableau
supplémentaire S6 . Cependant, REAPR rapporte 17 166/11 992 erreurs
d'assemblage probables (PT/TM) (tableau supplémentaire S10 ) ; il existe
des pistes IGV mettant en évidence des régions douteuses pour guider la
prudence lors de l'analyse à proximité (voir Fig. 2 ). L'intégralité des
domaines protéiques conservés a été évaluée avec DOGMA 36. DOGMA a
trouvé 91,8 % et 90,5 % des 1051 domaines conservés attendus à une
taille d'arrangement de domaine conservé de 1 pour PT et TM,
respectivement (Tableau 7 ).
.
Tableau 5 : Résultats BUSCO :
Les gènes identifiés sont classés comme « complets » lorsque leurs
longueurs sont dans les deux écarts types de la longueur moyenne du
groupe BUSCO (c'est-à-dire dans une espérance mathématique d'environ 95
%). Les gènes « complets » trouvés avec plus d'une copie sont classés
comme « dupliqués » ; on s'attend à ce que les BUSCO évoluent sous le
contrôle d'une seule copie, par conséquent la récupération de nombreux
doublons peut indiquer un assemblage erroné d'haplotypes. Les gènes
partiellement récupérés sont classés comme « fragmentés » et les gènes
non récupérés sont classés comme « manquants » 34 . Les dernières
versions des assemblages ont été utilisées dans tous les cas
(c'est-à-dire V4 d' O. niloticus et de M. zebra ). Voir les résultats
BUSCO pour les assemblages de transcriptome PT et TM dans le tableau
supplémentaire S5 . Les valeurs sont codées par couleur selon le rang :
vert foncé, meilleur ; rouge foncé, pire. BUSCO signifie benchmarking
universal single-copy ortholog.
.
.
Tableau 6 : Résultats CEGMA :
Les versions les plus récentes sont présentées dans tous les cas ; pour
ON et MZ, en plus de la version 4 (basée sur PacBio), la version 2
(basée sur Illumina PE + MP) est listée à titre de comparaison (PT et TM
ayant été principalement construits à l'aide des mêmes technologies).
Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur
; rouge foncé, pire. CEG signifie "gène eucaryote central".
.
.
Tableau 7 : Résultats de
DOGMA : DOGMA 36 évalue un échantillon de transcriptome/protéome en
fonction de l'exhaustivité des domaines protéiques conservés, exprimés
en pourcentage d'un ensemble de base défini (les domaines conservés sont
des éléments constitutifs structurels et fonctionnels des protéines).
L'analyse confirme l'idée (voir les longueurs moyenne et médiane des
protéines dans le tableau 2 ) selon laquelle les modèles génétiques des
gènes codant pour les protéines doivent être améliorés. Les valeurs sont
codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé,
pire. CDA signifie « arrangement des domaines conservés ».
.
.
Analyse comparative
.
Nous avons comparé les génomes de PT et de TM en cartographiant les
lectures brutes d'une espèce avec le génome de l'autre espèce. Cela a
donné 4 105 604 et 4 178 777 petits variants (SMV ; SNP et InDels) pour
PT et TM, respectivement. De plus, 356 428 et 577 124 SMV ont été
identifiés pour PT et TM, lors du mappage des lectures de la même espèce
avec leurs génomes respectifs. En moyenne, 1 variant toutes les ~ 220 pb
(interespèces) et 1 variant toutes les 2 540 pb (PT vs PT)/1 561 pb (TM
vs TM) (intraespèces) ont été identifiés (Tableau 8 ).
Pour les deux espèces, 93 842 et 89 489 grandes variantes structurelles
(VS ; insertions, délétions, duplications, inversions et translocations)
entre les espèces ont été détectées, la majorité étant des délétions
avec respectivement 60 % et 65,6 % (tableau 8 ).
.
Tableau 8 : Aperçu des résultats de l’analyse des variantes inter- et
intra-espèces : Les chiffres représentent l’hétérogénéité entre espèces
(pour PT vs TM et TM vs PT) et l’hétérogénéité au sein des espèces (pour
PT vs PT et TM vs TM). Ces chiffres peuvent inclure l’effet net de
problèmes techniques (par exemple, avec les algorithmes d’assemblage,
d’annotation, de cartographie et d’appel).
.
Statistiques de base
PT contre TM
MT contre PT
PT contre PT
MT contre MT
Génome
Projet de TM v1.0
Projet PT v1.0
Projet PT v1.0
Projet de TM v1.0
Données
Lectures filtrées PT
Lectures filtrées TM
Lectures filtrées PT
Lectures filtrées TM
Nombre de variantes traitées
4 105 604
4 178 777
356 428
577 124
Nombre d'entrées vcf multi-alléliques
17 885
26 099
2 607
3 940
Nombre de variantes avec effets 1
9 046 617
8 610 805
742 872
1 305 064
Longueur totale du génome
911 126 605
917 573 940
917 573 940
911 126 605
Longueur effective du génome
906 396 323
913 305 292
905 543 956
901 211 269
Taux variable
1 variante sur 220 bases
1 variante dans 218 bases
1 variante dans 2540 bases
1 variante dans 1561 bases
Variantes locales à petite échelle (VLE)
SNP
3 081 328
3 159 251
241 245
416 002
Ins
511 111
487 934
54 489
75 775
Del
513 165
531 592
60 694
85 347
Total
4 105 604
4 178 777
356 428
577 124
Variantes structurelles à grande échelle (SV)
Reproduction
3559
2247
2870
3628
Effacement
56 396
58 692
11 989
21 047
Inversion
1853
1218
1343
1692
Translocation
18 829
12 351
11 566
15 022
Insertions
13 205
14 981
1316
2147
Total
93 842
89 489
29 084
43 536
1 tel que déterminé par SNPeff
37 .
.
La distribution des SMV et des
SV observée par l'analyse comparative suit largement la couverture
génomique de régions structurales/fonctionnelles particulières. On
observe des différences légères, mais notables : (1) les SMV sont
(légèrement) sous-représentés dans les régions promotrices, 5′ UTR,
codantes, du site d'épissage, 3′ UTR et intergéniques ; ils sont
surreprésentés dans les introns ; (2) les SV sont (légèrement)
sous-représentés dans les régions promotrices, 5′ UTR, codantes, 3′ UTR
et intergéniques ; ils sont surreprésentés dans les introns et les sites
d'épissage (par chevauchement) (Fig. 3 A).
.
Figure 3
Le SNPeff 37
classe les effets des variants sur le gène en quatre groupes selon leur
localisation et leur nature : " ÉLEVÉ ", " MODÉRÉ ", " FAIBLE " ou "
MODIFICATEUR ". Ce dernier désigne les variants non codants ou affectant
des gènes non codants, pour lesquels les prédictions sont difficiles ou
sans preuve d'impact. Dans notre analyse, plus de 97 % des variants
identifiés sont classés comme « MODIFICATEUR » (tableau 9 ).
.
Tableau 9 : Aperçu des effets
putatifs des variants intra- et inter-espèces : Les annotations des
effets des variants, telles que déterminées par SNPeff 37 , sont
présentées. Les nombres représentent l’hétérogénéité inter-espèces (pour
PT vs TM et TM vs PT) et l’hétérogénéité intra-espèces (pour PT vs PT et
TM vs TM). Ces nombres peuvent inclure l’effet net de problèmes
techniques (par exemple, avec les algorithmes d’assemblage,
d’annotation, de cartographie et d’appel).
.
PT contre TM
MT contre PT
PT contre PT
MT contre MT
Catégorie d'impact attendue
[Compter]
[%]
[Compter]
[%]
[Compter]
[%]
[Compter]
[%]
Haut
13 761
0,15
12 131
0,14
2348
0,32
3679
0,28
Modéré
84 185
0,93
82 142
0,95
7579
1.02
11 802
0,90
Faible
149 561
1,65
142 956
1,66
11 728
1,58
19 951
1,53
Modificateur
8 799 110
97,26
8 373 576
97,25
721 217
97,09
1 269 632
97,29
Effet sur les séquences codantes
Absurdité
788
0,44
791
0,45
77
0,52
132
0,54
Faux-sens
78 503
43,48
76 737
43,35
6708
45,34
10 871
44,59
Silencieux
101 260
56,08
99 477
56,20
8010
54.14
13 378
54,87
.
Les gènes d'intérêt, qui sont
possiblement affectés par des mutations, sont mis en évidence dans le
Tableau 10 (voir Informations supplémentaires pour plus de détails sur
la sélection des gènes et l'analyse d'enrichissement GO,
respectivement). Ici, nous avons commencé à analyser les gènes qui sont
liés au développement du viscérocrâne (sélection de gènes non ciblée) et
du système pharyngé (sélection de gènes ciblée, c'est-à-dire biaisée
d'après la littérature — voir Tableau S17 ) ; cependant, il existe
d'autres termes GO d'intérêt qui sont systématiquement enrichis par
différentes approches d'analyse telles que la signalisation BMP, par
exemple. Un résultat d'analyse GO condensé pour une approche non ciblée
(A2, voir Tableau S14 b) est présenté dans le Tableau 11 ; ici, les
catégories de gènes sont basées sur des groupes de comparaison de
variants (au sein et entre les groupes d'espèces) combinés à un
classement quantile et un seuillage ( p = 0,5, c'est-à-dire médiane),
et le nombre de variants (« charges de mutation ») a été utilisé comme
critère. Le terme « morphogenèse du viscérocrâne embryonnaire » est
enrichi dans les ensembles de gènes intra et inter-espèces pour toutes
les approches (voir le tableau supplémentaire S16 ; les gènes
appartenant à ce terme ont été combinés avec les gènes de l'approche
ciblée et utilisés pour des analyses ultérieures en aval (voir les
tableaux supplémentaires S14 a, S14 b, S15 , S16 , S18 et S21 ). Dans
l'analyse comparative, les espèces biologiques sont codées A (PT) et B
(TM) (tableau 11 ). Les catégories (AA, AB, BA et BB) font référence aux
comparaisons intra et inter-groupes. Autrement dit, il existe des
mutations aux mêmes emplacements génomiques (nucléotides) qui sont soit
identiques au sein d'une même espèce et entre les espèces (appelées, par
exemple, identiques (AA) et redondamment identiques (AB)), soit non
identiques (appelées, par exemple, non identiques (BB) et non identiques
(BA) ); de plus, il existe des mutations qui sont uniques à un groupe.
(appelés, par exemple, uniques (AA) et uniques (AB), c'est-à-dire qu'à
l'emplacement génomique, il n'existe qu'une seule variante chez l'espèce
A (unique (AA)) ou qu'il n'existe qu'une seule variante entre les
espèces A et B (unique (AB)), respectivement). Dans l'exemple présenté,
pour SMV, les appels à la morphogenèse du viscérocrâne sont symétriques,
à l'exception de la catégorie AB (qui se situe en dessous du seuil),
c'est-à-dire que le terme GO est systématiquement enrichi au sein d'une
même espèce et entre les espèces. Des analyses plus poussées des gènes
appartenant à ce terme confirment clairement la présence de mutations
communes et spécifiques à l'espèce dans ces gènes (voir l'exemple dans
la section supplémentaire " Identification des gènes potentiellement
liés à la morphologie faciale et maxillaire ").). Il existe donc une
variation substantielle de ces gènes, susceptible d'induire des
modifications de la morphologie. Cependant, nous ne pouvons pas encore
délimiter les effets possibles des variants partagés et non partagés.
.
Tableau 10 : Sélection
de gènes affectés par des variants. Afin
de restreindre la liste des gènes porteurs de variants, une approche
ciblée et une
analyse d'enrichissement GO ont
été réalisées ; ce tableau répertorie les
gènes liés à la morphologie faciale et maxillaire .
Les résultats présentés sont filtrés et simplifiés : (1) les types et
localisations des variants ont été unifiés pour les isoformes de
transcription et les doublons de gènes (annotés), et (2) ils ont été
intersectés entre les comparaisons d'espèces. SMV : petit(s)
variant(s) ; SV : variant(s) structurel(aux).
.
Gène
Description
Type de variante
Emplacement de la variante
Prédit : protéine de liaison au facteur de croissance
analogue à l'insuline 3 (igfbp-3)
L'IGFBP-3 joue
un rôle dans la régulation du cartilage pharyngé et du
développement et de la croissance de l'oreille interne chez
le poisson zèbre 135
SMV
3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Facteur de croissance des fibroblastes de type 8 (fgf-8)
Le FGF-8 est
actif in vitro dans les cellules osseuses de souris et de
rat, stimulant la prolifération des ostéoblastes par
une voie indépendante de
MAPK et
inhibant l'ostéoclastogenèse par un mécanisme indépendant
de RANKL/OPG 136 .
Il joue un rôle important dans la régulation du
développement embryonnaire, de la prolifération, de la
différenciation et de la migration cellulaires. Nécessaire
au développement normal du cerveau, des yeux, des oreilles
et des membres pendant l'embryogenèse [UniProt].
SMV
3′ UTR, intron, exon, en aval, en amont, épissure
SV
–
Prédit : Barx Homeobox 1 (barx1)
BARX1 réprime
les articulations et favorise la formation de cartilage dans
le squelette craniofacial chez le poisson zèbre 137
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
-
Prédit : T-box 10 (tbx10) **
On pense que les mutations du gène Tbx10 chez
la souris et l'homme sont une cause de fente labiale isolée
avec ou sans fente palatine 138 , 139. Les
gènes T-box contribuent de manière majeure au développement
craniofacial ( Tbx1 , Tbx10 , Tbx15 , Tbx22 )
et au développement du cerveau ( Tbr1 , Eomes ),
de la glande mammaire ( Tbx2 , Tbx3 ),
de l'hypophyse ( Tbx3 , Tbx19 ),
du thymus ( Tbx1 ),
du foie ( Tbx3 ),
des poumons ( Tbx2 , Tbx4 , Tbx5 ),
de la pigmentation ( Tbx15 )
et du système immunitaire ( Tbx21 ),
entre autres 140
SMV
3′ UTR, intron, exon, en aval, en amont, épissure
SV
en aval
Prédit : Protéine sécrétée acide riche en cystéine
(ostéonectine) (sparc)
SPARC est
une protéine acide associée à la matrice, riche en cystéine,
nécessaire à la calcification du collagène osseux. Elle
intervient également dans la synthèse de la matrice
extracellulaire et favorise les modifications de la forme
cellulaire. SPARC est
nécessaire à la croissance normale des otolithes de poisson
zèbre 141 , 142.
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
en aval
Prédit : domaine de tétramérisation du canal potassique
contenant 15 (kctd15) *
KCTD15 régule
la formation des crêtes neurales en agissant sur la
signalisation Wnt et
l'activité du facteur de transcription AP-2 dans
les embryons de poisson zèbre et les cellules humaines 143 .
Chez l'homme, l'expression de KCTD15 a
montré un effet hautement focal, limité à l'extrémité
nasale 52 ;
il a été démontré que KCTD15 régule TFAP2A
, qui joue un rôle essentiel dans la formation des crêtes
neurales et, lorsqu'il est muté, entraîne une réduction de
la longueur du museau chez la souris, entre autres
anomalies. KCTD15 pourrait affecter
la forme de l'extrémité nasale chez l'homme en influençant
la prolifération des chondrocytes dans la cloison nasale.
SMV
5′ UTR, 3′ UTR, intron, en aval, en amont
SV
–
Prédit : T-box 1 (tbx1) **
Tbx1 a
été associé à un développement anormal de l'arc pharyngé et
du visage chez la souris 144 , 145. Les
gènes T-box contribuent de manière majeure au développement
craniofacial ( Tbx1 , Tbx10 , Tbx15 , Tbx22 )
et au développement du cerveau ( Tbr1 , Eomes ),
de la glande mammaire ( Tbx2 , Tbx3 ),
de l'hypophyse ( Tbx3 , Tbx19 ),
du thymus ( Tbx1 ),
du foie ( Tbx3 ),
des poumons ( Tbx2 , Tbx4 , Tbx5 ),
de la pigmentation ( Tbx15 )
et du système immunitaire ( Tbx21 ),
entre autres 140
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
en aval, en amont
Prédit : Facteur 1 associé au SAF (FAF1)
Le gène FAF1 est
perturbé dans la fente palatine et conserve sa fonction chez
le poisson zèbre. L'inactivation du gène FAF1 du poisson
zèbre entraîne des anomalies du cartilage pharyngé et des
anomalies de la mâchoire .
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
intron
Prédit : domaine PR contenant 1 avec domaine ZNF (prdm1)
Chez le poisson zèbre, une expression erronée de prdm1 inhibe
la formation des structures dorso-antérieures et réduit
l'expression de la chordine, qui code un antagoniste des
BMP .
Plus tard au cours du développement, prdm1/blimp1 est
exprimé dans de nombreux tissus, notamment les arcades
pharyngiennes 147.
SMV
3′ UTR, intron, exon, en aval, en amont, épissure
SV
en aval
Prédit : répétitions du dipeptide d'acide glutamique (RE)
(rere)
On pense que RERE/Atrophine-2 fonctionne
comme un corépresseur transcriptionnel au cours du
développement embryonnaire chez la
drosophile 148 .
Ce régulateur transcriptionnel est nécessaire à la
structuration normale de l'embryon précoce de vertébré,
notamment du système nerveux central, des arcades pharyngées
et des membres. Conformément à son rôle de corépresseur
transcriptionnel, RERE se
lie aux histones désacétylases 1 et 2 ( HDAC1/2 )
et à des récepteurs nucléaires orphelins tels que Tlx chez
le poisson zèbre 149 .
Il joue un rôle dans la symétrie bilatérale chez la souris 57 et
des variants sont également liés aux structures
craniofaciales chez l'homme 150
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
intron, en amont
Prédit : Homéobox distale sans 2 (dlx2) **
Les protéines DLX joueraient un rôle dans le développement
du cerveau antérieur et craniofacial. Il a été démontré que
cette famille de gènes est soumise à une sélection positive
chez les cichlidés d'Afrique de l'Est 151 .
On trouve des groupes DLX1-DLX2 , DLX3-DLX4 et DLX5-DLX6 chez
les vertébrés, liés respectivement aux groupes de gènes Hox HOXD , HOXB et HOXA 152
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Récepteur de l'acide rétinoïque de type gamma-A
(RARGA)
Les RAR sont impliqués dans la structuration embryonnaire et
l'organogenèse, les déficiences squelettiques craniofaciales
affectant les mutants Rara/g- nuls 153 .
Chez le poisson-zèbre, des rôles combinatoires des
récepteurs de l'acide rétinoïque dans le cerveau postérieur,
les membres et les arcades pharyngées ont été identifiés 154
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
intron
Prédit : Membre de la famille 9A du site d'intégration Mmtv
de type sans ailes (wnt9a)
Rôle démontré dans la morphogenèse du palais du poisson
zèbre 155. Ligand
des membres de la famille des sept récepteurs
transmembranaires frizzled. Fonctionne dans la voie de
signalisation canonique Wnt/bêta-caténine .
Nécessaire au timing normal de l'expression de l'IHH pendant
le développement osseux embryonnaire, à la maturation
normale des chondrocytes et à la minéralisation osseuse
normale pendant le développement osseux embryonnaire. Joue
un rôle redondant dans le maintien de l'intégrité
articulaire [UniProt].
SMV
3′ UTR, intron, en aval, en amont
SV
–
Prédit : Facteur de croissance transformant bêta 2 (tgfb2)
Il a été démontré qu'il joue un rôle dans la morphogenèse du
palais du poisson zèbre 155 .
La majorité des ostéoblastes et des chondrocytes de la
région craniofaciale proviennent des cellules de la crête
neurale crânienne (CNCC), qui produisent le squelette
facial. La signalisation du TGF -β
joue un rôle crucial dans le développement craniofacial, et
sa perte dans les CNCC entraîne des malformations
squelettiques craniofaciales 156
SMV
En aval, en amont
SV
–
Prédiction : Mères contre l'homologue 5 décapentaplégique
(SMAD5)
Il a été démontré qu'il joue un rôle dans la morphogenèse du
palais du poisson zèbre 155. Modulateur
transcriptionnel activé par le récepteur kinase de type 1
des protéines morphogénétiques osseuses (BMP). SMAD5 est
un SMAD régulé par un récepteur [UniProt].
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Paired Box 9 (pax9)
Il a été démontré qu'il joue un rôle dans la morphogenèse du
palais du poisson zèbre 155. Facteur
de transcription nécessaire au développement normal du
thymus, des glandes parathyroïdes, des corps
ultimobranchiaux, des dents, des éléments squelettiques du
crâne et du larynx, ainsi que des membres distaux [UniProt].
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Facteur de croissance des fibroblastes de type 10
(FGF10)
Il a été démontré qu'il joue un rôle dans la morphogenèse du
palais du poisson zèbre 155 .
Il joue un rôle important dans la régulation du
développement embryonnaire, la prolifération et la
différenciation cellulaires. Il est nécessaire à la
morphogenèse normale des ramifications [UniProt]. Le
FGF10 est
largement exprimé dans les tissus mésenchymateux et est
essentiel à la vie postnatale en raison de son rôle crucial
dans le développement du complexe cranio-facial. Des modèles
murins génétiques ont démontré que la dysrégulation ou
l'absence de fonction du
FGF10 affecte
la fermeture du palais, le développement des glandes
salivaires et lacrymales, l'oreille interne, les paupières,
les papilles gustatives de la langue, les dents et les os du
crâne. Des mutations du locus FGF10 ont
été décrites en lien avec des malformations cranio-faciales
chez l'homme 157
SMV
3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Récepteur de l'ectodysplasine a (edar) *
L'EDAR ,
qui a déjà été lié à la forme des oreilles et des dents
ainsi qu'à la texture des cheveux, affecte la protrusion du
menton chez l'homme 50
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
intron
Prédit : Dachsous Cadherin-Related 2 (dchs2) *
DCHS2 ,
également lié au cartilage, contrôle la pointe du nez chez
l'homme 50
SMV
Intron, exon, en aval, en amont, épissure
SV
intron
Prédit : doigt de zinc de la famille GLI 1 (gli1)
GLI1 (2
et 3) sont impliqués dans le développement craniofacial chez
la souris 158
SMV
Exon, en aval, en amont
SV
–
Prédit : Doigt de zinc de la famille GLI 3 (gli3) *
Le gène GLI3, connu
pour être impliqué dans la croissance du cartilage, est lié
à la largeur des narines d'une personne chez l'homme 50
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont, épissure
SV
intron
Prédit : facteur de transcription 2 lié à Runt (runx2) *
Le gène RUNX2 ,
qui stimule le développement osseux, est associé à la
largeur de l'arête du nez, la partie supérieure du nez chez
l'homme 50
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
–
Prédit : Boîte appariée 1 (PAX1) *
Le gène PAX1, connu
pour être impliqué dans la croissance du cartilage, est lié
à la largeur des narines chez l'homme 50
SMV
5′ UTR, 3′ UTR, intron, exon, en aval, en amont
SV
en amont
Prédit : Boîte appariée 3 (PAX3) *
PAX3 influence
la position du nasion chez l'homme 51
SMV
5′ UTR, intron, exon, en amont
SV
intron
*Également identifié chez
l’homme comme jouant un rôle dans la morphologie craniofaciale.
**Autre membre de la famille identifié chez l'homme comme jouant un rôle
dans la morphologie craniofaciale.
Tableau 11 : Résultat de
l’analyse d’enrichissement GO – termes du processus biologique
(condensé). Ce tableau présente les résultats de l’approche A2 (voir
tableau supplémentaire S14b ). L’enrichissement a été évalué par un test
exact de Fisher avec un seuil de p ≤ 0,001 et la topologie GO a été
prise en compte (package R topGO, pondération de la méthode ). Dans la
colonne « Type » , les espèces biologiques sont codées A (PT) et B (TM)
; les variants identiques et non identiques aux mêmes positions
nucléotidiques, ainsi que les variants uniques, sont indiqués. Français
Les catégories (AA, AB, BA et BB) se réfèrent à la comparaison intra et
inter : identique (AA) signifie que les variants intraspécifiques (SMV
et SV) dans ce groupe ont également été appelés dans la comparaison
interspécifique (AB) apparentée au même endroit, avec non identique (AA)
un variant différent a été appelé au même endroit (par exemple, A → T à
l'intérieur et A → G entre les espèces), avec unique (AA) uniquement au
sein de l'espèce A et avec unique (AB) uniquement entre les espèces A et
B un variant a été appelé à cette position ; le même principe s'applique
à l'espèce B et aux catégories BB et BA. Les comparaisons ont été menées
dans les deux sens, c'est-à-dire A vs B et B vs A ; les groupes ont été
testés par rapport à un univers génétique contenant tous les gènes avec
des informations GO (l'ensemble de données contient 7905 (PT) et 7688
(TM) termes GO au total). SMV : petit(s) variant(s) (SNP et InDels) ; SV
: variant(s) structurel(aux) (insertions, délétions, duplications,
inversions et translocations). Voir le tableau supplémentaire S15 pour
des listes détaillées.
.
.
Outre les variantes de la
structure de l'ADN, l'épissage alternatif (AS) a été analysé. On compte
environ 6 200 événements d'AS dans environ 2 600 gènes entre les sexes
de chaque espèce et environ 39 000 événements d'AS dans environ 9 400
gènes entre les deux espèces (voir tableau supplémentaire S13 ).
.
Assemblage et annotation
.
Le méta-assemblage d'un ensemble
d'assemblages primaires a donné des ébauches de génome de haute qualité
avec 918 et 911 Mbp pour Petrochromis trewavasae et Tropheus
moorii , respectivement. Cela correspond aux tailles comprises entre
900 et 1 000 Mbp rapportées pour d'autres génomes de cichlidés 21 , 30
et aux ~ 940 Mbp estimés par notre validation d'assemblage avec REAPR 38
. Le dernier assemblage d'Oreochromis niloticus s'étend sur ~ 1
Gbp ; cette variation de taille du génome peut être due à des
différences biologiques mais pourrait également indiquer que certaines
portions de l'ADN répétitif dans la reconstruction du génome respectif
(PT/TM) ne sont pas incluses dans l'assemblage en raison d'un
effondrement de séquence (par exemple, répétitions effondrées) 39 .
Généralement, les assemblages sont
basés sur les données génomiques d'un seul individu, idéalement issu
d'une lignée consanguine. Dans ce projet, nous avons assemblé à partir
de 6 (PT) et 5 (TM) individus non consanguins, respectivement ; cela a
nécessité une approche d'assemblage plus complexe. De plus, nous avons
réalisé un séquençage de novo sans aucune donnée de liaison ni de carte
optique (comme le montrent les dernières versions du génome d' O.
niloticus et d'A. calliptera ) et la couverture PacBio était
(avec environ 9–10 ×) considérablement inférieure à celle utilisée pour
les assemblages d' O. niloticus (44 × pour v3 30 et v4 27 ) et de
M. zebra (16,5 × pour v3 40 , ajouté aux couvertures PE et MP
d'Illumina déjà élevées, et 65 × pour v4 27 ). Français Néanmoins, les
deux assemblages se comparent bien aux versions préliminaires du génome
publiées d'espèces comparables en ce qui concerne les mesures typiques
concernant le contenu génétique. Les résultats BUSCO (Tableau 5 )
montrent un faible taux d'environ 4 à 8 % (selon la base de données) de
BUSCO dupliqués dans PT et TM. Ce taux est légèrement supérieur aux
environ 2 à 4 % rapportés pour d'autres génomes de cichlidés, ce qui
peut être une conséquence d'un assemblage incorrect d'haplotypes
provenant d'individus non consanguins. En ce qui concerne le nombre
total de BUSCO identifiés, les BUSCO fragmentés et manquants, la
reconstruction du génome PT et TM fonctionne très bien.
Pour les deux espèces, les
annotations se sont avérées valides pour les premières analyses en aval
pertinentes, mais certains modèles génétiques pourraient nécessiter des
améliorations supplémentaires, par exemple par l'entraînement répété des
prédicteurs génétiques ; cependant, pour AUGUSTUS, le prédicteur
central, les évaluations du modèle montrent déjà de bons états
d'entraînement (voir le tableau supplémentaire S12 ). Les sources les
plus pertinentes de modèles génétiques insuffisants pourraient inclure
les fusions, les divisions et surtout les troncatures de gènes, qui sont
évidentes après une inspection plus approfondie ; ceci est typique des
annotations précoces, en particulier lorsque le pipeline d'annotation
est encore en cours de développement. Nous observons une longueur
moyenne et médiane relativement faible des séquences protéiques (voir le
tableau 2 ) dans les deux assemblages/annotations. Cela pourrait
refléter une erreur systématique dans le processus de génération, par
exemple des InDels conduisant à des décalages de cadre et, par
conséquent, à des traductions erronées et à des codons stop prématurés.
L'étude de ce phénomène a montré des InDels non triplets ; cependant, on
les retrouve également entre, par exemple, les modèles de transcription
d'O. niloticus et de M. zebra . Français De plus, le taux
de mutations non-sens identifiées dans PT et TM est faible (Tableau 9 ).
Les pipelines d'annotation NCBI et Ensembl sont à la pointe de la
technologie ; de plus, la quantité et la diversité des données de
séquençage d'ARN utilisées pour l'annotation, par exemple, d'O.
niloticus étaient bien plus importantes que pour l'une ou l'autre
espèce dans ce projet. Par conséquent, le plus grand nombre d'isoformes
de transcription identifiées (ainsi que le nombre moyen plus élevé
d'exons par transcription) peuvent être considérés comme des
conséquences directes. Cependant, le nombre total d'exons dans les deux
espèces est comparable aux annotations ON. Il est intéressant de noter
que le nombre de modèles génétiques dans PT et TM est également
comparable à celui d'ON v3. Comme il n'existe pas de méthode bien
établie pour évaluer l' exactitude des modèles génétiques (peut-être par
une vérification de structure générale et un score majoritaire de
similarité basé sur une base de données), il s'agit simplement d'une
comparaison du nombre d'éléments. De plus, comme mentionné précédemment,
il existe des fusions et des divisions génétiques dans les modèles
génétiques PT et TM, ce qui fausse le nombre de gènes dans une certaine
mesure. DOGMA 36 et PfamScan 41 ont également été utilisés comme mesure
de la qualité des gènes codant pour des protéines annotées ; les
résultats corroborent l'hypothèse de modèles génétiques défectueux dans
cet ensemble, qui ne contiennent pas certains domaines protéiques ou
seulement des fragments de ceux-ci (tableau 7 ).
.
Analyse comparative
.
Nous avons choisi les deux
espèces étudiées pour les raisons suivantes. Tropheus moorii est
un brouteur d'algues très performant, présent en grand nombre sur tous
les types de rivages rocheux, tandis que Petrochromis trewavasae
est un brouteur d'algues réparti sur les rivages rocheux de la rive
ouest du lac, vivant en sympatrie avec Tropheus . La famille des
Tropheini comprend trois espèces prédatrices : une omnivore, dix
brouteurs d'algues et quinze brouteurs d'algues. Les brouteurs d'algues
possèdent des dents en forme de ciseau pour mordre les algues
filamenteuses du substrat rocheux, tandis que les brouteurs d'algues
possèdent des dents en forme de peigne disposées en plusieurs rangées
pour éliminer les algues unicellulaires et les détritus des rochers.
Français En raison de l'âge ancien de la tribu Tropheini,
s'élevant à environ 2 à 6,5 millions d'années pour le début de leur
radiation 6 , le degré de divergence éco-morphologique est plus grand
que dans les équivalents éco-morphologiques beaucoup plus récents du lac
Victoria, mais comparable à l'éco-morphospace couvert par l'ensemble du
troupeau du lac Malawi. Il est intéressant de noter que le genre
Tropheus comprend environ 120 populations, principalement
allopatriques et distinctes en termes de couleur, et des espèces sœurs
morphologiquement similaires. Elles sont toutes restées dans la même
niche trophique sur tous les rivages rocheux du lac. Petrochtomis
trewavasae ne présente pas beaucoup de variation de couleur, a une
distribution restreinte sur le rivage sud-ouest du lac et fait partie
d'une lignée brouteuse complexe et morphologiquement distincte,
comprenant le complexe d'espèces P. polyodon beaucoup plus
diversifié . Si l'on considère l'ensemble de la lignée, elle a suivi une
trajectoire évolutive similaire à celle de Tropheus . Il convient
de noter ici que le nombre généralement beaucoup plus faible d'espèces
dans le lac Tanganyika par rapport aux lacs Malawi et Victoria résulte
également des différents concepts d'espèces utilisés, dans la mesure où
plusieurs entités allopatriques sont traitées comme des espèces dans les
lacs Victoria et Malawi, alors que comme des variétés géographiques dans
le rayonnement plus ancien du lac Tanganyika.
L'analyse comparative présentée ici
a produit, comme prévu, un grand nombre de régions variantes entre les
deux espèces et même une quantité considérable au sein de chaque espèce.
La grande quantité de variation au niveau intraspécifique peut en fait
être due à notre approche consistant à utiliser plusieurs individus F1
non consanguins d'une seule population échantillonnée dans
l'environnement naturel, mais reflète mieux la diversité intrapopulation
et finalement l'âge évolutif ancien de la lignée. Nous avons utilisé
GATK 42 et DELLY 43 , deux outils bien établis, pour l'appel de
variantes ; cependant, l'appel de variantes n'est pas encore un problème
bien résolu avec souvent peu de chevauchement entre les résultats des
différentes routes algorithmiques (par exemple, voir 44 , 45 ). Quant
aux statistiques rapportées sur les effets des variantes, il est connu
que l'état de l'annotation structurelle et l'annotateur d'effet de
variante utilisé influencent fortement les résultats 46 . Les résultats
d'analyse présentés ici reflètent l'état des reconstructions du génome
(v1).
Le nombre relativement important
de SV et SMV réciproquement triés parmi les deux espèces étudiées est
remarquable et pourrait refléter le temps de divergence relativement
ancien entre les deux espèces étudiées s'élevant à environ 2,5 à 6
millions d'années pour les deux clades 6 . En fait, on s'attend à ce que
les mutations structurelles affectant l'information de codage aient
besoin de plus de temps pour évoluer que les mutations régulatrices.
Ainsi, en comparant les espèces des lacs Victoria et Malawi, beaucoup
plus récents, on ne s'attendrait pas à un degré aussi marqué de
variation de codage réciproquement distincte. Le SV et le SMV peuvent
également être interprétés à la lumière de l'hypothèse de la tige
flexible 4 , 18 . La tige flexible des radiations de cichlidés est
formée d'espèces écologiquement et phénotypiquement flexibles adaptées
aux habitats fluviaux saisonnièrement instables. Une fois qu'elles
ensemencent les radiations lacustres, elles peuvent rapidement s'adapter
à un espace de niche vide dans cet environnement plus stable en raison
de leur grande portée de plasticité phénotypique 18 . Par la suite, la
population phénotypiquement plastique est subdivisée en phénotypes
adaptatifs alternatifs, puis les facteurs génétiques adaptatifs sont
triés lors de la spéciation pour progresser par accommodation génétique
et assimilation génétique 47 . La plasticité phénotypique ou
développementale fait référence à la capacité d'un seul génotype à
produire de multiples phénotypes dans différentes conditions
environnementales. L'hypothèse de la tige flexible postule que la
plasticité d'une population peut influencer la direction de l'évolution
en exposant une variation génétique cryptique à la sélection dans un
nouvel environnement. Selon ce modèle, des sous-ensembles d'une
population ancestrale exploitent des niches écologiques distinctes dans
un nouvel habitat, comme différents types d'aliments. Au cours d'une
seule génération, la plasticité anatomique peut conduire à une
augmentation de la fitness, par exemple une capture ou une
transformation plus efficace des aliments, dans chaque niche. La
variation phénotypique nouvellement exposée sera ciblée par la
sélection, et si le nouvel environnement est stable, les phénotypes
plastiques peuvent être canalisés par assimilation génétique. Français
L'hypothèse est que les mécanismes moléculaires de la réponse plastique
sous-tendent également l'évolution des phénotypes clés, c'est-à-dire que
la variation génétique dans les mêmes molécules/voies de signalisation,
qui permettent la plasticité, est ciblée par sélection et fixée afin de
canaliser le phénotype. Dans une étude récente, le rôle de la
signalisation hedgehog (Hh) dans la plasticité cranio-faciale chez les
téléostéens a été mis en évidence, démontrant que les niveaux de Hh
ajustent la sensibilité aux signaux mécaniques liés aux conditions de
recherche de nourriture – où les changements morphologiques adaptatifs
dans les structures immédiatement affectées, par exemple, les os
pharyngés, peuvent propager des changements morphologiques à d'autres
structures cranio-faciales 48 .
Des variants ont été appelés dans
pratiquement toutes les régions génétiques. Environ 99 % ont au moins un
variant possible dans le corps du gène ou 5 kb en amont/en aval, selon
les paramètres appliqués (Fig. 3 B). Les gènes présentant au moins une
mutation ont été soumis à une analyse d'ontologie génétique (GO) afin
d'obtenir des indices sur d'éventuels groupes fonctionnels intéressants
affectés par davantage de variants. Autrement dit, le nombre de variants
(ou « charge mutationnelle ») a été utilisé comme indicateur de la
probabilité de changements effectifs. La justification de cette approche
était l'hypothèse de l'exactitude du modèle infinitésimal ou du modèle
omnigénique 49 , respectivement. On peut s'attendre à ce que les
changements phénotypiques observés ne soient pas dus à quelques variants
à fort impact (généralement dans la région codante), mais plutôt à
plusieurs variants à « faible impact » (dans les catégories utilisées,
probablement les " variants modificateurs " qui représentent
généralement > 90 % de la charge mutationnelle). Français Même si à ce
stade la pertinence de la variation dans les gènes sélectionnés n'est
pas claire, tous les gènes listés ont de multiples appels concernant SMV
et SV (Fig. 3 B) ce qui peut augmenter les chances d'influences
efficaces sur les phénotypes. Étant donné les fonctions qui leur sont
assignées rapportées dans d'autres organismes (Tableau 10 ), cependant,
ces gènes méritent d'être sondés. Par exemple, cinq gènes liés à la
définition de la forme du nez et du menton ( DCHS2 , RUNX2 , GLI3 , PAX1
et EDAR ) ont récemment été identifiés dans une étude GWAS humaine 50 ;
plusieurs variants dans tous ces gènes ont également été trouvés entre
les deux espèces. De plus, PAX3 , KCTD15 et les membres de la famille
TBX ( TBX1 et TBX10 , mais pas TBX15 comme rapporté précédemment) sont
dans l'ensemble des résultats ; ces gènes ont été liés à la morphologie
faciale chez l'homme dans deux autres études GWAS récentes 51 , 52
(Tableau 10 ). Les futures analyses en aval devraient se concentrer en
particulier sur les gènes présentant des différences d'expression
stables entre les espèces étudiées. Comme indiqué précédemment, nous
nous concentrons sur les différences de formes faciales et pharyngées
(voir figure supplémentaire S1 ).). Il est intéressant de noter que
cette méthode simple de comptage de variants non biaisés (« charge de
mutation ») génère de manière reproductible les termes GO liés à la
morphogenèse du viscérocrâne (voir Informations supplémentaires), sans
donner une longue liste de termes GO plutôt peu spécifique. Le résultat
GO met en évidence plusieurs voies de signalisation importantes : la
signalisation BMP (par exemple, bmp2, bmp4), la signalisation Hedgehog (Hh)
(par exemple, Shh, famille Gli, famille Sec, smo, med12, plcb3), la
signalisation de l'endothéline (par exemple, edn1, furine, famille dlx),
la signalisation de l'acide rétinoïque (RA) (par exemple, rere, rerea)
et la signalisation du facteur de croissance des fibroblastes (FGF) (par
exemple, fgf8, fgf20b) (voir Tableau 10 et Tableau supplémentaire S21 ).
Tous ces réseaux de signalisation sont connus pour jouer un rôle dans la
régulation de la morphogenèse faciale des vertébrés, et ils
interagissent. Il existe, par exemple, de fortes interactions
coopératives et fonctionnelles entre Shh et l'acide rétinoïque 53 , 54 ,
55 , 56 , 57 , 58 . Une analyse comparative plus approfondie de la
distribution des variantes génétiques observées entre les deux espèces
et leurs phénotypes respectifs n'a pas été réalisée à ce stade ; ce sera
une tâche importante pour les études de suivi.
En résumé, les deux nouveaux
génomes préliminaires ajoutent deux espèces clés monophylétiques et
écomorphologiquement divergentes, comblant ainsi une importante lacune
phylogénétique. De plus, elles représentent la première ramification des
cichlidés haplochromines modernes, la lignée la plus riche en espèces de
cichlidés d'Afrique de l'Est. Alors que les Tropheini rayonnaient
dans les limites du lac Tanganyika, leurs alliés se sont répandus sur
plusieurs rivières, ensemençant des radiations supplémentaires, comme
celles des lacs Malawi et Victoria, où celles-ci ont atteint une
diversité écomorphologique comparable.
.
Méthodes
.
Étudier les espèces
.
Les spécimens échantillonnés de T.
moorii sont
des descendants F2 d'individus sauvages capturés dans la section
zambienne de la rive sud-ouest du lac Tanganyika (08°38′ S 30°52′ E)
près du village de Nakaku, qui ont été apportés à l'Université de Graz
en 2005. Les spécimens de
P. trewavasae utilisés
dans cette étude sont des descendants F1 de poissons sauvages également
de la rive sud-ouest, mais plus au nord-est près du village de Katete
(08°20′S 30°30′E) et ont été obtenus auprès d'un importateur de poissons
d'ornement. Français La collecte de la génération parentale de poissons
a été réalisée dans le cadre d'un protocole d'accord entre le
Département des pêches du Ministère de l'agriculture et des coopératives
de Zambie, le Département des sciences biologiques de l'Université de
Zambie à Lusaka, le Département de zoologie de l'Université de Graz en
Autriche, le Département d'écologie comportementale de l'Université de
Berne en Suisse et le Département de zoologie de l'Université de Bâle en
Suisse, en vertu du permis de recherche délivré à CSt par le Ministère
zambien de l'intérieur (numéro de permis : SP006515). Les données de
séquence présentées ici sont basées sur des extractions d'ADN de 6
individus de
P. trewawasae et
5 individus de
T. moorii ;
les spécimens comprenaient les deux sexes et étaient âgés d'environ un
an.
.
Séquençage et procédures de
laboratoire
.
Nous avons séquencé l'ADN
génomique extrait des échantillons ci-dessus en utilisant plusieurs
technologies de séquençage : Illumina HiSeq paired-end 2 × 101 pb
(taille des fragments de 300 pb et 600 pb), Illumina Nextera mate-pair 2
× 100 pb (taille des fragments de 1 à 6 kbp), 454 Life Sciences
(longueur de lecture moyenne d'environ 350 pb ; taille des fragments de
8 et 20 kbps) et technologie de séquençage en temps réel de molécule
unique (SMRT) de Pacific Biosciences (PacBio) (longueur de lecture
moyenne d'environ 8 000 à 9 000 pb après correction).
Les méthodes de laboratoire
(extraction d'ADN, préparation de la banque et séquençage) ont, en
partie, été décrites précédemment dans l'article d'accompagnement sur
les génomes mitochondriaux 59 . De plus, nous avons effectué deux
séquençages en utilisant la technologie de séquençage de deuxième
génération de Pacific Biosciences basée sur un individu par espèce.
L'extraction d'ADN a été réalisée à Graz, la préparation de la banque et
le séquençage au Lausanne Genomic Technologies Facility : l'ADN a été
cisaillé dans un Covaris g-TUBE (Covaris, Woburn, MA, États-Unis) pour
obtenir des fragments de 20 kbp. Après cisaillage, la distribution de
taille de l'ADN a été vérifiée sur un analyseur de fragments (Advanced
Analytical Technologies, Ames, IA, États-Unis). 5 μg de l'ADN cisaillé
ont été utilisés pour préparer une banque SMRTbell avec le PacBio
SMRTbell Template Prep Kit 1 (Pacific Biosciences, Menlo Park, CA,
États-Unis) selon les recommandations du fabricant. La banque obtenue a
été sélectionnée par taille sur un système BluePippin (Sage Science,
Inc. ; Beverly, MA, États-Unis) pour les molécules supérieures à 11 kbp.
La banque récupérée a été séquencée sur treize/seize cellules SMRT
(TM/PT) avec la chimie P6/C4 et des MagBeads sur un système PacBio RSII
(Pacific Biosciences, Menlo Park, CA, États-Unis) à une durée de 240
minutes.
Pour l'ARN-seq, l'ARN total d'un
individu mâle et femelle par espèce (regroupés à partir des tissus
suivants : foie, rate, cerveau, cœur et muscle squelettique) a été
extrait avec Trizol comme suit : le tissu a été homogénéisé avec
MagnaLyser et incubé avec un tube Trizol 5 min à température ambiante
(TA) ; 200 µl de chloroforme (/ml de Trizol) ont été ajoutés et agités
vigoureusement pendant 15 s, incubés pendant 2 à 3 min/TA et centrifugés
à 12 200 tr/min/4 °C/15 min ; le surnageant a été transféré dans un
nouveau tube de 1,5 ml et 500 µl d'isopropanol (/ml de Trizol) ont été
ajoutés ; après vortexage, incubation pendant 10 min/TA, centrifugation
à 12 200 tr/min/4 °C/10 min, le surnageant a été jeté et le culot placé
sur de la glace immédiatement. Les culots ont été lavés deux fois :
ajouter 1 ml d’EtOH 80 % (–20 °C), centrifuger à pleine vitesse/4 °C/5
min, éliminer le surnageant et enfin sécher à 37 °C. Les culots séchés
ont été remis en suspension dans 20 µl d’eau distillée. Les banques
d’ARN-seq ont été dérivées de l’ARN total, appauvri en ARNr, normalisé
et séquencé sur une seule voie Illumina HiSeq 2500 par espèce.
.
(Pré)traitement général des
données
.
L'intégralité du pipeline et des
traitements de haut niveau a été réalisée avec R/Bioconductor, quelques
pipelines mineurs en Bash et certaines fonctionnalités essentielles ont
été écrites en C++ (appelées depuis R). Pour plus de détails sur le
paramétrage des étapes/outils importants, voir le tableau supplémentaire
S22 .
FastQC v0.10.1 60 a
été utilisé pour l'évaluation de base de la qualité de lecture. Une
approche personnalisée basée sur le spectre k-mer utilisant JELLYFISH
v2.0 61 (en conjonction avec une base de données de séquences techniques
connues) et une approche basée sur De Bruijn (implémentée dans Minion à
partir du package Kraken v13-274 62 ) ont été utilisées pour
l'identification automatique des contaminants techniques et des
séquences suspectes (sur la base des fréquences attendues). De plus,
FastQScreen v0.4.4 63 a été utilisé pour l'identification spécifique à
l'espèce de la contamination biologique et DeconSeq v0.4.3 64 pour son
élimination. Cutadapt v1.5 65 a été utilisé pour la suppression des
contaminants techniques, Scythe v0.994 66 pour un ajustement
supplémentaire de l'adaptateur 3', CLC quality trim v4.2 67 pour un
ajustement de lecture basé sur le score de qualité et Reaper v13-274 62
pour un filtrage supplémentaire basé sur la qualité et la complexité.
BBmerge v33.40 68 a été utilisé pour la fusion des lectures appariées
superposées et FastUniq v1.1 69 pour la suppression des doublons.
Nextclip v1.2 70 a été utilisé pour le filtrage et la classification des
lectures par paires mates Nextera. 454 ensembles de données ont
également été filtrés avec sffToCA (utilitaire Celera Assembler).
Français BAMtools v2.4.0 71 , SAMtools/BCFtools/HTSlib v1.4 72 et les
outils Picard v1.119 73 ont été utilisés pour la cartographie et les
manipulations de fichiers de séquences telles que l'indexation, la
fusion, le tri et la génération de sous-ensembles, la suppression des
lectures en double et la suppression de la contamination PE des
bibliothèques MP dans les fichiers de séquences. Proovread v2.13.10 74 a
été utilisé pour la correction de lecture PacBio en utilisant toutes les
données PE Illumina disponibles et les unités créées par MaSuRCA v2.3.2
75 . SEECER v0.1.3 76 et Rcorrector v1.0.2 77 ont été utilisés pour le
RNA-seq et Musket v1.1 78 pour la correction des bases-calls du DNA-seq.
Les ensembles de données DNA-seq et RNA-seq ont été prétraités en
utilisant le même pipeline (avec des paramètres différents) ; en
général, deux régimes de filtrage ont été appliqués à chaque ensemble de
données (« strict »/« standard » et « détendu ») en prévision de
différents cas d'utilisation en aval (voir le tableau supplémentaire S22
). Les tailles des génomes ont été estimées par une approche basée sur
le spectre k-mer implémentée dans GCE v1.0.2 79 .
.
Assemblage du génome
.
Du point de vue du
méta-assemblage réalisé, l'algorithme implémenté dans MaSuRCA v2.3.2 75
(utilise Celera Assembler v6.5 80 ) a servi de procédure d'assemblage
principale ; tous les ensembles de données disponibles à ce moment
(c.-à-d. Illumina PE et MP, Illumina Nextera MP et 454 MP et SE) ont été
utilisés. Celera Assembler v8.3rc2 (CA) 80 a été utilisé pour les
assemblages « PacBio uniquement ». Comme plusieurs individus par espèce
(tous des diploïdes non consanguins) ont été séquencés dans ce projet,
l'hétérozygotie était une préoccupation. Par conséquent, des algorithmes
d'assemblage spécifiquement conçus pour mieux gérer la divergence ont
été intégrés à l'approche de reconstruction : Platanus v1.2.1 81 est un
assembleur récent adapté pour traiter plus judicieusement les problèmes
d'hétérozygotie dans les données génomiques (5 itérations ; tous les
ensembles de données Illumina ont été utilisés) ; Redundans v0.12c 82
(utilise SSPACE3 83 , GapCloser 84 , bwa 85 et last 86 ) vise également
à fournir des assemblages plus précis et contigus de génomes hautement
hétérozygotes (5 itérations ; tous les ensembles de données Illumina ont
été utilisés). La suite PBJelly v15.8.24 87 (utilise BLASR 88 ) a été
utilisée pour incorporer les longues lectures de séquences (PacBio) dans
un processus d'assemblage guidé par référence dans les brouillons
établis (5 itérations). L'ensemble diversifié de brouillons de génomes
générés a été soumis à Metassembler 89 dans le but de générer des
séquences consensus de haute qualité. Un algorithme personnalisé, qui
prend en compte plusieurs mesures sur les erreurs d'assemblage
probables, la contiguïté et les prédictions de gènes (en s'appuyant sur
des informations de QUAST 90 et REAPR 38 ), a été appliqué pour
déterminer le meilleur ordre des méta-assemblages successifs.
.
Finition du génome
.
Pour une nouvelle phase de
comblement des lacunes inter-échafaudages, GMcloser 91 (utilisant Nucmer
92 / BLAST 93 et Bowtie2 94 ) a été appliqué aux méta-assemblages avec
les données PacBio et Illumina PE. Enfin, Sealer 95 (utilisant Konnector
, une partie du pipeline d'assemblage ABYSS 96 ) a été utilisé avec les
bibliothèques Illumina PE (libérales) pour combler les lacunes finales,
et une finition génomique personnalisée basée sur GATK 42 (via la
cartographie arrière et le rappel consensuel d'Illumina PE) a été
appliquée.
.
Validation du génome
.
REAPR v1.0.18 38 (utilisant
SMALT v0.7.0.1 97 ) a été utilisé avec les bibliothèques Illumina
Nextera mate-pair (6 kbp) et Illumina PE (600 bp) pour évaluer
l'exactitude des assemblages et QUAST v4.1 90 a été appliqué pour les
statistiques de contiguïté et de prédiction des gènes. L'exhaustivité
des assemblages a été évaluée en utilisant CEGMA v2.5 35 (utilisant
GeneWise v2.4.1 98 , HMMER v3.0 99 et NCBI BLAST + v2.2.29 + 93 ) avec
optimisation des paramètres pour les génomes de vertébrés (–vrt) et
BUSCO v3.0.2 34 (utilisant NCBI BLAST + v2.2.29 + , HMMER v3.1 99 et
AUGUSTUS v3.2.1 100 ).
.
Assemblage du transcriptome et
cartographie de lecture de l'ARN-seq
.
Les assemblages de transcriptome
ont été réalisés avec Trinity v2.3.2 101 , 102 et le pipeline PASA2
v2.0.2 103 (en utilisant GMAP v2014-12–06 104 , BLAT v36.1 105 et MySQL
v5.7.12 106 ); Transdecoder v3.0.1 102 a également été appliqué pour
identifier les régions codantes candidates (utilisé avec MAKER3 107 ).
Les alignements de lecture RNA-seq pour d'autres analyses ont été
généralement réalisés avec STAR v2.4.2a 108 en utilisant les paramètres
par défaut.
.
Annotation du génome
.
Les annotations structurelles
ont été réalisées à partir de données expérimentales issues d'ensembles
de données mRNA-Seq. De plus, des informations ont été tirées de modèles
de transcription et de protéines issus de jeux de données sélectionnés
et accessibles au public ( Danio rerio , H. burtoni, M.
zebra, N. brichardi, O. niloticus et P. nyererei
) et d'autres modèles dans UniProt|Swiss-Prot, nr/nt et UniRef90|teleost.
L'annotation fonctionnelle a été principalement réalisée via des
comparaisons BLAST avec les bases de données mentionnées et via une
multitude de bases de données coordonnées par InterProScan 5 (voir
tableau 2 ).
L'annotation
structurelle des gènes codants et des ARNt a été générée à l'aide des
pipelines MAKER v3.0 107 (en utilisant les détecteurs de gènes GeneMark-ES
v4.32 109 , AUGUSTUS v3.2.1 100 , SNAP v2013-11–29 110 et tRNAscan
v1.3.1 111 ), Funannotate v0.5.5-v0.7.0 112 (FA) et BRAKER1 v1.9 113 (en
utilisant GeneMark-ET v4.32 114 et AUGUSTUS v3.2.1 100 ) ; BRAKER1 a
également été utilisé pour l'entraînement AUGUSTUS. De plus, des modèles
de gènes ont été créés avec StringTie v1.3.2d 115 et Cufflinks v2.2.1
116 .
Tous les modèles ont été combinés par EVidenceModeler v1.1.1 117 (EVM)
sous le contrôle de MAKER3. Pour les ARN non codants, Infernal v1.1.2
118 , Rfam v12.1 119 et FEELnc v0.1.0 120 ont été utilisés. L'ensemble
d'entraînement d'ARNm pour FEELnc a été dérivé des données d'annotation
FA/MAKER, où des modèles génétiques présumés « bons » avec une structure
similaire aux modèles précédemment publiés ont été sélectionnés ;
l'ensemble d'entraînement d'ARNlnc a été généré par mélange des
séquences d'ARNm. Les microsatellites ont été appelés avec MISA v1.0 121
, les îlots CpG avec EMBOSS v6.6.0 122 cpgplot et les ORFs avec EMBOSS
v6.6.0 getorf (et post-traitement R). Les répétitions ont été
déterminées à l'aide de RepeatMasker v4.0.6 32 (avec RepBase v20160321
123 et des bibliothèques spécifiques aux espèces générées avec
RepeatModeler v1.0.8 124 ), RepeatScout v1.0.5 125 et TRF v406 126 .
L'annotation fonctionnelle a été
réalisée à l'aide d'InterProScan v5.24–63.0 127 (en utilisant les bases
de données CDD-3.14, Coils-2.2.1, Gene3D-3.5.0, Hamap-201605.11,
MobiDBLite-1.0, PANTHER-11.1, Pfam-30.0, PIRSF-3.01, PRINTS-42.0, ProDom-2006.1,
ProSitePatterns-20.119, ProSiteProfiles-20.119, SFLD-2, SMART-7.1,
SUPERFAMILY-1.75, TIGRFAM-15.0 et TMHMM-2.0c). De plus, sous le contrôle
de FA, les bases de données eggNOG v4.5.1 128 (fiNOG), MEROPS v12.0 129
, dbCAN v5.0 130 et BUSCO vertebrata v3 34 ont été utilisées pour les
recherches de similarité et SIGNALP v4.1 131 pour l'identification des
séquences de signaux de localisation des cibles.
L'intégration finale de toutes
les annotations a été réalisée avec R 3.4.3/Bioconductor 3.6 en
utilisant les packages data.table 1.12.2, GenomicFeatures 1.30.3,
VariantAnnotation 1.24.5 et leurs dépendances.
.
Cartographie de lecture de
séquences d'ADN
.
Les lectures prétraitées ont été
alignées en mode paired-end avec BWA mem 85 en utilisant les paramètres
par défaut avec les indicateurs ‐M et ‐R. Les lectures alignées ont été
triées par coordonnées avec Picard SortSam v1.119 73 et indexées avec
SAMtools index v1.4 72 . Les doublons ont été supprimés avec Picard
MarkDuplicates v1.119. La qualité des mappages a été évaluée avec
QualiMap v2.0 132 .
.
Analyse comparative — appel de
variantes petites (SMV) et structurelles (SV) — prédiction de l'effet
des variantes
.
La boîte à outils d'analyse du
génome (GATK) v3.7 a été utilisée pour le réalignement local des
lectures et la détection et le filtrage des variantes SNP/InDel
(appelées petites variantes, SMV) 42 comme recommandé par la
documentation GATK ; le HaplotypeCaller a été appliqué, avec un score
minimum pour l'émission de variantes de 10, pour l'appel de 30 et un
élagage minimum de 10. Les SMV avec un score de qualité ≥ 30 ont été
inclus dans d'autres analyses. DELLY v0.7.7 43 a été appliqué pour
appeler les variantes structurelles (SV, insertions, délétions,
duplications, inversions et translocations) avec une taille d'insertion
limite de 3 (pour les délétions) et une qualité de mappage d'extrémités
appariées minimale de 20. Toutes les variantes avec un minimum de 5
paires de lectures rompues supportant la variante ainsi qu'avec une
longueur minimale de 300 pb (pour les délétions, les inversions et les
duplications) ont été incluses dans d'autres analyses, comme recommandé
par la documentation DELLY. Les effets de variante présumés ont été
appelés avec SNPeff v4.3r 37 . Whippet v0.11.1 133 a été utilisé pour
l'appel d'événements d'épissage alternatifs. Les analyses comparatives
ont été menées dans R 3.4.3/Bioconductor 3.6 en utilisant les packages
data.table 1.12.2, GenomicFeatures 1.30.3, Variant Annotation 1.24.5 et
leurs dépendances.
.
Analyse GO
.
Afin de restreindre la liste des
gènes candidats, une analyse d'enrichissement GO a été réalisée sur les
régions génétiques porteuses de variants à l'aide du package R topGO
v2.30.1 134 ; les annotations GO personnalisées ont été générées à
partir des mappages InterProScan. La topologie GO a été prise en compte
( pondération de la méthode ) et l'enrichissement a été évalué par un
test exact de Fisher avec un seuil de p ≤ 0,001. Voir les détails de
l'analyse GO dans les informations complémentaires.
.
Approbation éthique et
consentement à participer
.
Les traitements animaux décrits
dans cet article sont conformes aux normes de la loi autrichienne sur le
bien-être animal et à la directive européenne 86/609. Les poissons ont
été élevés dans notre aquarium certifié à l'Institut de biologie de
l'Université de Graz. Les individus ont été prélevés par CSt et SK,
euthanasiés par surdose d'huile essentielle de clou de girofle et
décapités conformément à la législation autrichienne sur le bien-être
animal. Conformément à la loi autrichienne sur l'expérimentation animale
(TVG, BGBI. Nr. 501/1989, modifiée en dernier lieu par BGBI. I Nr.
162/2005), aucune autorisation n'était requise, car aucun traitement
expérimental n'a été effectué.
.
Disponibilité des données
.
Les brouillons du génome ont été
téléchargés sur EBI, TM : [GCA_902810505], PT : [GCA_902810495] ; les
assemblages du génome et du transcriptome (FASTA), les annotations
structurelles et fonctionnelles (GFF3), les mappages de lecture (BAM) et
les fichiers de suivi IGV 33 supplémentaires sont disponibles sur https://cichlidgenomes.tugraz.at
.