Texte à méditer : Les cons de l'an passé se sont nettement améliorés ... Si, si ... Ils ont acquis un an d'expérience supplémentaire ... eek

► News ... ◄

- De Kushangaza à Halembe
News du Burundi
Hiérarchisation
- - Simulacres
- - La hiérarchisation chez les Tropheus
A l'écoute
- - Sons de Tropheus
News du Lac 2024
- - Interdiction de Pêche
News du lac 2020
- - De moins en moins de poissons à pêcher dans le lac Tanganyika

► Menu ◄

Articles
News
Maladies
Astuces
- - Anti-mouches ecologique
Remèdes
- - Aquafuran & Flagyl
- - Ciproxine
- - Homéopathie
F. O. B.
Espèces de Tropheus
- - Tropheus moorii
- - Tropheus annectens
- - Tropheus brichardi
- - Tropheus duboisi
- - Tropheus Kasabae
- - Tropheus polli
Pollution au Lac Tanganyika
Hommage
- - A toi mon fils
- - Jérôme Nzojibwami
- - Jacky Schreyen
- - Robert Allgayer
News 2014
Divers
News du Lac
Tropheus F.O.B.

► ◘◘◘◘◘◘ ◄

►++++++◄

Lexique
- - A
- - B
- - C
- - D
- - E
- - F
- - G
- - H
- - I
- - J
- - K
- - L
- - M
- - N
- - O
- - P
Xenotilapia
- - X. caudafasciata
Voyages
Voyage 2011
- - Voyage au Burundi 2011
- - Bujumbura
- - Resha
- - Mugere
- - C.N. de Bujumbura
- - Kabezi
- - Ruziba
- - Magara
- - 04-08-2011
- - Rumonge
- - Intermède
- - Gatumba
- - Nyanza Lac
- - Gitega
- - Resha II
- - Kinindo
- - Mutimbuzi (Gatumba)
- - Gitaza
- - Photos & vidéos
Voyage 2013
- - Préparatifs
- - Le voyage
- - Le voyage - suite
- - 2013 en photos...
- - Suite 1 ...
- - Suite 2
- - Suite 3
- - Suite 4
- - Suite 5
- - Suite 6
- - Suite 7
- - Suite 8
- - Suite 9
- - Suite et fin
- - Vidéos de 2013
Voyage 2017
- - Préparatifs 2017
- - Concrétisation
Vu et lu sur le Web
Copyright
- - Les droits d'auteur
Divers
Xenotilapia
- - Xenotilapia caudafasiata

Pr�f�rences

Se reconnecter :

[ Mot de passe perdu ? empty

]

visiteurs

visiteurs en ligne

37 membres

Connectés :

( personne )
Snif !!!

Recherches

Infos Webmaster

	Nous contacter
	Recommander
	Version texte

Génomiques de Tropheus moorii et Petrochromis trewavasae

Séquences génomiques de Tropheus moorii et Petrochromis trewavasae , deux poissons cichlidés éco-morphologiquement divergents endémiques du lac Tanganyika

C. Fischer , S. Koblmüller , C. Börger , G. Michelitsch , S. Trajanoski , C. Schlötterer , C. Guelly , GG Thalinger & C. Sturmbauer

Rapports scientifiques volume 11 , Numéro d'article : 4309 ( 2021 ) Citer cet article

Avec plus de 1 000 espèces, les cichlidés d’Afrique de l’Est représentent le rayonnement vertébré le plus rapide et le plus riche en espèces connu, fournissant un modèle idéal pour aborder les mécanismes moléculaires sous-jacents à la diversification adaptative récurrente. Nous ajoutons des reconstructions génomiques de haute qualité pour deux espèces phylogénétiques clés d'une lignée qui a divergé il y a environ 3 à 9 millions d'années (ma), ce qui représente la première scission des haplochromines dites modernes qui ont semé des radiations supplémentaires telles que celles du lac Malawi. et Victoria. Parallèlement aux génomes annotés, nous avons analysé les caractéristiques génomiques discriminantes des espèces étudiées, chacune représentant une morphologie trophique extrême, l'une étant un navigateur d'algues et l'autre un brouteur d'algues. Les génomes de Tropheus moorii (TM) et Petrochromis trewavasae (PT) comprennent respectivement 911 et 918 Mbp avec 40 300 et 39 600 gènes prédits. Nos données de séquences d'ADN sont basées sur 5 et 6 individus de TM et PT, ainsi que sur les séquences transcriptomiques d'un individu par espèce et par sexe, respectivement. Concernant la variation, nous avons observé en moyenne 1 variant pour 220 pb (interspécifique) et 1 variant pour 2540 pb (PT vs PT)/1561 pb (TM vs TM) (intraspécifique). L'analyse d'enrichissement GO des régions génétiques affectées par les variants a révélé plusieurs candidats susceptibles d'influencer les modifications phénotypiques liées à la morphologie du visage et de la mâchoire, tels que les gènes appartenant à la voie Hedgehog ( SHH , SMO , WNT9A ) et aux familles BMP et GLI.

Introduction

Avec 1727 espèces décrites ¹ , les poissons cichlidés font partie des familles de poissons téléostéens les plus riches en espèces. Leur point chaud de biodiversité se situe en Afrique de l'Est, et en particulier dans les trois Grands Lacs, Victoria, Malawi et Tanganyika ² . Malgré un grand degré de similitude indiquant une évolution récurrente d'espèces éco-morphologiquement équivalentes ³ , les trois radiations de cichlidés présentent des différences importantes en ce qui concerne le nombre d'espèces, l'âge évolutif des lignées, la diversité des modèles de soins parentaux et le degré de divergence morphologique ^{2 , 3 , 4} . Cela est probablement dû aux différents ensembles d’espèces colonisatrices et, surtout, à leur âge évolutif différent.

Avec un âge de 9 à 12 millions d'années (ma) ^5 , 6 , le lac Tanganyika est de loin le plus ancien de ces lacs. En raison de son âge avancé, l'assemblage d'espèces du lac Tanganyika est à un stade de maturité, de sorte qu'il comprend la plus grande diversité génétique et phénotypique parmi les radiations de cichlidés d'Afrique de l'Est, mais une diversification plus poussée se poursuit principalement sans beaucoup d'innovation éco-morphologique ² . Lors de la colonisation du lac émergent, les cichlidés ont profité de la fenêtre d'opportunité écologique et se sont rapidement diversifiés ⁴ . En fait, deux lignées colonisatrices ont subi une hybridation dès le début de l'irradiation, un événement qui pourrait avoir déclenché ou accéléré le début ⁶ . Le rayonnement du lac Tanganyika occupe une position clé pour l'ensemble de la faune de cichlidés africains modernes, dans la mesure où trois des lignées lacustres nouvellement émergentes ont réussi à coloniser les rivières environnantes, de sorte que le rayonnement a balayé à plusieurs reprises les limites du lac en maturation ^{7 , 8 , 9 , dix} . Trois des lignées émergentes, les Lamprologini sans couvaison buccale, les Orthochromini à couvaison buccale et certains premiers Haplochromini tels que les ancêtres des genres Pseudocrenilabrus et Serranochromis , ont quitté le lac à différents stades de maturation du lac pour coloniser certains plans d'eau environnants ^{7 , 8 , 9 .
, 11 , 12 , 13} . Un groupe d'haplochromines précoces a continué à évoluer dans l'interface lac-marais-rivière vers des couveuses buccales maternelles plus élaborées, délimitées par un dimorphisme sexuel accru et des taches d'œufs sur la nageoire anale ^6 , 9 , les haplochromines dites modernes. Ces haplochromines modernes ont non seulement colonisé la plupart des systèmes fluviaux de toute l'Afrique australe et orientale, mais ont réintégré l'écosystème du lac Tanganyika, déjà beaucoup plus profond et mature à cette époque, pour évoluer vers la tribu endémique du lac Tanganyika Tropheini ^9 , 14 . Ainsi, les Tropheini ont réussi à s'introduire dans un rayonnement lacustre en cours et déjà complexe, tandis que ses sœurs non lacustres se sont répandues dans plusieurs systèmes fluviaux pour ensemencer des radiations dans les lacs émergents le long de leurs routes de dispersion fluviale ^{6 , 8 , 9 , 15 , 16} .

La tribu Tropheini, endémique du lac Tanganyika, représente le groupe frère de tous les haplochromines modernes en dehors du lac et a divergé de ceux-ci il y a environ 3 à 9 millions d'années ⁶ . Le fait que cinq des 29 espèces de Tropheini se trouvent à la fois dans le lac lui-même et en amont dans les rivières affluentes et/ou dans certaines parties de la rivière Lukuga, le seul écoulement du lac, pourrait être dû à leur origine marécageuse ¹⁷ . C'est pourquoi nous avons décidé de séquencer et de comparer les génomes de deux espèces écologiquement divergentes de la tribu Tropheini, endémique du lac Tanganyika. En termes de génétique, les haplochromines modernes, y compris les Tropheini, sont emblématiques car leurs génomes généralistes adaptés aux rivières ont subi à plusieurs reprises des modifications adaptatives récurrentes lors des opportunités écologiques fournies par les lacs nouvellement émergents ⁴ . Il a été suggéré que les espèces écologiquement et phénotypiquement flexibles, adaptées aux habitats fluviaux saisonnièrement instables, peuvent supplanter les autres colonisateurs dans l'ensemencement des radiations lacustres, car elles peuvent rapidement s'adapter aux espaces de niche vides via la plasticité phénotypique ¹⁸ . Selon l'hypothèse de la tige flexible, une population phénotypiquement plastique est subdivisée en phénotypes adaptatifs alternatifs, puis les facteurs génétiques adaptatifs sont triés au cours de la spéciation pour continuer via l'accommodation génétique et l'assimilation génétique. Au cours de la divergence adaptative au cours de radiations adaptatives répétées, l'évolution génomique a probablement été façonnée par des opportunités écologiques, en combinaison avec des événements de fragmentation géographique, des épisodes de goulots d'étranglement et d'expansion de la population, ainsi que des mélanges ou des fusions répétés dans des événements d'hybridation provoqués par des lacs induits par le climat. fluctuations de niveau ^4 , 19 . Outre la divergence et le flux génétique accidentel ^6 , 20 , la duplication et la sélection géniques ^6 , 21 , les événements ont apparemment remodelé les génotypes. Au niveau phénotypique, le succès évolutif des cichlidés d'Afrique de l'Est a été attribué à des innovations clés particulières, notamment (1) le découplage fonctionnel des mâchoires buccales et pharyngées facilitant l'exploitation de diverses niches trophiques 22 , (2) l'adaptation du système ^visuel à une turbidité différente de l'eau ²³ et (3) les soins parentaux et la coloration sexuelle des mâles déterminés par la sélection sexuelle facilitant l'isolement reproductif ²⁴ . À ce stade, l’ensemble des mécanismes génétiques modifiant le substrat génomique sous-jacent à l’énorme éco-morphoespace phénotypique couvert par les cichlidés reste largement inconnu (voir ²⁵ pour une revue récente).

Les premières étapes majeures vers la compréhension des mécanismes moléculaires derrière ces morphologies divergentes ont été franchies en élucidant les génomes et les transcriptomes de cinq espèces de cichlidés : Oreochromis niloticus représentant une lignée exogroupe, Neolamprologus pulcher représentant une lignée de couveuses de substrat du Tanganyika et trois haplochromines modernes, à savoir Astatotilapia burtoni. représentant une lignée fluviale, le zèbre Maylandia représentant le lac Malawi et le Pundamilia nyererei représentant le lac Victoria. Cette étude a mis en évidence un excès de duplications de gènes dans la lignée d'Afrique de l'Est par rapport à Oreochromis et d'autres téléostéens, une abondance de divergence d'éléments non codants, une évolution accélérée de la séquence codante, une divergence d'expression ainsi que des insertions d'éléments transposables et une régulation par de nouveaux microARN 21 ^. . L’étude a également révélé une sélection diversifiée à l’échelle du génome sur des variantes codantes et régulatrices, dont certaines recrutées à partir d’anciens polymorphismes.

Des projets de génome de haute qualité (HQ) basés sur les données de Pacific Biosciences (PacBio) sont devenus disponibles, notamment au cours des deux dernières années. Des ébauches de siège de Simochromis diagrammema (Afrique de l'Est, lac Tanganyika) et d'Astatotilapia calliptera (Afrique de l'Est, lac Malawi) ont été générées par l'Institut Sanger (2018) et une ébauche de siège d' Archocentrus centrarchus (Amérique centrale) a été générée par le groupe G10K-VGP. (2019) ; des assemblées de cichlidés sud-américains Amphilophus citrinellus (2014, Université de Constance) et Andinoacara coeruleopunctatus (2015, Sanger Institute) ²⁶ sont également disponibles. Les génomes d' O. niloticus (ON) et de M. zebra (MZ) ont récemment (2019) été nouvellement assemblés et ancrés avec une approche de carte génétique PacBio + à haute couverture ²⁷ ; les génomes de A. calliptera, A. centrarchus et S. diagrammema (non ancrés) ont été reconstruits de la même manière. Oreochromis niloticus, M. zebra , A. calliptera et A. centrarchus sont les seules reconstructions au niveau chromosomique (groupes de liaison). Sept brouillons du QG ont reçu des annotations du NCBI Annotation Pipeline ²⁸ ( S. diagrammema pas encore) ; O. niloticus, A. calliptera et A. citrinellus ont également reçu des annotations de l'Ensembl ²⁹^.Ces génomes couvrent des espèces des Grands Lacs et rivières d'Afrique et des lacs de cratère d'Amérique centrale et d'Amérique du Sud (Fig. 1 ).

Résultats

Assemblées

Sur la base des tailles de génome estimées à ~ 900 Mbp (tableau supplémentaire S11 ), nos efforts de séquençage ont donné des données de séquence avec une couverture de base moyenne de ~ 1,5 ×, ~ 88 ×, ~ 34 × et ~ 10,5 × (PT) et ~ 1,2 ×. , ~ 38×, ~ 29× et ~ 9,1× (TM) pour Roche 454, Illumina PE, Illumina MP et PacBio, respectivement (voir tableau supplémentaire S23 ). Les données de séquence filtrées ont été utilisées pour générer des assemblages primaires dérivés de différents algorithmes de reconstruction (assembleurs) et combinaisons de données (voir Méthodes). Les reconstructions finales du génome des deux espèces sont basées sur des méta-assemblages de ces ensembles d'assemblages primaires. Les méta-assemblages présentant les meilleurs scores en termes de mauvais assemblages, de contiguïté et de prédictions génétiques ont été utilisés dans des analyses ultérieures.

Petrochromis trewavasae

Les assemblages principaux présentent des tailles d'assemblage allant de ~ 779 Mbp à ~ 966 Mbp (907 Mbp PacBio uniquement ; voir le tableau supplémentaire S11 ). L'assemblage final se compose de 7261 échafaudages avec un N50 de 1,84 Mbp, 1,44 % des nucléotides sont indéterminés (N) et 90 % du génome assemblé est contenu dans 885 fragments de plus de 70 kpb. La taille totale de l'assemblage est de 917,57 Mbp (Tableau 1 ).

Tableau 1 Statistiques de contiguïté et de taille de l'assemblage : Les génomes assemblés sont constitués de 917,57 et 911,13 Mbp pour P. trewavasae et T. moorii , respectivement. Le nombre et le nombre de bases pour les échafaudages et les contigs sont indiqués. Les échafaudages ont été brisés en contigs sur des tronçons de Ns de longueur ≥ 10. Les statistiques sur O. niloticus ont été obtenues auprès du NCBI et étendues si nécessaire (en bleu) ; Sur le plan technologique, la version 2 est comparable, la version 4 est basée sur des données PacBio et de cartographie optique à haute couverture.

Tableau en taille réelle

Tropheus moorii

Les assemblages principaux présentent des tailles d'assemblage allant de ~ 754 Mbp à ~ 952 Mbp (879 Mbp PacBio uniquement ; voir le tableau supplémentaire S11 ). L'assemblage final se compose de 7662 échafaudages avec un N50 de 1,64 Mbp, 1,29 % des nucléotides sont indéterminés (N) et 90 % du génome assemblé est contenu dans 657 fragments de plus de 192 kpb. La taille totale de l'assemblage est de 911,13 Mbp (Tableau 1 ). Les deux tailles d’assemblage se situent dans la plage attendue ; Les prédictions basées sur les spectres k-mer suggèrent des tailles de génome proches de 900 Mbp (voir tableau supplémentaire S11 ) et de 900 à 1 000 Mbp ont également été signalées pour d'autres génomes de cichlidés ^21 , 30 .

Dans ce qui suit, nous comparons nos résultats aux génomes et annotations publiés de plusieurs poissons cichlidés en mettant l'accent sur O. niloticus et M. zebra en raison de leur état bien développé. Les dernières versions (v4) de O. niloticus (44 × PacBio, nouvellement ancré) et de M. zebra (maintenant 65 × PacBio et ancré) ont été publiées par Conte et al . ²⁷ ; la tendance par rapport aux versions antérieures est claire, les qualités des séquences et des annotations sont améliorées et le nombre de structures annotées a encore augmenté. En ce qui concerne les distributions de longueur des gènes (tableau supplémentaire S1 ), les mesures de contiguïté obtenues pour PT et TM sont satisfaisantes et se situent dans la plage typique, compte tenu des technologies de séquençage appliquées et de la couverture (tableau 1 ; pour une comparaison avec les versions d'O. niloticus , voir Tableau supplémentaire S2 , et pour une comparaison générale avec les génomes de poissons publiés, voir le tableau supplémentaire S23 de Vij et al. ³¹ ).

Annotations

Structural annotation yielded ~ 40,300 (PT) and 39,600 (TM) genes and ~ 54,200 (PT) and 56,800 (TM) transcripts, respectively (Table 2); this is in line with the results of different annotation versions of ON (~ 30,200 to 42,600 genes). As to annotated features, PT and TM show similar numbers which often lie between those of version 2 and 3 of the respective ON annotations. For comparison, statistics for ON v2–v4 (the latest) are added, as ON received the most community effort and data for genome assembly and annotation of all cichlids (Supplementary Table S2). Prediction of long non-coding RNAs yielded 2782 and 2112 lncRNAs for PT and TM, respectively. With 57.7% and 63.2% a slight preference for the sense strand could be observed (Supplementary Table S3). Homology based functional annotation could be made for 41,970 (PT) and 43,918 (TM) of the coding sequences (CDSs); putative secretory signals were predicted for 5899 (PT) and 6016 (TM) of them, respectively (Table 3). Pfam domain mapping yielded 78,900 (PT) and 84,158 (TM) hits, respectively. RepeatMasker²⁷ identified 31.1% (PT) and 30.0% (TM) of the genomes as repetitive, respectively; the largest proportions of classified repeat types were held by DNA transposons, LINEs and LTR transposons with ~ 13%, ~ 7% and ~ 2% (Table 4).

Table 2 Structural annotation statistic of PT and TM in comparison with ON: Structural annotation yielded ~ 40,300 and 39,600 genes, respectively. This is in line with the results of different annotation versions of ON (~ 30,200 to 42,600).

Full size table

Table 3 Functional annotation statistics: The number of proteins found in UniProt and NR are given. Furthermore, the table contains the number of proteins with putative protease (Merops) and carbohydrate activity (CAZymes), the number of orthologs in fiNOG, the number of proteins matching the BUSCO vertrebrate models and the number of proteins with putative secretory signals (SignalP). Finally, the number of hits of the protein sequences for the various InterPro domain databases are presented.

Full size table

Table 4 Repeat annotation statistics as determined by RepeatMasker³².

Full size table

Data availability and visualization

The genome and transcriptome assemblies (FASTA), the structural and functional annotations (GFF3), read mappings (BAM) and additional Integrative Genomics Viewer (IGV)³³ track files (short and long non-coding RNAs, repeats, ORFs, CpG islands, microsatellites, IPR and eggNOG domains, variant calls, read mappings, alternative splicing, and REAPR error calls; Fig. 2) are available at https://cichlidgenomes.tugraz.at.

Quality evaluation

Assembly quality was assessed with BUSCO³⁴ and CEGMA³⁵. BUSCO identified 98.3% and 98% of the 4584 proteins in the Actinopterygii database in complete form for PT and TM, respectively; 1.7% and 2% of the benchmarking universal single-copy orthologs (BUSCOs) were either fragmented or missing. These results compare well with those of published genomes and are generally on a par with those of the later versions of the O. niloticus genome drafts (Table 5). CEGMA identified all of the 248 core eukaryotic genes (CEGs) for both PT and TM (Table 6); CEGMA results for PT and TM transcriptome assemblies can be found in Supplementary Table S6. However, REAPR reports 17,166/11,992 (PT/TM) likely assembly errors (Supplementary Table S10); there are IGV tracks highlighting questionable regions to guide caution when analyzing in the vicinity (see Fig. 2). Completeness of conserved protein domains was assessed with DOGMA³⁶. DOGMA found 91.8% and 90.5% of the 1051 expected conserved domains at a conserved domain arrangement size of 1 for PT and TM, respectively (Table 7).

Table 5 BUSCO results: Identified genes are classified as ‘complete’ when their lengths are within two standard deviations of the BUSCO group mean length (i.e., within ∼95% expectation). ‘Complete’ genes found with more than one copy are classified as ‘duplicated’; BUSCOs are expected to evolve under single-copy control, hence recovery of many duplicates may indicate erroneous assembly of haplotypes. Genes only partially recovered are classified as ‘fragmented’, and genes not recovered are classified as ‘missing’³⁴. The latest versions of assemblies were used in all cases (i.e., V4 of O. niloticus and M. zebra). See BUSCO results for PT and TM transcriptome assemblies in Supplementary Table S5. Values are color coded according to the rank: Dark green, best; dark red, worst. BUSCO stands for benchmarking universal single-copy ortholog.

Full size table

Tableau 6 Résultats CEGMA : Les versions les plus récentes sont affichées dans tous les cas ; pour ON et MZ en plus de la v4 (basée sur PacBio), la v2 (basée sur Illumina PE + MP) est répertoriée à des fins de comparaison (car PT et TM ont été principalement construits en utilisant les mêmes technologies). Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé, pire. CEG signifie gène eucaryote principal.

Tableau en taille réelle

Tableau 7 Résultats DOGMA : DOGMA ³⁶ note un échantillon de transcriptome/protéome en ce qui concerne l'intégralité des domaines protéiques conservés fournis en pourcentage d'un ensemble de base défini (les domaines conservés sont des éléments constitutifs structurels et fonctionnels des protéines). L'analyse conforte l'idée (voir les longueurs moyennes et médianes des protéines dans le tableau 2 ) selon laquelle les modèles génétiques des gènes codant pour les protéines doivent être améliorés. Les valeurs sont codées par couleur selon le rang : vert foncé, meilleur ; rouge foncé, pire. CDA signifie arrangement de domaines conservés.

Tableau en taille réelle

Analyse comparative

Nous avons comparé les génomes de PT et de TM en cartographiant les lectures brutes d'une espèce avec le génome de l'autre espèce. Cela a donné respectivement 4 105 604 et 4 178 777 petites variantes (SMV ; SNP et InDels) pour PT et TM. En outre, 356 428 et 577 124 SMV ont été identifiés pour PT et TM, lors de la cartographie des lectures de la même espèce sur les génomes respectifs. En moyenne, 1 variante pour ~ 220 pb (interspécifique) et 1 variante pour 2 540 pb (PT vs PT)/1 561 pb (TM vs TM) (intraespèce) a été appelée (Tableau 8 ) . Pour les deux espèces, 93 842 et 89 489 grandes variantes structurelles (SV ; insertions, délétions, duplications, inversions et translocations) entre espèces ont été détectées, la majorité étant des délétions avec respectivement 60 % et 65,6 % (Tableau 8 ) .

Tableau 8 Aperçu des résultats de l'analyse des variantes inter- et intraspécifiques : Les chiffres représentent l'hétérogénéité entre les espèces (pour PT vs TM et TM vs PT) et l'hétérogénéité au sein des espèces (pour PT vs PT et TM vs TM). Ces chiffres peuvent inclure l'effet net de problèmes techniques (par exemple, avec les algorithmes d'assemblage, d'annotation, de mappage et d'appel).

Tableau en taille réelle

La distribution du SMV et du SV observée par l'analyse comparative suit largement la couverture génomique de régions structurelles/fonctionnelles particulières. Il existe des dévations petites mais notables : (1) les SMV sont (légèrement) sous-représentés dans les régions du promoteur, de la 5′ UTR, du codage, du site d'épissage, de la 3′ UTR et des régions intergéniques ; ils sont surreprésentés dans les introns ; (2) Les SV sont (légèrement) sous-représentées dans les régions du promoteur, de la 5′ UTR, du codage, de la 3′ UTR et des régions intergéniques ; ils sont surreprésentés dans les introns et les sites d'épissage (via chevauchement) (Fig. 3 A).

SNPeff ³⁷ classe les effets des variantes sur le gène en quatre groupes en fonction de l'emplacement et de la nature de la variante : « ÉLEVÉ », « MODÉRÉ », « FAIBLE » ou « MODIFICATEUR », ce dernier désignant des variantes non codantes ou des variantes affectant des variantes non codantes. -les gènes codants, pour lesquels les prédictions sont difficiles ou où il n'y a aucune preuve d'impact. Dans notre analyse, plus de 97 % des variantes identifiées sont classées comme « MODIFIER » (Tableau 9 ).

Tableau 9 Aperçu des effets putatifs des variantes intra- et interspécifiques : les annotations des effets des variantes telles que déterminées par SNPeff ³⁷ sont présentées . Les nombres représentent l'hétérogénéité entre les espèces (pour PT vs TM et TM vs PT) et l'hétérogénéité au sein des espèces (pour PT vs PT et TM vs TM). Ces chiffres peuvent inclure l'effet net de problèmes techniques (par exemple, avec les algorithmes d'assemblage, d'annotation, de mappage et d'appel).

Genes of interest, which are possibly affected by mutations, are highlighted in Table 10 (see Supplementary Information for details on the gene selection and GO enrichment analysis, respectively). Here, we started to analyze genes which are related to the development of the viscerocranium (untargeted gene selection) and the pharyngeal system (targeted, i.e., biased gene selection based on literature—see Table S17); however, there are other GO terms of interest which are consistently enriched over different analysis approaches such as BMP signaling, for instance. A condensed GO analysis result for an untargeted approach (A2, see Table S14b) is shown in Table 11; here, gene categories are based on variant comparison groups (within and between species groups) combined with quantile ranking and thresholding (p = 0.5, i.e., median), and variant counts (‘mutation loads’) were used as criterion. The term ‘embryonic viscerocranium morphogenesis’ is enriched in the within and the between species gene sets over all approaches (see Supplementary Table S16; genes belonging to this term were combined with genes from the targeted approach and used for further downstream analyses (see Supplementary Table S14a, Table S14b, Table S15, Table S16, Table S18 and Table S21). In the comparative analysis, biological species are coded as A (PT) and B (TM) (Table 11). The categories (AA, AB, BA and BB) refer to the within and between group comparisons. That is, there are mutations at the same genomic locations (nucleotides) which are either identical within and between species (referred to as, e.g., identical (AA) and redundantly identical (AB)) or nonidentical (referred to as, e.g., nonidentical (BB) and nonidentical (BA)); moreover, there are mutations which are unique to a group (referred to as, e.g., unique (AA) and unique (AB), i.e., at the genomic location there is only a variant in species A (unique (AA)) or there is only a variant between species A and B (unique (AB)), respectively). In the shown example, for SMV the calls for viscerocranium morphogenesis are symmetric except for the AB category (which fell below the threshold), i.e., the GO term is consistently enriched within and between species. Further analyses on the genes belonging to the term clearly verify the presence of shared and species-specific mutations in these genes (see example in Supplementary section Identification of genes putatively related to facial and jaw morphology). Hence, there is substantial variation in these genes which may drive changes in the manifestation of morphology. However, we cannot yet delineate possible effects from shared and non-shared variants.

Table 10 Selected genes affected by variants. To narrow down the list of genes carrying variants, a targeted approach and GO enrichment analysis were performed; this table lists genes related to facial and jaw morphology. Shown results are filtered and simplified: (1) variant types and locations have been unified for transcript isoforms and (annotated) gene duplicates, and (2) they have been intersected between species comparisons. SMV, small variant(s); SV, structural variant(s).

Table 11 GO enrichment analysis result—biological process terms (condensed). This table shows results from approach A2 (see Supplementary Table S14b). Enrichment was assessed via a Fisher’s exact test with a cutoff of p ≤ 0.001 and GO topology was accounted for (R package topGO, method weight). In the Type column biological species are coded as A (PT) and B (TM); identical and nonidentical variants at same nucleotide positions, and unique variants are indicated. The categories (AA, AB, BA and BB) refer to the within and between comparison: identical (AA) means that the intraspecific variant(s) (SMV and SV) in this group have also been called in the related interspecific (AB) comparison at the same location, with nonidentical (AA) a different variant has been called at the same location (e.g., A → T within and A → G between species), with unique (AA) only within species A and with unique (AB) only between species A and B a variant was called at that position; the same holds for species B and the BB and BA categories. Comparisons have been conducted two-way, i.e., A vs B and B vs A; the groups were tested against a gene universe containing all genes with GO information (the dataset contains 7905 (PT) and 7688 (TM) GO terms in total). SMV: small variant(s) (SNPs and InDels); SV: structural variant(s) (insertions, deletions, duplications, inversions and translocations). See Supplementary Table S15 for detailed lists.

Besides variants in the DNA structure, alternative splicing (AS) was analyzed. There are ~ 6200 AS events in ~ 2600 genes between sexes of each species and ~ 39,000 AS events in ~ 9400 genes between the two species (see Supplementary Table S13).

Discussion

Assembly and annotation

Le méta-assemblage d'un ensemble d'assemblages primaires a donné des ébauches de génome de haute qualité avec 918 et 911 Mbp pour Petrochromis trewavasae et Tropheus moori , respectivement. Ceci est conforme aux tailles comprises entre 900 et 1 000 Mbp signalées pour d'autres génomes de cichlidés ^21 , 30 et aux ~ 940 Mbp estimés par notre validation d'assemblage avec REAPR ³⁸ . Le dernier assemblage d'Oreochromis niloticus s'étend sur environ 1 Gbp ; cette variation de la taille du génome peut être due à des différences biologiques, mais pourrait également indiquer que certaines parties de l'ADN répétitif dans la reconstruction génomique respective (PT/TM) ne sont pas incluses dans l'assemblage, car une conséquence de l'effondrement de la séquence (par exemple, répétitions effondrées) ³⁹ .

En règle générale, les assemblages sont basés sur les données génomiques d'un seul individu, qui provient idéalement d'une lignée consanguine. Dans ce projet, nous avons assemblé respectivement 6 (PT) et 5 (TM) individus non consanguins ; cela nécessitait une approche d’assemblage plus complexe. De plus, nous avons effectué un séquençage de novo sans aucune donnée de liaison ou de carte optique (comme le montrent les dernières versions du génome de O. niloticus et A. calliptera ) et la couverture PacBio était (avec ~ 9–10 ×) considérablement inférieure à celle utilisée. pour les assemblages de O. niloticus (44 × pour v3 ³⁰ et v4 ²⁷ ) et M. zebra (16,5 × pour v3 ⁴⁰ , ajoutés en plus des couvertures Illumina PE et MP déjà élevées, et 65 × pour v4 ²⁷ ). Néanmoins, les deux assemblées se comparent bien aux projets publiés sur le génome d’espèces comparables en ce qui concerne les mesures typiques concernant le contenu génétique. Les résultats de BUSCO (Tableau 5 ) montrent un faible taux d'environ 4 à 8 % (selon la base de données) de BUSCO dupliqués en PT et TM. Ceci est légèrement supérieur aux ~ 2 à 4 % rapportés pour d'autres génomes de cichlidés, ce qui peut être une conséquence d'un assemblage incorrect d'haplotypes provenant d'individus non consanguins. En ce qui concerne le nombre total de BUSCO identifiés, fragmentés et manquants, la reconstruction des génomes PT et TM fonctionne très bien.

Pour les deux espèces, les annotations se sont avérées valables pour les premières analyses sensées en aval, mais il existe certainement certains modèles génétiques qui pourraient nécessiter des améliorations supplémentaires, par exemple par un entraînement répété des prédicteurs génétiques ; cependant, pour AUGUSTUS, le prédicteur central, les évaluations du modèle montrent déjà de bons états d'entraînement (voir le tableau supplémentaire S12 ). Les sources les plus pertinentes de modèles génétiques insuffisants pourraient inclure les fusions, les scissions et surtout les troncatures de gènes, qui sont évidentes après un examen plus approfondi – ceci est typique des premières annotations, en particulier lorsque le pipeline d’annotations est encore en cours de développement. Nous observons une longueur moyenne et médiane relativement faible des séquences protéiques (voir Tableau 2 ) dans les deux assemblages/annotations. Cela peut refléter une erreur systématique dans le processus de génération, par exemple des InDels conduisant à des décalages de trame et, par conséquent, à des traductions erronées et à des codons d'arrêt prématurés. L'enquête sur ce phénomène a montré des InDels non triples ; cependant, ceux-ci se retrouvent également entre, par exemple, les modèles de transcription d'O. niloticus et de M. zebra . De plus, le taux de mutations non-sens identifiées dans PT et TM est faible (Tableau 9 ). Les pipelines d'annotation NCBI et Ensembl sont à la pointe de la technologie ; de plus, la quantité et la diversité des données de séquençage d'ARN utilisées pour l'annotation, par exemple, d'O. niloticus étaient beaucoup plus importantes que ce n'était le cas pour l'une ou l'autre des espèces de ce projet. Par conséquent, le plus grand nombre d’isoformes de transcription identifiées (ainsi que le nombre moyen plus élevé d’exons par transcription) peuvent être considérés comme des conséquences simples. Cependant, le nombre total d’exons chez les deux espèces est comparable aux annotations ON. Il est intéressant de noter que le nombre de modèles génétiques dans PT et TM est également comparable à celui de ON v3. Comme il n'existe pas de méthode bien établie pour évaluer l' exactitude des modèles génétiques (peut-être par une vérification de la structure générale et une notation majoritaire de similarité basée sur une base de données), il s'agit simplement d'une comparaison du nombre d'éléments. De plus, comme mentionné, il existe certaines fusions et scissions de gènes dans les ensembles de modèles de gènes PT et TM, ce qui faussera dans une certaine mesure le décompte des gènes. Comme autre mesure de qualité pour les gènes codant pour les protéines annotés, DOGMA ³⁶ et PfamScan ⁴¹ ont été utilisés ; les résultats soutiennent la notion de mauvais modèles de gènes dans l'ensemble, qui ne contiennent pas certains domaines protéiques ou seulement des fragments de ceux-ci (Tableau 7 ).

Analyse comparative

Nous avons choisi les deux espèces étudiées pour les raisons suivantes. Tropheus moorii est un brouteur d'algues très efficace que l'on trouve en grand nombre sur tous les types de rivages rocheux, tandis que Petrochromis trewavasae est un brouteur d'algues répandu sur les rivages rocheux du côté ouest du lac, vivant en sympatrie avec Tropheus . Les Tropheini comprennent 3 espèces prédatrices, une omnivore, 10 brouteurs d'algues et 15 brouteurs d'algues. Les brouteurs d'algues ont des dents en forme de ciseau pour mordre les algues filamenteuses du substrat rocheux, tandis que les brouteurs d'algues ont des dents en forme de peigne sur plusieurs rangées pour éliminer les algues unicellulaires et les détritus des roches. En raison de l'âge avancé de la tribu Tropheini, qui s'élève à environ 2 à 6,5 millions d'années au début de leur rayonnement ⁶ , le degré de divergence éco-morphologique est plus grand que chez les équivalents éco-morphologiques beaucoup plus jeunes du lac Victoria, mais comparable à l'éco-morphoespace couvert par l'ensemble du troupeau du lac Malawi. Il est intéressant de noter que le genre Tropheus comprend environ 120 populations, pour la plupart allopatriques et distinctes en termes de couleur, ainsi que des espèces sœurs morphologiquement similaires. Ils sont tous restés dans la même niche trophique sur toutes les rives rocheuses du lac. Petrochtomis trewavasae ne présente pas beaucoup de variation de couleur, a une répartition restreinte sur la rive sud-ouest du lac et fait partie d'une lignée de brouteurs complexe et morphologiquement distincte comprenant le complexe d'espèces beaucoup plus diversifié de P. polyodon . Si l’on considère l’ensemble de la lignée, il a subi une trajectoire évolutive similaire à celle de Tropheus . Il convient de noter ici que le nombre d'espèces généralement beaucoup plus faible dans le lac Tanganyika par rapport aux lacs Malawi et Victoria résulte également des différents concepts d'espèces utilisés, dans la mesure où plusieurs entités allopatriques sont traitées comme des espèces dans les lacs Victoria et Malawi, alors que comme des variétés géographiques. dans le rayonnement plus ancien du lac Tanganyika.

L'analyse comparative présentée ici a donné, comme prévu, un grand nombre de régions variantes entre les deux espèces et même un nombre considérable au sein de chaque espèce. La grande quantité de variation au niveau intraspécifique peut en fait être due à notre approche consistant à utiliser plusieurs individus F1 non consanguins d'une même population échantillonnée dans l'environnement naturel, mais reflète mieux la diversité intra-population et, finalement, l'âge évolutif ancien de l'espèce. lignée. Nous avons utilisé GATK ⁴² et DELLY ⁴³ , deux outils bien établis, pour l'appel de variantes ; cependant, l'appel de variantes n'est toujours pas un problème bien résolu avec souvent peu de chevauchement entre les résultats des différentes routes algorithmiques (par exemple, voir ^44 , 45 ). En ce qui concerne les statistiques rapportées sur les effets variants, il est connu que l'état de l'annotation structurelle et l'annotateur d'effet variant utilisé influencent fortement les résultats ⁴⁶ . Les résultats d'analyse présentés ici reflètent l'état des reconstructions du génome (v1).

Le nombre relativement important de SV et de SMV triés réciproquement parmi les deux espèces étudiées est remarquable et pourrait refléter le temps de divergence relativement ancien entre les deux espèces étudiées, s'élevant à environ 2,5 à 6 Mya pour les deux clades ⁶ . En fait, on s’attend à ce que les mutations structurelles affectant les informations codantes mettent plus de temps à évoluer que les mutations régulatrices. Ainsi, lorsque l’on compare des espèces provenant des lacs Victoria et du Malawi, beaucoup plus jeunes, on ne s’attendrait pas à un degré aussi marqué de variation de codage réciproquement distincte. Le SV et le SMV peuvent également être interprétés à la lumière de l'hypothèse de la tige flexible ^4 , 18 . La tige flexible des radiations cichlidés est formée d’espèces écologiquement et phénotypiquement flexibles adaptées aux habitats fluviaux saisonnièrement instables. Une fois qu'ils ont semé des radiations lacustres, ils peuvent rapidement s'adapter à des niches vides dans cet environnement plus stable en raison de leur grande plasticité phénotypique ¹⁸ . Par la suite, la population phénotypiquement plastique est subdivisée en phénotypes adaptatifs alternatifs, puis les facteurs génétiques adaptatifs sont triés au cours de la spéciation pour continuer via l'accommodation génétique et l'assimilation génétique ⁴⁷ . La plasticité phénotypique ou développementale fait référence à la capacité d'un seul génotype à produire plusieurs phénotypes dans différentes conditions environnementales. L'hypothèse de la tige flexible postule que la plasticité d'une population peut influencer la direction de l'évolution en exposant une variation génétique cryptique à la sélection dans un nouvel environnement. Selon ce modèle, des sous-ensembles d'une population ancestrale exploitent des niches écologiques distinctes dans un nouvel habitat, comme différents types d'aliments. Au cours d'une seule génération, la plasticité de l'anatomie peut conduire à une amélioration de la condition physique, par exemple une capture ou une transformation plus efficace des aliments, dans chaque niche. Les variations phénotypiques nouvellement exposées seront ciblées par la sélection, et si le nouvel environnement est stable, les phénotypes plastiques pourront être canalisés par assimilation génétique. L'hypothèse est que les mécanismes moléculaires de la réponse plastique sous-tendent également l'évolution des phénotypes clés, c'est-à-dire que la variation génétique des mêmes molécules/voies de signalisation, qui permettent la plasticité, est ciblée par sélection et fixée afin de canaliser le phénotype. Dans une étude récente, le rôle de la signalisation hérisson (Hh) dans la plasticité cranio-faciale chez les téléostéens a été mis en évidence, démontrant que les niveaux de Hh ajustent la sensibilité aux signaux mécaniques liés aux conditions d'alimentation - où les changements morphologiques adaptatifs dans les structures immédiatement affectées, par exemple, le les os pharyngés, peuvent propager des changements morphologiques à d'autres structures cranio-faciales ⁴⁸ .

Des variantes ont été appelées dans pratiquement toutes les régions génétiques. Environ 99 % ont au moins une variante possible, selon les paramètres appliqués, dans le corps du gène ou 5 kb en amont/en aval (Fig. 3 B). Les gènes avec au moins une mutation ont été soumis à une analyse d'ontologie génétique (GO) pour obtenir des indications sur d'éventuels groupes fonctionnels intéressants affectés par davantage de variantes - c'est-à-dire que le nombre de variantes (ou « charge de mutation ») a été utilisé comme indicateur de la probabilité d'une mutation efficace. changements. La justification de cette approche était l'hypothèse de l'exactitude du modèle infinitésimal ou du modèle omnigénique ⁴⁹ , respectivement. On peut s'attendre à ce que les changements phénotypiques observés ne soient pas dus à quelques variantes à fort impact (généralement une région codante), mais plutôt à plusieurs variantes à « impact moindre » (dans les catégories utilisées, probablement les « variantes modificatrices » qui représentent généralement > 90 % des charge de mutation). Même si à ce stade, la pertinence de la variation dans les gènes sélectionnés n'est pas claire, tous les gènes répertoriés ont de multiples appels concernant le SMV et le SV (Fig. 3 B ), ce qui peut augmenter les chances d'influencer efficacement les phénotypes. Compte tenu des fonctions qui leur sont attribuées et rapportées dans d'autres organismes (tableau 10 ), ces gènes méritent cependant d'être étudiés. Par exemple, cinq gènes liés à la définition de la forme du nez et du menton ( DCHS2 , RUNX2 , GLI3 , PAX1 et EDAR ) ont récemment été identifiés dans une étude GWAS humaine ⁵⁰ ; plusieurs variantes de tous ces gènes ont également été trouvées entre les deux espèces. De plus, les membres des familles PAX3 , KCTD15 et TBX ( TBX1 et TBX10 , mais pas TBX15 comme indiqué précédemment) sont dans le jeu de résultats ; ces gènes ont été liés à la morphologie du visage chez l'homme dans deux autres études GWAS récentes ^51 , 52 (Tableau 10 ). Les futures analyses en aval devraient se concentrer particulièrement sur les gènes présentant des différences stables dans l’expression des gènes entre les espèces étudiées. Comme indiqué précédemment, nous nous concentrons sur les différences de formes faciales et pharyngées (voir Fig. S1 supplémentaire).). Il est intéressant de noter que cette méthode simple de comptage de variantes impartiales («charge de mutation») produit de manière reproductible les termes GO liés à la morphogenèse du viscérocrâne (voir Informations supplémentaires), sans donner une longue liste plutôt non spécifique de termes GO. Du résultat GO découle la mise en évidence de plusieurs voies de signalisation importantes : signalisation BMP (par exemple, bmp2, bmp4), signalisation Hedgehog (Hh) (par exemple, Shh, famille Gli, famille Sec, smo, med12, plcb3), signalisation de l'endothéline (par exemple , edn1, furine, famille dlx), signalisation de l'acide rétinoïque (RA) (par exemple, rere, rerea) et signalisation du facteur de croissance des fibroblastes (FGF) (par exemple, fgf8, fgf20b) (voir le tableau 10 et le tableau supplémentaire S21 ) . Tous ces réseaux de signalisation sont connus pour jouer un rôle dans la régulation de la morphogenèse faciale des vertébrés et interagissent. Il existe, par exemple, de fortes interactions coopératives et fonctionnelles entre Shh et l'acide rétinoïque ^{53 , 54 , 55 , 56 , 57 , 58} . Une analyse comparative plus approfondie de la distribution des variantes génétiques observées entre les deux espèces et de leurs phénotypes respectifs n'a pas été réalisée à ce stade ; ce sera une tâche importante pour les études de suivi.

Pour résumer, les deux nouveaux projets de génomes ajoutent deux espèces clés monophylétiques et éco-morphologiquement divergentes qui comblent une lacune phylogénétique importante. De plus, ils représentent la première ramification des cichlidés haplochromines dits modernes, la lignée la plus riche en espèces de cichlidés d’Afrique de l’Est. Tandis que les Tropheini rayonnaient dans les confins du lac Tanganyika, leurs alliés se répandaient sur plusieurs rivières pour semer des radiations supplémentaires comme celles des lacs Malawi et Victoria, où celles-ci atteignaient une diversité éco-morphologique comparable.

Méthodes

Espèces étudiées

Les spécimens échantillonnés de T. moorii sont des descendants F2 d'individus capturés dans la nature dans la partie zambienne de la rive sud-ouest du lac Tanganyika (08°38′ S 30°52′ E) près du village de Nakaku, qui ont été amenés à l'Université de Graz. en 2005. Les spécimens de P. trewavasae utilisés dans cette étude sont des descendants F1 de poissons sauvages également de la côte sud-ouest, mais plus au nord-est près du village de Katete (08°20′S 30°30′E) et ont été obtenus à partir d'un poisson d'ornement. importateur. La collecte de la génération parentale de poissons a été réalisée dans le cadre d'un protocole d'accord entre le Département des pêches, le Ministère de l'agriculture et des coopératives de Zambie, le Département des sciences biologiques de l'Université de Zambie à Lusaka, le Département de zoologie de l'Université de Graz, en Autriche, le Département d'écologie comportementale de l'Université de Berne, en Suisse, et le Département de zoologie de l'Université de Bâle, en Suisse, en vertu du permis de recherche délivré au CSt par le ministère zambien de l'Intérieur (numéro de permis :SP006515). Les données de séquence présentées ici sont basées sur des extractions d'ADN de 6 P. trewawasae et 5 T . individus moorii ; les spécimens comprenaient les deux sexes et étaient âgés d'environ un an.

Procédures de séquençage et de laboratoire

Nous avons séquencé l'ADN génomique extrait des échantillons ci-dessus à l'aide de plusieurs technologies de séquençage : Illumina HiSeq paire d'extrémités 2 × 101 pb (taille de fragment de 300 pb et 600 pb), Illumina Nextera mate-pair 2 × 100 pb (taille de fragment de 1 à 6 kpb). ), 454 Life Sciences (~ 350 pb de longueur de lecture moyenne ; taille de fragment de 8 et 20 kbps) et technologie de séquençage de molécule unique en temps réel (SMRT) de Pacific Biosciences (PacBio) (~ 8 000 à 9 000 pb de longueur de lecture moyenne après correction) .

Les méthodes liées au laboratoire (extraction d'ADN, préparation de bibliothèques et séquençage) ont, en partie, été décrites précédemment dans l'article d'accompagnement sur les génomes mitochondriaux ⁵⁹ . De plus, nous avons effectué deux cycles de séquençage en utilisant la technologie de séquençage de deuxième génération de Pacific Biosciences, basée sur un individu par espèce. L'extraction de l'ADN a été réalisée à Graz, la préparation de la bibliothèque et le séquençage au Centre de technologies génomiques de Lausanne : l'ADN a été cisaillé dans un g-TUBE Covaris (Covaris, Woburn, MA, USA) pour obtenir des fragments de 20 kpb. Après cisaillement, la distribution de la taille de l'ADN a été vérifiée sur un analyseur de fragments (Advanced Analytical Technologies, Ames, IA, USA). 5 µg d'ADN cisaillé ont été utilisés pour préparer une bibliothèque SMRTbell avec le kit de préparation de modèles PacBio SMRTbell 1 (Pacific Biosciences, Menlo Park, Californie, États-Unis) conformément aux recommandations du fabricant. La bibliothèque résultante a été sélectionnée en taille sur un système BluePippin (Sage Science, Inc. ; Beverly, MA, USA) pour les molécules de plus de 11 kpb. La bibliothèque récupérée a été séquencée sur treize/seize cellules SMRT (TM/PT) avec la chimie P6/C4 et MagBeads sur un système PacBio RSII (Pacific Biosciences, Menlo Park, CA, USA) pendant une durée de film de 240 minutes.

Pour l'ARN-seq, l'ARN total d'un individu mâle et femelle par espèce (regroupé à partir des tissus suivants : foie, rate, cerveau, cœur et muscle squelettique) a été extrait avec Trizol comme suit : les tissus ont été homogénéisés avec MagnaLyser et incubés avec Trizol- tube 5 min à température ambiante (RT) ; 200 µl de chloroforme (/ml de Trizol) ont été ajoutés et secoués vigoureusement pendant 15 s, incubés pendant 2 à 3 min/RT et centrifugés à 12 200 tr/min/4 °C/15 min ; le surnageant a été transféré dans un nouveau tube de 1,5 ml et 500 µl d'isopropanol (/ml de Trizol) ont été ajoutés ; après vortex, incubation pendant 10 min/RT, centrifugation à 12 200 tr/min/4 °C/10 min, le surnageant a été jeté et le culot placé immédiatement sur la glace. Les culots ont été lavés 2 fois : ajouter 1 ml d'EtOH à 80 % (-20 °C), centrifuger : pleine vitesse/4 °C/5 min, éliminer le surnageant et enfin séchés à 37 °C. Les culots séchés ont été remis en suspension dans 20 µl d'eau distillée. Les bibliothèques d'ARN-seq ont été dérivées d'ARN total appauvri en ARNr, normalisé et séquencé sur une seule voie Illumina HiSeq 2500 par espèce.

(Pré)traitement général des données

Tout le pipeline et le traitement de niveau supérieur ont été effectués avec R/Bioconductor, quelques pipelines mineurs dans Bash et certaines fonctionnalités de pointe ont été écrites en C ++ (appelées depuis R). Pour plus de détails sur les réglages des paramètres pour les étapes/outils importants, voir le tableau supplémentaire S22 .

FastQC v0.10.1 ⁶⁰ a été utilisé pour l'évaluation de base de la qualité de lecture. Une approche personnalisée basée sur le spectre k-mer utilisant JELLYFISH v2.0 ⁶¹ (en conjonction avec une base de données de séquences techniques connues) et une approche basée sur De Bruijn (implémentée dans Minion à partir du package Kraken v13-274 ⁶² ) ont été utilisées pour le identification automatique des contaminants techniques et des séquences suspectes (en fonction des fréquences attendues). De plus, FastQScreen v0.4.4 ⁶³ a été utilisé pour l'identification spécifique à l'espèce de la contamination biologique et DeconSeq v0.4.3 ⁶⁴ pour sa suppression. Cutadapt v1.5 ⁶⁵ a été utilisé pour l'élimination des contaminants techniques, Scythe v0.994 ⁶⁶ pour un découpage supplémentaire de l'adaptateur 3', CLC Quality Trim v4.2 ⁶⁷ pour un découpage de lecture basé sur le score de qualité et Reaper v13-274 ⁶² pour une meilleure qualité. et un filtrage basé sur la complexité. BBmerge v33.40 ⁶⁸ a été utilisé pour la fusion de lectures appariées superposées et FastUniq v1.1 ⁶⁹ pour la suppression des doublons. Nextclip v1.2 ⁷⁰ a été utilisé pour le filtrage et la classification de lecture des paires de partenaires Nextera. 454 ensembles de données ont également été filtrés avec sffToCA (utilitaire Celera Assembler). BAMtools v2.4.0 ⁷¹ , SAMtools/BCFtools/HTSlib v1.4 ⁷² et les outils Picard v1.119 ⁷³ ont été utilisés pour le mappage et les manipulations de fichiers de séquence telles que l'indexation, la fusion, le tri et la génération de sous-ensembles, la suppression des lectures en double et la suppression. de contamination PE à partir de bibliothèques MP dans des fichiers de séquence. Proovread v2.13.10 ⁷⁴ a été utilisé pour la correction de lecture PacBio en utilisant toutes les données Illumina PE disponibles et les unitigs créés par MaSuRCA v2.3.2 ⁷⁵ . SEECER v0.1.3 ⁷⁶ et Rcorrector v1.0.2 ⁷⁷ ont été utilisés pour RNA-seq et Musket v1.1 ⁷⁸ pour la correction des appels de base ADN-seq. Les ensembles de données DNA-seq et RNA-seq ont été prétraités en utilisant le même pipeline (avec des paramètres différents) ; en général, deux régimes de filtrage ont été appliqués à chaque ensemble de données (« strict »/« standard » et « détendu ») en préparation de différents cas d'utilisation en aval (voir le tableau supplémentaire S22 ). La taille du génome a été estimée par une approche basée sur le spectre k-mer mise en œuvre dans GCE v1.0.2 ⁷⁹ .

Assemblage du génome

Du point de vue du méta-assemblage réalisé, l'algorithme implémenté dans MaSuRCA v2.3.2 ⁷⁵ (utilise Celera Assembler v6.5 ⁸⁰ ) a servi de procédure d'assemblage de base ; Tous les ensembles de données disponibles à l'heure actuelle (c'est-à-dire Illumina PE et MP, Illumina Nextera MP et 454 MP et SE) ont été utilisés. Celera Assembler v8.3rc2 (CA) ⁸⁰ a été utilisé pour les assemblages « PacBio uniquement ». Comme plusieurs individus par espèce (tous des diploïdes non consanguins) ont été séquencés dans ce projet, l'hétérozygotie était une préoccupation. Par conséquent, des algorithmes d'assemblage spécialement conçus pour mieux gérer la divergence ont été incorporés dans l'approche de reconstruction : Platanus v1.2.1⁸¹ est un assembleur récent conçu pour traiter de manière plus judicieuse les problèmes d'hétérozygotie dans les données génomiques (5 itérations ; tous les ensembles de données Illumina ont été utilisés) ; Redundans v0.12c ⁸² (utilise SSPACE3 ⁸³ , GapCloser ⁸⁴ , bwa ⁸⁵ et last ⁸⁶ ) vise également à fournir des assemblages plus précis et contigus de génomes hautement hétérozygotes (5 itérations ; tous les ensembles de données Illumina ont été utilisés). La suite PBJelly v15.8.24 ⁸⁷ (utilise BLASR ⁸⁸ ) a été utilisée pour incorporer les lectures à séquence longue (PacBio) dans un processus d'assemblage guidé par référence dans les ébauches établies (5 itérations). L'ensemble diversifié de projets de génome générés a été soumis à Metassembler ⁸⁹ dans le but de générer des séquences consensus de haute qualité. Un algorithme personnalisé, qui prend en compte plusieurs mesures sur les erreurs d'assemblage probables, la contiguïté et les prédictions génétiques (tirant des informations de QUAST ⁹⁰ et REAPR ³⁸ ), a été appliqué pour déterminer le meilleur ordre des méta-assemblages successifs.

Finition du génome

Pour une autre série de fermeture de l'espace entre les échafaudages, GMcloser ⁹¹ (utilise Nucmer ⁹² / BLAST ⁹³ etBowtie2 ⁹⁴ ) a été appliqué sur les méta-assemblages avec les données PacBio et Illumina PE. Enfin, Sealer ⁹⁵ (utilise Konnector , une partie du pipeline assembleur ABYSS ^{96
) a été utilisé avec les bibliothèques Illumina
PE (libérales) pour le remplissage final des
lacunes et une finition personnalisée du génome}⁴² basée sur GATK (via la rétro-cartographie Illumina PE et le rappel de consensus) a été appliquée.

Validation du génome

REAPR v1.0.18 ³⁸ (utilisant SMALT v0.7.0.1 ⁹⁷ ) a été utilisé avec les bibliothèques Illumina Nextera mate-pair (6 kpb) et Illumina PE (600 pb) pour évaluer l'exactitude des assemblages et QUAST v4.1 90 a ^été appliqué pour les statistiques de contiguïté et de prédiction génétique. L'exhaustivité des assemblages a été évaluée à l'aide de CEGMA v2.5 ³⁵ (en utilisant GeneWise v2.4.1 ⁹⁸ , HMMER v3.0 ⁹⁹ et NCBI BLAST + v2.2.29 + ⁹³ ) avec optimisation des paramètres pour les génomes de vertébrés (–vrt) et BUSCO v3.0.2 ³⁴ (en utilisant NCBI BLAST + v2.2.29 + , HMMER v3.1 ⁹⁹ et AUGUSTUS v3.2.1 ¹⁰⁰ ).

Assemblage du transcriptome et cartographie des lectures d'ARN-seq

Les assemblages du transcriptome ont été réalisés avec Trinity v2.3.2 ^101 , 102 et le pipeline PASA2 v2.0.2 ¹⁰³ (en utilisant GMAP v2014-12-06 ¹⁰⁴ , BLAT v36.1 ¹⁰⁵ et MySQL v5.7.12 ¹⁰⁶ ) ; ^{Transdecoder
v3.0.1 102} a également été appliqué pour identifier les régions codantes candidates (utilisées avec MAKER3 ¹⁰⁷ ). Les alignements de lecture d'ARN-seq pour d'autres analyses ont généralement été effectués avec STAR v2.4.2a ¹⁰⁸ en utilisant les paramètres par défaut.

Annotation du génome

Des annotations structurelles ont été réalisées sur la base de données expérimentales provenant d'ensembles de données d'ARNm-Seq. De plus, des informations ont été tirées de modèles de transcription et de protéines provenant d'ensembles de données sélectionnés accessibles au public ( Danio rerio , H. burtoni, M. zebra, N. brichardi, O. niloticus et P. nyererei ) et d'autres modèles dans UniProt | , nr/nt et UniRef90|teleost. L'annotation fonctionnelle a été principalement réalisée via des comparaisons basées sur BLAST avec les bases de données mentionnées et via une multitude de bases de données coordonnées par InterProScan 5 (voir Tableau 2 ).

L'annotation structurelle des gènes codants et des ARNt a été générée à l'aide des pipelines MAKER v3.0 ¹⁰⁷ (en utilisant les chercheurs de gènes GeneMark-ES v4.32 ¹⁰⁹ , AUGUSTUS v3.2.1 ¹⁰⁰ , SNAP v2013-11–29 ¹¹⁰ et tRNAscan v1.3.1 ¹¹¹ ) , Funannotate v0.5.5-v0.7.0 ¹¹² (FA) et BRAKER1 v1.9 ¹¹³ (utilisant GeneMark-ET v4.32 ¹¹⁴ et AUGUSTUS v3.2.1 ¹⁰⁰ ) ; BRAKER1 a également été utilisé pour la formation AUGUSTUS. De plus, des modèles génétiques ont été créés avec StringTie v1.3.2d ¹¹⁵ et Cufflinks v2.2.1 ¹¹⁶ . Tous les modèles ont été combinés par EVidenceModeler v1.1.1 ¹¹⁷ (EVM) sous le contrôle de MAKER3. Pour les ARN non codants, Infernal v1.1.2 ¹¹⁸ , Rfam v12.1 ¹¹⁹ et FEELnc v0.1.0 ¹²⁰ ont été utilisés. L'ensemble de formation d'ARNm pour FEELnc a été dérivé des données d'annotation FA/MAKER, où des modèles de gènes présumés « bons » avec une structure similaire aux modèles précédemment publiés ont été sélectionnés ; l'ensemble de formation lncRNA a été généré par mélange des séquences d'ARNm. Les microsatellites ont été appelés avec MISA v1.0 ¹²¹ , les îles CpG avec EMBOSS v6.6.0 ¹²² cpgplot et les ORF avec EMBOSS v6.6.0 getorf (et post-traitement R). Les répétitions ont été déterminées à l'aide de RepeatMasker v4.0.6 ³² (avec RepBase v20160321 ¹²³ et de bibliothèques spécifiques aux espèces générées avec RepeatModeler v1.0.8 ¹²⁴ ), RepeatScout v1.0.5 ¹²⁵ et TRF v406 ¹²⁶ .

L'annotation fonctionnelle a été réalisée à l'aide d'InterProScan v5.24–63.0 ¹²⁷ (en utilisant les bases de données CDD-3.14, Coils-2.2.1, Gene3D-3.5.0, Hamap-201605.11, MobiDBLite-1.0, PANTHER-11.1, Pfam-30.0, PIRSF- 3.01, PRINTS-42.0, ProDom-2006.1, ProSitePatterns-20.119, ProSiteProfiles-20.119, SFLD-2, SMART-7.1, SUPERFAMILY-1.75, TIGRFAM-15.0 et TMHMM-2.0c). De plus, sous le contrôle de FA, les bases de données eggNOG v4.5.1 ¹²⁸ (fiNOG), MEROPS v12.0 ¹²⁹ , dbCAN v5.0 ¹³⁰ et BUSCO vertebrata v3 ³⁴ ont été utilisées pour les recherches de similarité et SIGNALP v4.1 ¹³¹ pour l'identification de l'emplacement cible. séquences de signaux.

L'intégration finale de toutes les annotations a été réalisée avec R 3.4.3/Bioconductor 3.6 en utilisant les packages data.table 1.12.2, GenomicFeatures 1.30.3, VariantAnnotation 1.24.5 et leurs dépendances.

Cartographie de lecture de séquences d'ADN

Les lectures prétraitées ont été alignées en mode paire avec BWA mem ⁸⁵ en utilisant les paramètres par défaut avec les indicateurs ‐M et ‐R. Les lectures alignées ont été triées par coordonnées avec Picard SortSam v1.119 ⁷³ et indexées avec l'index SAMtools v1.4 ⁷² . Les doublons ont été supprimés avec Picard MarkDuplicates v1.119. La qualité des cartographies a été évaluée avec QualiMap v2.0 ¹³² .

Analyse comparative – appel de petites (SMV) et de variantes structurelles (SV) – prédiction de l'effet des variantes

La boîte à outils d'analyse du génome (GATK) v3.7 a été utilisée pour le réalignement local des lectures ainsi que pour la détection et le filtrage des variantes SNP/InDel (appelées petites variantes, SMV) ⁴² , comme recommandé par la documentation GATK ; le HaplotypeCaller a été appliqué - avec un score minimum pour l'émission de variantes de 10, pour l'appel de 30 et un élagage minimum de 10. Les SMV avec un score de qualité ≥ 30 ont été inclus dans des analyses plus approfondies. DELLY v0.7.7 ⁴³ a été appliqué pour appeler des variantes structurelles (SV, insertions, suppressions, duplications, inversions et translocations) avec une taille limite d'insertion de 3 (pour les suppressions) et une qualité minimale de mappage des extrémités appariées de 20. Toutes les variantes avec un minimum de 5 paires de lectures brisées prenant en charge la variante ainsi qu'une longueur minimale de 300 pb (pour les suppressions, les inversions et les duplications) ont été incluses dans des analyses plus approfondies, comme recommandé par la documentation DELLY. Des effets de variantes présumés ont été appelés avec SNPeff v4.3r ³⁷ . Whippet v0.11.1 ¹³³ a été utilisé pour l'appel d'événements d'épissage alternatifs. Les analyses comparatives ont été effectuées dans R 3.4.3/Bioconductor 3.6 en utilisant les packages data.table 1.12.2, GenomicFeatures 1.30.3, VariantAnnotation 1.24.5 et leurs dépendances.

Analyse GO

Pour affiner la liste des gènes candidats, une analyse d'enrichissement GO a été réalisée sur les régions génétiques portant des variants à l'aide du package R topGO v2.30.1 ¹³⁴ ; les annotations GO personnalisées ont été générées sur la base des mappages InterProScan. La topologie GO a été prise en compte ( poids de la méthode ) et l'enrichissement a été évalué via un test exact de Fisher avec un seuil de p ≤ 0,001. Voir les détails de l'analyse GO dans les informations supplémentaires.

Approbation éthique et consentement à participer

Le traitement des animaux rapporté dans cet article est conforme aux normes de la loi autrichienne sur la protection des animaux et de la directive communautaire 86/609 de la Communauté européenne. Les poissons ont été conservés dans notre aquarium certifié à l'Institut de biologie de l'Université de Graz. Les individus ont été échantillonnés par CSt et SK, euthanasiés à l'aide d'une surdose d'huile de clou de girofle et décapités conformément à la législation autrichienne sur le bien-être des animaux. Conformément à la loi autrichienne sur l'expérimentation animale (TVG, BGBI. Nr. 501/1989, modifiée en dernier lieu par BGBI. I Nr. 162/2005), l'approbation n'était pas requise car aucun traitement expérimental n'était effectué.

Consentement à la publication

N'est pas applicable.

Disponibilité des données

Les ébauches du génome ont été téléchargées sur EBI, TM : [GCA_902810505], PT : [GCA_902810495] ; ^{les
assemblages du génome et du transcriptome
(FASTA), les annotations structurelles et
fonctionnelles (GFF3), les mappages de lecture
(BAM) et les fichiers de piste IGV 33} supplémentaires sont disponibles sur https://cichlidgenomes.tugraz.at .

Les références

Van der Laan, R. & Fricke, Catalogue des noms de groupes familiaux de poissons de R. Eschmeyer. http://www.calacademy.org/scientists/catalog-of-fishes-family-group-names (2020).
Greenwood, PH cichlidés africains et théories évolutionnistes. Dans Evolution of Fish Species Flock (éd. Echelle, AA & Kornfield, I.) 141-154 (Université du Maine à Orono Press, Orono, 1984).

Google Scholar
Muschick, M., Indermaur, A. & Salzburger, W. Evolution convergente au sein d'un rayonnement adaptatif de poissons cichlidés. Curr. Biol. 22 , 2362-2368 (2012).

Article CAS PubMed Google Scholar
Wagner, CE, Harmon, LJ et Seehausen, O. L'opportunité écologique et la sélection sexuelle prédisent ensemble le rayonnement adaptatif. Nature 487 , 366-369 (2012).

Article LES PUBLICITÉS CAS PubMed Google Scholar
Tiercelin, J.-J. & Mondeguer, A. La géologie de la fosse du Tanganyika. Dans Lake Tanganyika and its Life (éd. Coulter, GW) 7–48 (Oxford University Press, Oxford, 1991).

Google Scholar
Irisarri, I. et coll. La phylogénomique révèle une hybridation précoce et des loci adaptatifs façonnant le rayonnement des poissons cichlidés du lac Tanganyika. Nat. Commun. 9 , 3159 (2018).

Article LES PUBLICITÉS PubMed PubMed Central CAS Google Scholar
Salzburger, W., Meyer, A., Baric, S., Verheyen, E. et Sturmbauer, C. Phylogénie du troupeau d'espèces de cichlidés du lac Tanganyika et sa relation avec les faunes de poissons cichlidés haplochromines d'Afrique centrale et orientale. Système. Biol. 51 , 113-135 (2002).

Article PubMed Google Scholar
Salzburger, W., Mack, T., Verheyen, E. & Meyer, A. Hors du Tanganyika : genèse, spéciation explosive, innovations clés et phylogéographie des poissons cichlidés haplochromines. BMC Évol. Biol. 5 , 17 (2005).

Article PubMed PubMed Central Google Scholar
Koblmüller, S. et al. Âge et répartition des poissons cichlidés haplochromines en Afrique. Mol. Phylogène. Évol. 49 , 153-169 (2008).

Article PubMed CAS Google Scholar
Sturmbauer, C., Salzburger, W., Duftner, N., Schelly, R. & Koblmüller, S. Histoire évolutive de la tribu des cichlidés du lac Tanganyika Lamprologini (Teleostei : Perciformes) dérivée de données d'ADN mitochondrial et nucléaire. Mol. Phylogène. Évol. 57 , 266-284 (2010).

Article CAS PubMed PubMed Central Google Scholar
Sturmbauer, C., Levinton, JS & Christy, J. Analyse de la phylogénie moléculaire des crabes violonistes : test de l'hypothèse d'une complexité comportementale croissante au cours de l'évolution. Proc. Natl. Acad. Sci. États-Unis 93 , 10855-10857 (1996).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Joyce, DA et coll. Un rayonnement de poisson cichlidé existant a émergé dans un lac du Pléistocène éteint. Nature 435 , 90-95 (2005).

Article LES PUBLICITÉS CAS PubMed Google Scholar
Katongo, C., Koblmüller, S., Duftner, N., Mumba, L. & Sturmbauer, C. Histoire évolutive et affinités biogéographiques des cichlidés serranochromines dans les rivières zambiennes. Mol. Phylogène. Évol. 45 , 326-338 (2007).

Article CAS PubMed Google Scholar
Sturmbauer, C., Koblmüller, S., Sefc, KM & Duftner, N. Histoire phylogéographique du genre Tropheus , une lignée de poissons cichlidés rocheux endémiques du lac Tanganyika. Hydrobiologie 542 , 335-366 (2005).

Article Google Scholar
Meier, JI et coll. L’hybridation ancienne alimente les radiations adaptatives rapides des poissons cichlidés. Nat. Commun. 8 , 14363 (2017).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Svardal, H. et coll. L'hybridation ancestrale a facilité la diversification des espèces dans le rayonnement adaptatif des poissons cichlidés du lac Malawi. Mol. Biol. Évol. 37 , 1100-1113 (2020).

Article PubMed Google Scholar
Kullander, SO & Roberts, TR Hors du Tanganyika : les poissons de lac endémiques habitent les rapides de la rivière Lukuga. Ichtyol. Explorer. Fraîchement. 22 , 355-376 (2011).

Google Scholar
West-Eberhard, M.-J. Plasticité développementale et évolution (Oxford University Press, Oxford, 2003).

Livre Google Scholar
Rossiter, A. Les assemblages de poissons cichlidés du lac Tanganyika : écologie, comportement et évolution de ses troupeaux d'espèces. Dans Advances in Ecological Research (eds Begon, M. & Fitter, AH) 187-252 (Academic Press Ltd., Londres, 1995).

Google Scholar
Malinsky, M. et coll. Les séquences du génome entier des cichlidés du Malawi révèlent de multiples radiations interconnectées par le flux génétique. Nat. Écol. Évol. 2 , 1940-1955 (2018).

Article PubMed PubMed Central Google Scholar
Brawand, D. et al. Le substrat génomique pour le rayonnement adaptatif chez les poissons cichlidés africains. Nature 513 , 375-381 (2014).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Liem, KF Stratégies évolutives et innovations morphologiques : Mâchoires pharyngées des cichlidés. Système Biol. 22 , 425-441 (1973).

Google Scholar
Carleton, KL, Dalton, BE, Escobar-Camacho, D. & Nandamuri, SP Causes immédiates et ultimes des sensibilités visuelles variables : aperçus des radiations des poissons cichlidés. Genèse 54 , 299-325 (2016).

Article PubMed PubMed Central Google Scholar
Maan, ME & Sefc, KM Variation de couleur chez les poissons cichlidés : mécanismes de développement, pressions sélectives et conséquences évolutives. Semin. Cellule. Dév. Biol. 24 , 516-528 (2013).

Article PubMed PubMed Central Google Scholar
Salzburger, W. Comprendre la diversification explosive grâce à la génomique des poissons cichlidés. Nat. Révérend Genet. 19 , 705-717 (2018).

Article CAS PubMed Google Scholar
Malinsky, M. Andinoacara coeruleopunctatus Passerelle du navigateur génomique. http://em-x1.gurdon.cam.ac.uk/cgi-bin/hgGateway?hgsid=6400&clade=vertebrate&org=A.+coeruleopunctatus&db=0 (2015).
Conté, MA et al. Les assemblages à l'échelle chromosomique révèlent l'évolution structurelle des génomes des cichlidés africains. GigaScience 8 , giz030 (2019).

Article PubMed PubMed Central CAS Google Scholar
Thibaud-Nissen, F. et al. P8008 le pipeline d'annotation du génome eucaryote NCBI. J.Anim. Sci. 94 , 184 (2016).

Article Google Scholar
Zerbino, DR et coll. Ensembl 2018. Acides Nucléiques Res. 46 , D754-D761 (2018).

Article CAS PubMed Google Scholar
Conte, MA, Gammerdinger, WJ, Bartie, KL, Penman, DJ & Kocher, TD Un assemblage de haute qualité du génome du tilapia du Nil ( Oreochromis niloticus ) révèle la structure de deux régions de détermination du sexe. bioRxiv https://doi.org/10.1101/099564 (2017).
Vij, S. et coll. Assemblage au niveau chromosomique du génome du bar asiatique à l'aide de lectures de séquences longues et d'un échafaudage multicouche. PLoS Genet. 12 , e1005954 (2016).

Article PubMed PubMed Central CAS Google Scholar
Smit, AFA, Hubley, R. et Green, P. RepeatMasker Open-4.0. http://www.repeatmasker.org (2015).
Robinson, JT et coll. Visionneuse de génomique intégrative. Nat. Biotechnologie. 29 , 24-26 (2011).

Article CAS PubMed PubMed Central Google Scholar
Simão, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV & Zdobnov, EM BUSCO : Évaluation de l'assemblage du génome et de l'exhaustivité des annotations avec des orthologues à copie unique. Bioinformatique 31 , 3210-3212 (2015).

Article PubMed CAS Google Scholar
Parra, G., Bradnam, K. & Korf, I. CEGMA : Un pipeline pour annoter avec précision les gènes centraux des génomes eucaryotes. Bioinformatique 23 , 1061-1067 (2007).

Article CAS PubMed Google Scholar
Dohmen, E., Kremer, LPM, Bornberg-Bauer, E. & Kemena, C. DOGMA : Évaluation de la qualité du transcriptome et du protéome basé sur le domaine. Bioinformatique 32 , 2577-2581 (2016).

Article CAS PubMed Google Scholar
Cingolani, P. et al. Un programme pour annoter et prédire les effets des polymorphismes mononucléotidiques, SnpEff. Mouche 6 , 80-92 (2012).

Article CAS PubMed PubMed Central Google Scholar
Hunt, M. et coll. REAPR : un outil universel pour l’évaluation de l’assemblage du génome. Génome Biol. 14 , R47 (2013).

Article PubMed PubMed Central Google Scholar
Asalone, KC et al. Expansion ou effondrement de séquences régionales dans les assemblages génomiques hétérozygotes. Calcul PLoS. Biol. 16 , e1008104 (2020).

Article CAS PubMed PubMed Central Google Scholar
Conte, MA & Kocher, TD Une référence génomique améliorée pour le zèbre cichlidé africain Metriaclima . BMC Génomique 16 , 724 (2015).

Article PubMed PubMed Central CAS Google Scholar
Finn, RD et coll. La base de données des familles de protéines Pfam. Acides nucléiques Res. 38 , D211-D222 (2010).

Article CAS PubMed Google Scholar
McKenna, A. et coll. La boîte à outils d'analyse du génome : un cadre MapReduce pour analyser les données de séquençage de l'ADN de nouvelle génération. Génome Res. 20 , 1297-1303 (2010).

Article CAS PubMed PubMed Central Google Scholar
Rausch, T. et coll. DELLY : Découverte de variantes structurelles par analyse intégrée des extrémités appariées et des lectures fractionnées. Bioinformatique 28 , i333–i339 (2012).

Article CAS PubMed PubMed Central Google Scholar
Liu, Y. et coll. Comparaison de plusieurs algorithmes pour détecter de manière fiable les variantes structurelles des poires. BMC Génomique 21 , 61 (2020).

Article PubMed PubMed Central Google Scholar
Supernat, A., Vidarsson, OV, Steen, VM et Stokowy, T. Comparaison de trois variantes d'appelants pour le séquençage du génome humain entier. Sci. Rep.8 , 17851 (2018).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
McCarthy, DJ et coll. Le choix des transcriptions et des logiciels a un effet important sur l'annotation des variantes. Génome Med. 6 , 26 (2014).

Article PubMed PubMed Central Google Scholar
Gunter, HM, Schneider, RF, Karner, I., Sturmbauer, C. & Meyer, A. Enquête moléculaire sur l'assimilation génétique lors des radiations adaptatives rapides des poissons cichlidés d'Afrique de l'Est. Mol. Écol. 26 , 6634-6653 (2017).

Article CAS PubMed Google Scholar
Navon, D. et coll. La signalisation hérisson est nécessaire et suffisante pour assurer la médiation de la plasticité cranio-faciale chez les téléostéens. Proc. Natl. Acad. Sci. États-Unis 117 , 19321-19327 (2020).

Article CAS PubMed PubMed Central Google Scholar
Boyle, EA, Li, YI & Pritchard, JK Une vision élargie des traits complexes : du polygénique à l'omnigénique. Cellule 169 , 1177-1186 (2017).

Article CAS PubMed PubMed Central Google Scholar
Adhikari, K. et al. Une analyse d'association à l'échelle du génome implique DCHS2, RUNX2, GLI3, PAX1 et EDAR dans la variation faciale humaine. Nat. Commun. 7 , 11616 (2016).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Liu, F. et al. Une étude d'association à l'échelle du génome identifie cinq loci influençant la morphologie du visage chez les Européens. PLoS Genet. 8 , e1002932 (2012).

Article CAS PubMed PubMed Central Google Scholar
Claes, P. et al. Cartographie à l'échelle du génome des effets génétiques mondiaux à locaux sur la forme du visage humain. Nat. Genet. 50 , 414-423 (2018).

Article CAS PubMed PubMed Central Google Scholar
Lupo, G., Harris, WA et Lewis, KE Mécanismes de structuration ventrale dans le système nerveux des vertébrés. Nat. Révérend Neurosci. 7 , 103-114 (2006).

Article CAS PubMed Google Scholar
Dworkin, S., Boglev, Y., Owens, H. & Goldie, SJ Le rôle du hérisson sonique dans la structuration craniofaciale, la morphogenèse et la survie de la crête neurale crânienne. J. Dev. Biol. 4 , 24 (2016).

Article PubMed Central Google Scholar
Szabo-Rogers, HL, Smithers, LE, Yakob, W. & Liu, KJ Nouvelles orientations dans la morphogenèse craniofaciale. Dév. Biol. 341 , 84-94 (2010).

Article CAS PubMed Google Scholar
Zhou, H., Kim, S., Ishii, S. & Boyer, TG Mediator module la signalisation Sonic hedgehog dépendante de Gli3. Mol. Biol cellulaire. 26 , 8667-8682 (2006).

Article CAS PubMed PubMed Central Google Scholar
Vilhais-Neto, GC et al. Rere contrôle la signalisation de l'acide rétinoïque et la symétrie bilatérale des somites. Nature 463 , 953-957 (2010).

Article LES PUBLICITÉS CAS PubMed Google Scholar
Clouthier, DE, Garcia, E. & Schilling, TF Régulation de la morphogenèse faciale par la signalisation de l'endothéline : aperçus des souris et des poissons. Suis. J.Méd. Genet. Un 152A , 2962-2973 (2010).

Article PubMed PubMed Central Google Scholar
Fischer, C. et coll. Séquences complètes d'ADN mitochondrial du cichlidé Threadfin ( Petrochromis trewavasae ) et du cichlidé Blunthead ( Trophée moorii ) et modèles d'évolution du génome mitochondrial chez les poissons cichlidés. PLoS ONE 8 , e67048 (2013).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Andrews, S. FastQC Un outil de contrôle qualité pour les données de séquence à haut débit. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2016).
Marçais, G. & Kingsford, C. Une approche rapide et sans verrouillage pour un comptage parallèle efficace des occurrences de k-mers. Bioinformatique 27 , 764-770 (2011).

Article PubMed PubMed Central CAS Google Scholar
Davis, MPA, van Dongen, S., Abreu-Goodger, C., Bartonicek, N. & Enright, AJ Kraken : Un ensemble d'outils pour le contrôle qualité et l'analyse des données de séquence à haut débit. Méthodes 63 , 41–49 (2013).

Article CAS PubMed PubMed Central Google Scholar
Wingett, SW & Andrews, S. FastQ Screen : Un outil pour la cartographie multi-génome et le contrôle qualité. F1000Rés. 7 , 1338 (2018).

Article PubMed PubMed Central Google Scholar
Schmieder, R. & Edwards, R. Identification et suppression rapides de la contamination des séquences des ensembles de données génomiques et métagénomiques. PLoS ONE 6 , e17288 (2011).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Martin, M. Cutadapt supprime les séquences d'adaptateur des lectures de séquençage à haut débit. EMBnet J. 17 , 10-12 (2011).

Article Google Scholar
Buffalo, V. Faux. https://github.com/vsbuffalo/scythe (2014).
Cellule d'assemblage CLCbio. https://www.quiagenbioinformatics.com/products/clc-assembly-cell (2015).
Bushnell, B., Rood, J. et Singer, E. BBMerge : fusion précise de lectures de fusils de chasse couplées via chevauchement. PLoS ONE 12 , e0185056 (2017).

Article PubMed PubMed Central CAS Google Scholar
Xu, H. et al. FastUniq : un outil de suppression rapide des doublons de novo pour les lectures courtes appariées. PLoS ONE 7 , e52249 (2012).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Leggett, RM, Clavijo, BJ, Clissold, L., Clark, MD & Caccamo, M. NextClip : Un outil d'analyse et de préparation à la lecture pour les bibliothèques Nextera Long Mate Pair. Bioinformatique 30 , 566-568 (2014).

Article CAS PubMed Google Scholar
Barnett, DW, Garrison, EK, Quinlan, AR, Strömberg, MP & Marth, GT BamTools : une API C++ et une boîte à outils pour analyser et gérer les fichiers BAM. Bioinformatique 27 , 1691-1692 (2011).

Article CAS PubMed PubMed Central Google Scholar
Li, H. et coll. La séquence Format Alignement/Carte et SAMtools. Bioinformatique 25 , 2078-2079 (2009).

Article PubMed PubMed Central CAS Google Scholar
Outils Picard du Broad Institute. https://github.com/broadinstitute/picard (2016).
Hackl, T., Hedrich, R., Schultz, J. & Förster, F. proovread : correction PacBio de haute précision à grande échelle grâce à un consensus itératif de lecture courte. Bioinformatique 30 , 3004-3011 (2014).

Article CAS PubMed PubMed Central Google Scholar
Zimin, AV et coll. L'assembleur du génome MaSuRCA. Bioinformatique 29 , 2669-2677 (2013).

Article CAS PubMed PubMed Central Google Scholar
Le, HS, Schulz, MH, McCauley, BM, Hinman, VF et Bar-Joseph, Z. Correction d'erreur probabiliste pour le séquençage de l'ARN. Acides nucléiques Res. 41 , e109 (2013).

Article CAS PubMed PubMed Central Google Scholar
Song, L. & Florea, L. Rcorrector : correction d'erreur efficace et précise pour les lectures Illumina RNA-seq. GigaScience 4 , 48 (2015).

Article PubMed PubMed Central CAS Google Scholar
Liu, Y., Schröder, J. & Schmidt, B. Musket : Un correcteur d'erreurs à plusieurs étages basé sur le spectre k-mer pour les données de séquence Illumina. Bioinformatique 29 , 308-315 (2013).

Article CAS PubMed Google Scholar
Liu,B. et coll. Estimation des caractéristiques génomiques par analyse de la fréquence k-mer dans les projets génomiques de novo . arXiv : 1308.2012 (2013).
Denisov, G. et al. Génération de consensus et détection de variantes par Celera Assembler. Bioinformatique 24 , 1035-1040 (2008).

Article CAS PubMed Google Scholar
Kajitani, R. et al. Assemblage de novo efficace de génomes hautement hétérozygotes à partir de courtes lectures de fusil de chasse du génome entier. Génome Res. 24 , 1384-1395 (2014).

Article CAS PubMed PubMed Central Google Scholar
Pryszcz, LP & Gabaldón, T. Redundans : Un pipeline d'assemblage pour les génomes hautement hétérozygotes. Acides nucléiques Res. 44 , e113 (2016).

Article PubMed PubMed Central CAS Google Scholar
Boetzer, M., Henkel, CV, Jansen, HJ, Butler, D. et Pirovano, W. Échafaudage de contigs pré-assemblés à l'aide de SSPACE. Bioinformatique 27 , 578-579 (2011).

Article CAS PubMed Google Scholar
Luo, R. et coll. SOAPdenovo2 : un assembleur de novo à lecture courte et économe en mémoire, amélioré empiriquement. GigaScience 1 , 18 (2012).

Article PubMed PubMed Central Google Scholar
Li, H. & Durbin, R. Alignement rapide et précis des lectures courtes avec la transformation Burrows – Wheeler. Bioinformatique 25 , 1754-1760 (2009).

Article CAS PubMed PubMed Central Google Scholar
Frith, MC, Wan, R. & Horton, P. L'intégration de données de qualité de séquence dans l'alignement améliore la cartographie des lectures d'ADN. Acides nucléiques Res. 38 , 100 euros (2010).

Article PubMed PubMed Central CAS Google Scholar
Anglais, AC et al. Attention à l'écart : mise à niveau des génomes grâce à la technologie de séquençage à lecture longue de Pacific Biosciences RS. PLoS ONE 7 , e47768 (2012).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Chaisson, MJ & Tesler, G. Cartographie des lectures de séquençage de molécules uniques en utilisant l'alignement local de base avec raffinement successif (BLASR) : application et théorie. BMC Bioinformer. 13 , 238 (2012).

Article CAS Google Scholar
Wences, AH & Schatz, MC Metassembler : Fusion et optimisation des assemblages génomiques de novo. Génome Biol. 16 , 207 (2015).

Article PubMed PubMed Central CAS Google Scholar
Gurevich, A., Saveliev, V., Vyahhi, N. & Tesler, G. QUAST : Outil d'évaluation de la qualité des assemblages de génomes. Bioinformatique 29 , 1072-1075 (2013).

Article CAS PubMed PubMed Central Google Scholar
Kosugi, S., Hirakawa, H. et Tabata, S. GMcloser : combler les lacunes dans les assemblages avec précision grâce à une sélection basée sur la vraisemblance d'alignements contig ou à lecture longue. Bioinformatique 31 , 3733-3741 (2015).

CAS PubMed Google Scholar
Kurtz, S. et coll. Logiciel polyvalent et ouvert pour comparer de grands génomes. Génome Biol. 5 , R12 (2004).

Article PubMed PubMed Central Google Scholar
Camacho, C. et coll. BLAST+ : Architecture et applications. BMC Bioinformatique 10 , 421 (2009).

Article PubMed PubMed Central CAS Google Scholar
Langmead, B. & Salzberg, SL Alignement rapide à lecture espacée avec Bowtie 2. Nat. Méth. 9 , 357-359 (2012).

Article CAS Google Scholar
Paulino, D. et al. Sealer : une application évolutive permettant de combler les lacunes pour la finition des projets de génomes. BMC Bioinformer. 16 , 230 (2015).

Article Google Scholar
Simpson, JT et coll. ABySS : un assembleur parallèle pour les données de séquences de lecture courtes. Génome Res. 19 , 1117-1123 (2009).

Article CAS PubMed PubMed Central Google Scholar
Ponstingl, H. et Ning, Z. SMALT. https://www.sanger.ac.uk/science/tools/smalt-0 (2018).
Birney, E., Clamp, M. et Durbin, R. GeneWise et génomewise. Génome Res. 14 , 988-995 (2004).

Article CAS PubMed PubMed Central Google Scholar
Finn, RD, Clements, J. & Eddy, SR Serveur Web HMMER : recherche interactive de similarité de séquence. Acides nucléiques Res. 39 , W29-W37 (2011).

Article CAS PubMed PubMed Central Google Scholar
Stanke, M. & Morgenstern, B. Augustus : Un serveur Web pour la prédiction génétique chez les eucaryotes qui permet des contraintes définies par l'utilisateur. Acides nucléiques Res. 33 , W465-W467 (2005).

Article CAS PubMed PubMed Central Google Scholar
Grabherr, MG et coll. Trinity : reconstruction d'un transcriptome complet sans génome à partir de données RNA-Seq. Nat. Biotechnologie. 29 , 644-652 (2011).

Article CAS PubMed PubMed Central Google Scholar
Haas, BJ et coll. Reconstruction de séquence de transcription de novo à partir de RNA-Seq : génération de référence et analyse avec Trinity. Nat. Protocole. 8 , 1494-1512 (2013).

Article CAS PubMed Google Scholar
Haas, BJ et coll. Amélioration de l'annotation du génome d'Arabidopsis à l'aide d'assemblages d'alignement maximal des transcriptions. Acides nucléiques Res. 31 , 5654-5666 (2003).

Article CAS PubMed PubMed Central Google Scholar
Wu, TD & Watanabe, CK GMAP : Un programme de cartographie et d'alignement génomique pour les séquences d'ARNm et EST. Bioinformatique 21 , 1859-1875 (2005).

Article CAS PubMed Google Scholar
Kent, WJ BLAT—L'outil d'alignement de type BLAST. Génome Res. 12 , 656-664 (2002).

Article CAS PubMed PubMed Central Google Scholar
Oracle Inc. MySQL. https://www.mysql.com (2016).
Cantarel, BL et coll. MAKER : un pipeline d'annotation facile à utiliser conçu pour les génomes d'organismes modèles émergents. Génome Res. 18 , 188-196 (2008).

Article CAS PubMed PubMed Central Google Scholar
Dobin, A. et coll. STAR : aligneur RNA-seq universel ultrarapide. Bioinformatique 29 , 15-21 (2013).

Article CAS PubMed Google Scholar
Lomsadze, A., Ter-Hovhannisyan, V., Chernoff, YO et Borodovsky, M. Identification de gènes dans de nouveaux génomes eucaryotes par algorithme d'auto-entraînement. Acides nucléiques Res. 33 , 6494-6506 (2005).

Article CAS PubMed PubMed Central Google Scholar
Korf, I. Recherche de gènes dans de nouveaux génomes. BMC Bioinformer. 5 , 59 (2004).

Article Google Scholar
Schattner, P., Brooks, AN & Lowe, TM Les serveurs Web tRNAscan-SE, snoscan et snoGPS pour la détection des ARNt et des snoRNA. Acides nucléiques Res. 33 , W686-W689 (2005).

Article CAS PubMed PubMed Central Google Scholar
Palmer, JM Funannotate : une annotation du génome fongique et un pipeline de génomique comparative. https://github.com/nextgenusfs/funannotate (2016).
Hoff, KJ, Lange, S., Lomsadze, A., Borodovsky, M. & Stanke, M. BRAKER1 : Annotation du génome non supervisée basée sur RNA-Seq avec GeneMark-ET et AUGUSTUS. Bioinformatique 32 , 767-769 (2016).

Article CAS PubMed Google Scholar
Lomsadze, A., Burns, PD et Borodovsky, M. Intégration des lectures d'ARN-Seq cartographiées dans l'entraînement automatique de l'algorithme de recherche de gènes eucaryotes. Acides nucléiques Res. 42 , e119 (2014).

Article PubMed PubMed Central CAS Google Scholar
Pertea, M. et coll. StringTie permet une reconstruction améliorée d’un transcriptome à partir de lectures d’ARN-seq. Nat. Biotechnologie. 33 , 290-295 (2015).

Article CAS PubMed PubMed Central Google Scholar
Trapnell, C. et coll. L’assemblage et la quantification des transcriptions par RNA-Seq révèlent des transcriptions non annotées et une commutation d’isoforme au cours de la différenciation cellulaire. Nat. Biotechnologie. 28 , 511-515 (2010).

Article CAS PubMed PubMed Central Google Scholar
Haas, BJ et coll. Annotation automatisée de la structure des gènes eucaryotes à l'aide d'EVidenceModeler et du programme pour assembler des alignements épissés. Génome Biol. 9 , R7 (2008).

Article PubMed PubMed Central CAS Google Scholar
Nawrocki, EP, Kolbe, DL & Eddy, SR Infernal 1.0 : inférence des alignements d'ARN. Bioinformatique 25 , 1335-1337 (2009).

Article CAS PubMed PubMed Central Google Scholar
Griffiths-Jones, S., Bateman, A., Marshall, M., Khanna, A. & Eddy, SR Rfam : une base de données sur les familles d'ARN. Acides nucléiques Res. 31 , 439-441 (2003).

Article CAS PubMed PubMed Central Google Scholar
Wucher, V. et coll. FEELnc : Un outil d'annotation d'ARN longs non codants et son application au transcriptome du chien. bioRxiv https://doi.org/10.1101/064436 (2016).
Thiel, T., Michalek, W., Varshney, RK & Graner, A. Exploitation des bases de données EST pour le développement et la caractérisation de marqueurs SSR dérivés de gènes chez l'orge ( Hordeum vulgare L.). Théorique. Appl. Genet. 106 , 411-422 (2003).

Article CAS PubMed Google Scholar
Rice, P., Longden, I. & Bleasby, A. EMBOSS : La suite logicielle ouverte européenne de biologie moléculaire. Les tendances. Genet. 16 , 276-277 (2000).

Article CAS PubMed Google Scholar
Jurka, JW RepBase. https://www.girinst.org/server/RepBase (2016).
Smit, AFA et Hubley, R. RepeatModeler Open-1.0. http://www.repeatmasker.org (2014).
Price, AL, Jones, NC & Pevzner, PAD novo identification de familles répétées dans de grands génomes. Bioinformatique 21 , i351–i358 (2005).

Article CAS PubMed Google Scholar
Benson, G. Tandem répète Finder : Un programme pour analyser les séquences d'ADN. Acides nucléiques Res. 27 , 573-580 (1999).

Article CAS PubMed PubMed Central Google Scholar
Jones, P. et coll. InterProScan 5 : classification des fonctions des protéines à l'échelle du génome. Bioinformatique 30 , 1236-1240 (2014).

Article CAS PubMed PubMed Central Google Scholar
Huerta-Cepas, J. et al. eggNOG 4.5 : un cadre d'orthologie hiérarchique avec des annotations fonctionnelles améliorées pour les séquences eucaryotes, procaryotes et virales. Acides nucléiques Res. 44 , D286-D293 (2016).

Article CAS PubMed Google Scholar
Rawlings, ND, Barrett, AJ & Finn, R. Vingt ans de base de données MEROPS sur les enzymes protéolytiques, leurs substrats et inhibiteurs. Acides nucléiques Res. 44 , D343-D350 (2016).

Article CAS PubMed Google Scholar
Yin, Y. et al. dbCAN : une ressource Web pour l'annotation automatisée des enzymes actives sur les glucides. Acides nucléiques Res. 40 , W445-W451 (2012).

Article CAS PubMed PubMed Central Google Scholar
Petersen, TN, Brunak, S., von Heijne, G. & Nielsen, H. SignalP 4.0 : discrimination des peptides signaux des régions transmembranaires. Nat. Méthodes 8 , 785-786 (2011).

Article CAS PubMed Google Scholar
Okonechnikov, K., Conesa, A. & García-Alcalde, F. Qualimap 2 : contrôle qualité avancé de plusieurs échantillons pour les données de séquençage à haut débit. Bioinformatique 32 , 292-294 (2016).

CAS PubMed Google Scholar
Sterne-Weiler, T., Weatheritt, RJ, Best, AJ, Ha, KCH & Blencowe, BJ Profilage quantitatif efficace et précis de modèles d'épissage alternatifs de toute complexité sur un ordinateur portable. Mol. Cellule 72 , 187-200 (2018).

Article CAS PubMed Google Scholar
Alexa, A., Rahnenführer, J. & Lengauer, T. Amélioration de la notation des groupes fonctionnels à partir des données d'expression génique en décorrélant la structure du graphe GO. Bioinformatique 22 , 1600-1607 (2006).

Article CAS PubMed Google Scholar
Li, Y., Xiang, J. et Duan, C. La protéine 3 de liaison au facteur de croissance analogue à l'insuline joue un rôle important dans la régulation du squelette pharyngé et de la formation et de la différenciation de l'oreille interne. J. Biol. Chimique. 280 , 3613-3620 (2005).

Article CAS PubMed Google Scholar
Lin, JM et al. Actions du facteur de croissance des fibroblastes 8 dans les cellules osseuses in vitro. Suis. J. Physiol. Endocrinol. Métab. 297 , E142-E150 (2009).

Article CAS PubMed Google Scholar
Nichols, JT, Pan, L., Moens, CB & Kimmel, CB barx1 réprime les articulations et favorise le cartilage dans le squelette cranio-facial. Développement 140 , 2765-2775 (2013).

Article CAS PubMed PubMed Central Google Scholar
Bush, JO, Lan, Y. et Jiang, R. Les défauts de fente labio-palatine chez les souris mutantes Dancer résultent d'un gain de fonction du gène Tbx10 . Proc. Natl. Acad. Sci. États-Unis 101 , 7022-7027 (2004).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Vieira, AR et coll. Séquençage médical de gènes candidats pour la fente labiale et palatine non syndromique. PLoS Genet. 1 , e64 (2005).

Article PubMed PubMed Central CAS Google Scholar
Papaioannou, VE La famille des gènes T-box : rôles émergents dans le développement, les cellules souches et le cancer. Développement 141 , 3819-3833 (2014).

Article CAS PubMed PubMed Central Google Scholar
Kang, YJ, Stevenson, AK, Yau, PM et Kollmar, R. La protéine Sparc est nécessaire à la croissance normale des otolithes de poisson zèbre. J. Assoc. Rés. Otolaryngol. 9 , 436-451 (2008).

Article PubMed PubMed Central Google Scholar
Rosset, EM & Bradshaw, AD SPARC/ostéonectine dans les tissus minéralisés. Matrice Biol. 52-54 , 78-87 (2016).

Article PubMed PubMed Central CAS Google Scholar
Zarelli, VE & Dawid, IB L'inhibition de la formation de la crête neurale par Kctd15 implique la régulation du facteur de transcription AP-2. Proc. Natl. Acad. Sci. États-Unis 110 , 2870-2875 (2013).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Zhang, Z., Huynh, T. et Baldini, A. L'expression mésodermique de Tbx1 est nécessaire et suffisante pour le développement du arc pharyngé et des voies d'éjection cardiaque. Développement 133 , 3587-3595 (2006).

Article CAS PubMed Google Scholar
Yutzey, le syndrome de KE DiGeorge, Tbx1 et la signalisation de l'acide rétinoïque bouclent la boucle. Circ. Rés. 106 , 630-632 (2010).

Article CAS PubMed PubMed Central Google Scholar
Ghassibe-Sabbagh, M. et al. FAF1 , un gène perturbé dans la fente palatine et dont la fonction est conservée chez le poisson zèbre. Suis. J. Hum. Genet. 88 , 150-161 (2011).

Article CAS PubMed PubMed Central Google Scholar
Wilm, TP & Solnica-Krezel, L. Rôles essentiels d'un homologue prdm1/blimp1 du poisson zèbre dans la structuration de l'embryon et l'organogenèse. Développement 132 , 393-404 (2005).

Article CAS PubMed Google Scholar
Wang, L., Rajan, H., Pitman, JL, McKeown, M. & Tsai, CC Les protéines atrophines associées à l'histone désacétylase sont des corépresseurs de récepteurs nucléaires. Développement de gènes. 20 , 525-530 (2006).

Article PubMed PubMed Central CAS Google Scholar
Plaster, N., Sonntag, C., Schilling, TF & Hammerschmidt, M. REREa/Atrophin-2 interagit avec l'histone désacétylase et la signalisation Fgf8 pour réguler plusieurs processus de développement du poisson zèbre. Dév. Dynam. 236 , 1891-1904 (2007).

Article CAS PubMed Google Scholar
Jordanie, VK et coll. Corrélations génotype-phénotype chez les individus présentant des variantes pathogènes de RERE. Hum. Mutat. 39 , 666-675 (2018).

Article CAS PubMed PubMed Central Google Scholar
Diepeveen, ET, Kim, FD et Salzburger, W. Les analyses de séquence de la famille de gènes homéobox sans distal chez les poissons cichlidés d'Afrique de l'Est révèlent des signatures de sélection positive. BMC Évol. Biol. 13 , 153 (2013).

Article PubMed PubMed Central Google Scholar
Stock, DW et coll. L'évolution de la famille des gènes vertébrés Dlx. Proc. Natl. Acad. Sci. États-Unis 93 , 10858-10863 (1996).

Article LES PUBLICITÉS CAS PubMed PubMed Central Google Scholar
Mark, M., Ghyselinck, NB & Chambon, P. Fonction des récepteurs de l'acide rétinoïque au cours du développement embryonnaire. Nucl. Réception. Signal. 7 , e002 (2009).

Article PubMed PubMed Central CAS Google Scholar
Linville, A., Radtke, K., Waxman, JS, Yelon, D. & Schilling, TF Rôles combinatoires des récepteurs de l'acide rétinoïque du poisson zèbre dans le cerveau postérieur, les membres et les arcs pharyngés. Dév. Biol. 325 , 60-70 (2009).

Article CAS PubMed Google Scholar
Swartz, ME, Sheehan-Rooney, K., Dixon, MJ et Eberhart, JK Examen d'un programme de gènes palatogènes chez le poisson zèbre. Dév. Dynam. 240 , 2204-2220 (2011).

Article CAS PubMed PubMed Central Google Scholar
Iwata, J. et coll. Le facteur de croissance transformant bêta régule la machinerie de régulation transcriptionnelle basale pour contrôler la prolifération cellulaire et la différenciation dans les cellules ostéoprogénitrices dérivées de la crête neurale crânienne. J. Biol. Chimique. 285 , 4975-4982 (2010).

Article CAS PubMed Google Scholar
Prochazkova, M., Prochazka, J., Marangoni, P. & Klein, OD Os, glandes, oreilles et plus : les rôles multiples du FGF10 dans le développement cranio-facial. Avant Genet. 9 , 542 (2018).

Article CAS PubMed PubMed Central Google Scholar
Du, J. et al. Différents modèles d'expression de Gli1-3 dans le développement maxillo-facial embryonnaire de souris. Acta Histochem. 114 , 620-625 (2012).

Article CAS PubMed Google Scholar

Télécharger les références

Remerciements

Nous remercions Viola Nolte pour le soutien technique expert lors du séquençage et Wolfgang Gessl pour la conservation des poissons et les photographies.

Financement

Ce travail a été soutenu par les projets du Fonds scientifique autrichien [FWF Grants P22737 et P29838]. Les bailleurs de fonds n’ont joué aucun rôle dans la conception de l’étude, la collecte et l’analyse des données, la décision de publication ou la préparation du manuscrit. L'achat de l'instrument Pacific Biosciences RS II à l'Université de Lausanne a été financé en partie par la Loterie Romande à travers la Fondation pour la Recherche en Médecine Génétique.

Informations sur l'auteur

Auteurs et affiliations

Institut de biologie, Université de Graz, Graz, Autriche

C. Fischer, S. Koblmüller, C. Börger & C. Sturmbauer
Institut d'informatique biomédicale, Université de technologie de Graz, Graz, Autriche

C. Fischer & GG Thalinger
Centre de recherche médicale, Université médicale de Graz, Graz, Autriche

G. Michelitsch, S. Trajanoski & C. Guelly
Institut für Populationsgenetik, Vetmeduni Vienne, Vienne, Autriche

C. Schlötterer
BioTechMed-Graz, Graz, Autriche

GG Thalinger & C. Sturmbauer

Contributions

Conception de l'étude : C.St. Conception des expériences : C.St., GGT, CG et C.Sch. Réalisation des expériences : SK, CB, GM et ST Analyse des données : CF Rédaction de l'article : CF, GGT, C.St. Contribution au manuscrit : SK, CG, C.Sch. Approuvé le manuscrit final : tous les auteurs.

Auteurs correspondants

Correspondance à GG Thalinger ou C. Sturmbauer .

Déclarations éthiques

Des intérêts concurrents

Les auteurs ne déclarent aucun intérêt concurrent.

Informations Complémentaires

Note de l'éditeur

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Information supplémentaire

Information supplémentaire.

Droits et autorisations

Libre accès Cet article est sous licence internationale Creative Commons Attribution 4.0, qui autorise l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié au(x) auteur(s) original(s) et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel tiers contenu dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit du matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation statutaire ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour afficher une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/ .

Catégorie : ► ◘◘◘◘◘◘ ◄ - Articles Scientifiques

Réactions à cet article

Personne n'a encore laissé de commentaire.
Soyez donc le premier !