Séquences génomiques de Tropheus
moorii et Petrochromis
trewavasae ,
deux poissons cichlidés éco-morphologiquement divergents
endémiques du lac Tanganyika
Avec plus de 1 000 espèces, les cichlidés d’Afrique de l’Est
représentent le rayonnement vertébré le plus rapide et le plus riche
en espèces connu, fournissant un modèle idéal pour aborder les
mécanismes moléculaires sous-jacents à la diversification adaptative
récurrente. Nous ajoutons des reconstructions génomiques de haute
qualité pour deux espèces phylogénétiques clés d'une lignée qui a
divergé il y a environ 3 à 9 millions d'années (ma), ce qui
représente la première scission des haplochromines dites modernes
qui ont semé des radiations supplémentaires telles que celles du lac
Malawi. et Victoria. Parallèlement aux génomes annotés, nous avons
analysé les caractéristiques génomiques discriminantes des espèces
étudiées, chacune représentant une morphologie trophique extrême,
l'une étant un navigateur d'algues et l'autre un brouteur
d'algues. Les génomes de Tropheus
moorii (TM)
et Petrochromis
trewavasae (PT)
comprennent respectivement 911 et 918 Mbp avec 40 300 et 39 600
gènes prédits. Nos données de séquences d'ADN sont basées sur 5 et 6
individus de TM et PT, ainsi que sur les séquences transcriptomiques
d'un individu par espèce et par sexe, respectivement. Concernant la
variation, nous avons observé en moyenne 1 variant pour 220 pb
(interspécifique) et 1 variant pour 2540 pb (PT vs PT)/1561 pb (TM
vs TM) (intraspécifique). L'analyse d'enrichissement GO des régions
génétiques affectées par les variants a révélé plusieurs candidats
susceptibles d'influencer les modifications phénotypiques liées à la
morphologie du visage et de la mâchoire, tels que les gènes
appartenant à la voie Hedgehog ( SHH , SMO , WNT9A ) et aux
familles BMP et GLI.
Introduction
Avec
1727 espèces décrites 1 ,
les poissons cichlidés font partie des familles de poissons
téléostéens les plus riches en espèces. Leur point chaud de
biodiversité se situe en Afrique de l'Est, et en particulier
dans les trois Grands Lacs, Victoria, Malawi et Tanganyika 2 . Malgré
un grand degré de similitude indiquant une évolution récurrente
d'espèces éco-morphologiquement équivalentes 3 ,
les trois radiations de cichlidés présentent des différences
importantes en ce qui concerne le nombre d'espèces, l'âge
évolutif des lignées, la diversité des modèles de soins
parentaux et le degré de divergence morphologique 2 , 3 , 4 . Cela
est probablement dû aux différents ensembles d’espèces
colonisatrices et, surtout, à leur âge évolutif différent.
Avec
un âge de 9 à 12 millions d'années (ma) 5 , 6 ,
le lac Tanganyika est de loin le plus ancien de ces lacs. En
raison de son âge avancé, l'assemblage d'espèces du lac
Tanganyika est à un stade de maturité, de sorte qu'il comprend
la plus grande diversité génétique et phénotypique parmi les
radiations de cichlidés d'Afrique de l'Est, mais une
diversification plus poussée se poursuit principalement sans
beaucoup d'innovation éco-morphologique 2 . Lors
de la colonisation du lac émergent, les cichlidés ont profité de
la fenêtre d'opportunité écologique et se sont rapidement
diversifiés 4 . En
fait, deux lignées colonisatrices ont subi une hybridation dès
le début de l'irradiation, un événement qui pourrait avoir
déclenché ou accéléré le début 6 . Le
rayonnement du lac Tanganyika occupe une position clé pour
l'ensemble de la faune de cichlidés africains modernes, dans la
mesure où trois des lignées lacustres nouvellement émergentes
ont réussi à coloniser les rivières environnantes, de sorte que
le rayonnement a balayé à plusieurs reprises les limites du lac
en maturation 7 , 8 , 9 , dix . Trois
des lignées émergentes, les Lamprologini sans couvaison buccale,
les Orthochromini à couvaison buccale et certains premiers
Haplochromini tels que les ancêtres des genres Pseudocrenilabrus et Serranochromis ,
ont quitté le lac à différents stades de maturation du lac pour
coloniser certains plans d'eau environnants 7 , 8 , 9 .
, 11 , 12 , 13 . Un
groupe d'haplochromines précoces a continué à évoluer dans
l'interface lac-marais-rivière vers des couveuses buccales
maternelles plus élaborées, délimitées par un dimorphisme sexuel
accru et des taches d'œufs sur la nageoire anale 6 , 9 ,
les haplochromines dites modernes. Ces haplochromines modernes
ont non seulement colonisé la plupart des systèmes fluviaux de
toute l'Afrique australe et orientale, mais ont réintégré
l'écosystème du lac Tanganyika, déjà beaucoup plus profond et
mature à cette époque, pour évoluer vers la tribu endémique du
lac Tanganyika Tropheini 9 , 14 . Ainsi,
les Tropheini ont réussi à s'introduire dans un rayonnement
lacustre en cours et déjà complexe, tandis que ses sœurs non
lacustres se sont répandues dans plusieurs systèmes fluviaux
pour ensemencer des radiations dans les lacs émergents le long
de leurs routes de dispersion fluviale 6 , 8 , 9 , 15 , 16 .
La
tribu Tropheini, endémique du lac Tanganyika, représente le
groupe frère de tous les haplochromines modernes en dehors du
lac et a divergé de ceux-ci il y a environ 3 à 9 millions
d'années 6 . Le
fait que cinq des 29 espèces de Tropheini se trouvent à la fois
dans le lac lui-même et en amont dans les rivières affluentes
et/ou dans certaines parties de la rivière Lukuga, le seul
écoulement du lac, pourrait être dû à leur origine marécageuse 17 . C'est
pourquoi nous avons décidé de séquencer et de comparer les
génomes de deux espèces écologiquement divergentes de la tribu
Tropheini, endémique du lac Tanganyika. En termes de génétique,
les haplochromines modernes, y compris les Tropheini, sont
emblématiques car leurs génomes généralistes adaptés aux
rivières ont subi à plusieurs reprises des modifications
adaptatives récurrentes lors des opportunités écologiques
fournies par les lacs nouvellement émergents 4 . Il
a été suggéré que les espèces écologiquement et phénotypiquement
flexibles, adaptées aux habitats fluviaux saisonnièrement
instables, peuvent supplanter les autres colonisateurs dans
l'ensemencement des radiations lacustres, car elles peuvent
rapidement s'adapter aux espaces de niche vides via la
plasticité phénotypique 18 . Selon
l'hypothèse de la tige flexible, une population phénotypiquement
plastique est subdivisée en phénotypes adaptatifs alternatifs,
puis les facteurs génétiques adaptatifs sont triés au cours de
la spéciation pour continuer via l'accommodation génétique et
l'assimilation génétique. Au cours de la divergence adaptative
au cours de radiations adaptatives répétées, l'évolution
génomique a probablement été façonnée par des opportunités
écologiques, en combinaison avec des événements de fragmentation
géographique, des épisodes de goulots d'étranglement et
d'expansion de la population, ainsi que des mélanges ou des
fusions répétés dans des événements d'hybridation provoqués par
des lacs induits par le climat. fluctuations de niveau 4 , 19 . Outre
la divergence et le flux génétique accidentel 6 , 20 ,
la duplication et la sélection géniques 6 , 21 ,
les événements ont apparemment remodelé les génotypes. Au niveau
phénotypique, le succès évolutif des cichlidés d'Afrique de
l'Est a été attribué à des innovations clés particulières,
notamment (1) le découplage fonctionnel des mâchoires buccales
et pharyngées facilitant l'exploitation de diverses niches
trophiques 22 , (2) l'adaptation du système visuel à
une turbidité différente de l'eau 23 et
(3) les soins parentaux et la coloration sexuelle des mâles
déterminés par la sélection sexuelle facilitant l'isolement
reproductif 24 . À
ce stade, l’ensemble des mécanismes génétiques modifiant le
substrat génomique sous-jacent à l’énorme éco-morphoespace
phénotypique couvert par les cichlidés reste largement inconnu
(voir 25 pour
une revue récente).
Les
premières étapes majeures vers la compréhension des mécanismes
moléculaires derrière ces morphologies divergentes ont été
franchies en élucidant les génomes et les transcriptomes de cinq
espèces de cichlidés : Oreochromis niloticus représentant une
lignée exogroupe, Neolamprologus
pulcher représentant
une lignée de couveuses de substrat du Tanganyika et trois
haplochromines modernes, à savoir Astatotilapia
burtoni. représentant
une lignée fluviale, le
zèbre Maylandia représentant
le lac Malawi et le
Pundamilia nyererei représentant
le lac Victoria. Cette étude a mis en évidence un excès de
duplications de gènes dans la lignée d'Afrique de l'Est par
rapport à Oreochromis et
d'autres téléostéens, une abondance de divergence d'éléments non
codants, une évolution accélérée de la séquence codante, une
divergence d'expression ainsi que des insertions d'éléments
transposables et une régulation par de nouveaux microARN 21 . . L’étude
a également révélé une sélection diversifiée à l’échelle du
génome sur des variantes codantes et régulatrices, dont
certaines recrutées à partir d’anciens polymorphismes.
Des
projets de génome de haute qualité (HQ) basés sur les données de
Pacific Biosciences (PacBio) sont devenus disponibles, notamment
au cours des deux dernières années. Des ébauches de siège de Simochromis
diagrammema (Afrique
de l'Est, lac Tanganyika) et d'Astatotilapia
calliptera (Afrique
de l'Est, lac Malawi) ont été générées par l'Institut Sanger
(2018) et une ébauche de siège d' Archocentrus
centrarchus (Amérique
centrale) a été générée par le groupe G10K-VGP. (2019) ; des
assemblées de cichlidés sud-américains Amphilophus
citrinellus (2014,
Université de Constance) et Andinoacara
coeruleopunctatus (2015,
Sanger Institute) 26 sont
également disponibles. Les génomes d' O.
niloticus (ON)
et de
M. zebra (MZ) ont récemment (2019) été nouvellement assemblés et
ancrés avec une approche de carte génétique PacBio + à haute
couverture 27 ; les
génomes de A.
calliptera, A. centrarchus et S.
diagrammema (non
ancrés) ont été reconstruits de la même manière. Oreochromis
niloticus, M. zebra , A.
calliptera et A.
centrarchus sont
les seules reconstructions au niveau chromosomique (groupes de
liaison). Sept brouillons du QG ont reçu des annotations du NCBI
Annotation Pipeline 28 ( S.
diagrammema pas
encore) ; O.
niloticus, A. calliptera et A.
citrinellus ont
également reçu des annotations de l'Ensembl 29
. Ces
génomes couvrent des espèces des Grands Lacs et rivières
d'Afrique et des lacs de cratère d'Amérique centrale et
d'Amérique du Sud (Fig. 1 ).
Résultats
Assemblées
Sur la base des tailles de génome estimées à ~
900 Mbp (tableau supplémentaire S11 ),
nos efforts de séquençage ont donné des données
de séquence avec une couverture de base moyenne
de ~ 1,5 ×, ~ 88 ×, ~ 34 × et ~ 10,5 × (PT) et ~
1,2 ×. , ~ 38×, ~ 29× et ~ 9,1× (TM) pour Roche
454, Illumina PE, Illumina MP et PacBio,
respectivement (voir tableau supplémentaire S23 ). Les
données de séquence filtrées ont été utilisées
pour générer des assemblages primaires dérivés
de différents algorithmes de reconstruction
(assembleurs) et combinaisons de données (voir
Méthodes). Les reconstructions finales du génome
des deux espèces sont basées sur des
méta-assemblages de ces ensembles d'assemblages
primaires. Les méta-assemblages présentant les
meilleurs scores en termes de mauvais
assemblages, de contiguïté et de prédictions
génétiques ont été utilisés dans des analyses
ultérieures.
Petrochromis trewavasae
Les assemblages principaux présentent des
tailles d'assemblage allant de ~ 779 Mbp à ~ 966
Mbp (907 Mbp PacBio uniquement ; voir le tableau
supplémentaire S11 ). L'assemblage
final se compose de 7261 échafaudages avec un
N50 de 1,84 Mbp, 1,44 % des nucléotides sont
indéterminés (N) et 90 % du génome assemblé est
contenu dans 885 fragments de plus de 70 kpb. La
taille totale de l'assemblage est de 917,57 Mbp
(Tableau 1 ).
Tropheus moorii
Les assemblages principaux présentent des
tailles d'assemblage allant de ~ 754 Mbp à ~ 952
Mbp (879 Mbp PacBio uniquement ; voir le tableau
supplémentaire S11 ). L'assemblage
final se compose de 7662 échafaudages avec un
N50 de 1,64 Mbp, 1,29 % des nucléotides sont
indéterminés (N) et 90 % du génome assemblé est
contenu dans 657 fragments de plus de 192
kpb. La taille totale de l'assemblage est de
911,13 Mbp (Tableau 1 ). Les
deux tailles d’assemblage se situent dans la
plage attendue ; Les prédictions basées sur les
spectres k-mer suggèrent des tailles de génome
proches de 900 Mbp (voir tableau supplémentaire S11 )
et de 900 à 1 000 Mbp ont également été
signalées pour d'autres génomes de cichlidés 21 , 30 .
Dans ce qui suit, nous comparons nos résultats
aux génomes et annotations publiés de plusieurs
poissons cichlidés en mettant l'accent sur O.
niloticus et M.
zebra en
raison de leur état bien développé. Les
dernières versions (v4) de O.
niloticus (44
× PacBio, nouvellement ancré) et de
M. zebra (maintenant
65 × PacBio et ancré) ont été publiées par Conte
et al . 27 ; la
tendance par rapport aux versions antérieures
est claire, les qualités des séquences et des
annotations sont améliorées et le nombre de
structures annotées a encore augmenté. En ce qui
concerne les distributions de longueur des gènes
(tableau supplémentaire S1 ),
les mesures de contiguïté obtenues pour PT et TM
sont satisfaisantes et se situent dans la plage
typique, compte tenu des technologies de
séquençage appliquées et de la couverture
(tableau 1 ;
pour une comparaison avec les versions d'O.
niloticus ,
voir Tableau supplémentaire S2 ,
et pour une comparaison générale avec les
génomes de poissons publiés, voir le tableau
supplémentaire S23 de
Vij et al. 31 ).
Annotations
Structural annotation yielded ~ 40,300 (PT) and
39,600 (TM) genes and ~ 54,200 (PT) and 56,800
(TM) transcripts, respectively (Table 2);
this is in line with the results of different
annotation versions of ON (~ 30,200 to 42,600
genes). As to annotated features, PT and TM show
similar numbers which often lie between those of
version 2 and 3 of the respective ON
annotations. For comparison, statistics for ON
v2–v4 (the latest) are added, as ON received the
most community effort and data for genome
assembly and annotation of all cichlids
(Supplementary Table S2).
Prediction of long non-coding RNAs yielded 2782
and 2112 lncRNAs for PT and TM, respectively.
With 57.7% and 63.2% a slight preference for the
sense strand could be observed (Supplementary
Table S3).
Homology based functional annotation could be
made for 41,970 (PT) and 43,918 (TM) of the
coding sequences (CDSs); putative secretory
signals were predicted for 5899 (PT) and 6016
(TM) of them, respectively (Table 3).
Pfam domain mapping yielded 78,900 (PT) and
84,158 (TM) hits, respectively. RepeatMasker27 identified
31.1% (PT) and 30.0% (TM) of the genomes as
repetitive, respectively; the largest
proportions of classified repeat types were held
by DNA transposons, LINEs and LTR transposons
with ~ 13%, ~ 7% and ~ 2% (Table 4).
Data availability and visualization
The genome and transcriptome assemblies (FASTA),
the structural and functional annotations
(GFF3), read mappings (BAM) and additional
Integrative Genomics Viewer (IGV)33 track
files (short and long non-coding RNAs, repeats,
ORFs, CpG islands, microsatellites, IPR and
eggNOG domains, variant calls, read mappings,
alternative splicing, and REAPR error calls;
Fig. 2)
are available at https://cichlidgenomes.tugraz.at.
Quality evaluation
Assembly quality was assessed with BUSCO34 and
CEGMA35.
BUSCO identified 98.3% and 98% of the 4584
proteins in the Actinopterygii database in
complete form for PT and TM, respectively; 1.7%
and 2% of the benchmarking universal single-copy
orthologs (BUSCOs) were either fragmented or
missing. These results compare well with those
of published genomes and are generally on a par
with those of the later versions of the O. niloticus genome
drafts (Table 5).
CEGMA identified all of the 248 core eukaryotic
genes (CEGs) for both PT and TM (Table 6);
CEGMA results for PT and TM transcriptome
assemblies can be found in Supplementary Table S6.
However, REAPR reports 17,166/11,992 (PT/TM)
likely assembly errors (Supplementary Table S10);
there are IGV tracks highlighting questionable
regions to guide caution when analyzing in the
vicinity (see Fig. 2).
Completeness of conserved protein domains was
assessed with DOGMA36.
DOGMA found 91.8% and 90.5% of the 1051 expected
conserved domains at a conserved domain
arrangement size of 1 for PT and TM,
respectively (Table 7).
Analyse comparative
Nous avons comparé les génomes de PT et de TM en
cartographiant les lectures brutes d'une espèce
avec le génome de l'autre espèce. Cela a donné
respectivement 4 105 604 et 4 178 777 petites
variantes (SMV ; SNP et InDels) pour PT et
TM. En outre, 356 428 et 577 124 SMV ont été
identifiés pour PT et TM, lors de la
cartographie des lectures de la même espèce sur
les génomes respectifs. En moyenne, 1 variante
pour ~ 220 pb (interspécifique) et 1 variante
pour 2 540 pb (PT vs PT)/1 561 pb (TM vs TM)
(intraespèce) a été appelée (Tableau 8 ) . Pour
les deux espèces, 93 842 et 89 489 grandes
variantes structurelles (SV ; insertions,
délétions, duplications, inversions et
translocations) entre espèces ont été détectées,
la majorité étant des délétions avec
respectivement 60 % et 65,6 % (Tableau 8 ) .
La distribution du SMV et du SV observée par
l'analyse comparative suit largement la
couverture génomique de régions
structurelles/fonctionnelles particulières. Il
existe des dévations petites mais notables : (1)
les SMV sont (légèrement) sous-représentés dans
les régions du promoteur, de la 5′ UTR, du
codage, du site d'épissage, de la 3′ UTR et des
régions intergéniques ; ils sont surreprésentés
dans les introns ; (2) Les SV sont (légèrement)
sous-représentées dans les régions du promoteur,
de la 5′ UTR, du codage, de la 3′ UTR et des
régions intergéniques ; ils sont surreprésentés
dans les introns et les sites d'épissage (via
chevauchement) (Fig. 3 A).
SNPeff 37 classe
les effets des variantes sur le gène en quatre
groupes en fonction de l'emplacement et de la
nature de la variante : « ÉLEVÉ », « MODÉRÉ », «
FAIBLE » ou « MODIFICATEUR », ce dernier
désignant des variantes non codantes ou des
variantes affectant des variantes non codantes.
-les gènes codants, pour lesquels les
prédictions sont difficiles ou où il n'y a
aucune preuve d'impact. Dans notre analyse, plus
de 97 % des variantes identifiées sont classées
comme « MODIFIER » (Tableau 9 ).
Genes of interest, which are possibly affected
by mutations, are highlighted in Table 10 (see
Supplementary Information for details on the
gene selection and GO enrichment analysis,
respectively). Here, we started to analyze genes
which are related to the development of the
viscerocranium (untargeted gene selection) and
the pharyngeal system (targeted, i.e., biased
gene selection based on literature—see Table S17);
however, there are other GO terms of interest
which are consistently enriched over different
analysis approaches such as BMP signaling, for
instance. A condensed GO analysis result for an
untargeted approach (A2, see Table S14b)
is shown in Table 11;
here, gene categories are based on variant
comparison groups (within and between species
groups) combined with quantile ranking and
thresholding (p = 0.5,
i.e., median), and variant counts (‘mutation
loads’) were used as criterion. The term
‘embryonic viscerocranium morphogenesis’ is
enriched in the within and the between species
gene sets over all approaches (see Supplementary
Table S16;
genes belonging to this term were combined with
genes from the targeted approach and used for
further downstream analyses (see Supplementary
Table S14a,
Table S14b,
Table S15,
Table S16,
Table S18 and
Table S21).
In the comparative analysis, biological species
are coded as A (PT) and B (TM) (Table 11).
The categories (AA, AB, BA and BB) refer to the
within and between group comparisons. That is,
there are mutations at
the same genomic locations (nucleotides)
which are either identical within and between
species (referred to as, e.g., identical (AA)
and redundantly identical (AB)) or nonidentical
(referred to as, e.g., nonidentical (BB) and
nonidentical (BA)); moreover, there are
mutations which are unique to a group (referred
to as, e.g., unique (AA) and unique (AB), i.e.,
at the genomic location there is only a variant
in species A (unique (AA)) or there is only a
variant between species A and B (unique (AB)),
respectively). In the shown example, for SMV the
calls for viscerocranium
morphogenesis are symmetric except for the
AB category (which fell below the threshold),
i.e., the GO term is consistently enriched
within and between species. Further analyses on
the genes belonging to the term clearly verify
the presence of shared and species-specific
mutations in these genes (see example in
Supplementary section Identification
of genes putatively related to facial and jaw
morphology). Hence, there is substantial
variation in these genes which may drive changes
in the manifestation of morphology. However, we
cannot yet delineate possible effects from
shared and non-shared variants.
Besides variants in the DNA structure,
alternative splicing (AS) was analyzed. There
are ~ 6200 AS events in ~ 2600 genes between
sexes of each species and ~ 39,000 AS events
in ~ 9400 genes between the two species (see
Supplementary Table S13).
Discussion
Assembly and annotation
Le méta-assemblage d'un ensemble d'assemblages
primaires a donné des ébauches de génome de
haute qualité avec 918 et 911 Mbp pour Petrochromis
trewavasae et Tropheus
moori ,
respectivement. Ceci est conforme aux tailles
comprises entre 900 et 1 000 Mbp signalées pour
d'autres génomes de cichlidés 21 , 30 et
aux ~ 940 Mbp estimés par notre validation
d'assemblage avec REAPR 38 . Le
dernier assemblage d'Oreochromis
niloticus s'étend
sur environ 1 Gbp ; cette variation de la taille
du génome peut être due à des différences
biologiques, mais pourrait également indiquer
que certaines parties de l'ADN répétitif dans la
reconstruction génomique respective (PT/TM) ne
sont pas incluses dans l'assemblage, car une
conséquence de l'effondrement de la séquence
(par exemple, répétitions effondrées) 39 .
En règle générale, les assemblages sont basés
sur les données génomiques d'un seul individu,
qui provient idéalement d'une lignée
consanguine. Dans ce projet, nous avons assemblé
respectivement 6 (PT) et 5 (TM) individus non
consanguins ; cela nécessitait une approche
d’assemblage plus complexe. De plus, nous avons
effectué un séquençage de novo sans aucune
donnée de liaison ou de carte optique (comme le
montrent les dernières versions du génome de O.
niloticus et A.
calliptera )
et la couverture PacBio était (avec ~ 9–10 ×)
considérablement inférieure à celle utilisée.
pour les assemblages de O.
niloticus (44
× pour v3 30 et
v4 27 )
et M.
zebra (16,5
× pour v3 40 ,
ajoutés en plus des couvertures Illumina PE et
MP déjà élevées, et 65 × pour v4 27 ). Néanmoins,
les deux assemblées se comparent bien aux
projets publiés sur le génome d’espèces
comparables en ce qui concerne les mesures
typiques concernant le contenu génétique. Les
résultats de BUSCO (Tableau 5 )
montrent un faible taux d'environ 4 à 8 % (selon
la base de données) de BUSCO dupliqués en PT et
TM. Ceci est légèrement supérieur aux ~ 2 à 4 %
rapportés pour d'autres génomes de cichlidés, ce
qui peut être une conséquence d'un assemblage
incorrect d'haplotypes provenant d'individus non
consanguins. En ce qui concerne le nombre total
de BUSCO identifiés, fragmentés et manquants, la
reconstruction des génomes PT et TM fonctionne
très bien.
Pour les deux espèces, les annotations se sont
avérées valables pour les premières analyses
sensées en aval, mais il existe certainement
certains modèles génétiques qui pourraient
nécessiter des améliorations supplémentaires,
par exemple par un entraînement répété des
prédicteurs génétiques ; cependant, pour
AUGUSTUS, le prédicteur central, les évaluations
du modèle montrent déjà de bons états
d'entraînement (voir le tableau supplémentaire S12 ). Les
sources les plus pertinentes de modèles
génétiques insuffisants pourraient inclure les
fusions, les scissions et surtout les
troncatures de gènes, qui sont évidentes après
un examen plus approfondi – ceci est typique des
premières annotations, en particulier lorsque le
pipeline d’annotations est encore en cours de
développement. Nous observons une longueur
moyenne et médiane relativement faible des
séquences protéiques (voir Tableau 2 )
dans les deux assemblages/annotations. Cela peut
refléter une erreur systématique dans le
processus de génération, par exemple des InDels
conduisant à des décalages de trame et, par
conséquent, à des traductions erronées et à des
codons d'arrêt prématurés. L'enquête sur ce
phénomène a montré des InDels non
triples ; cependant, ceux-ci se retrouvent
également entre, par exemple, les modèles de
transcription d'O.
niloticus et de
M. zebra . De
plus, le taux de mutations non-sens identifiées
dans PT et TM est faible (Tableau 9 ). Les
pipelines d'annotation NCBI et Ensembl sont à la
pointe de la technologie ; de plus, la quantité
et la diversité des données de séquençage d'ARN
utilisées pour l'annotation, par exemple, d'O.
niloticus étaient
beaucoup plus importantes que ce n'était le cas
pour l'une ou l'autre des espèces de ce
projet. Par conséquent, le plus grand nombre
d’isoformes de transcription identifiées (ainsi
que le nombre moyen plus élevé d’exons par
transcription) peuvent être considérés comme des
conséquences simples. Cependant, le nombre total
d’exons chez les deux espèces est comparable aux
annotations ON. Il est intéressant de noter que
le nombre de modèles génétiques dans PT et TM
est également comparable à celui de ON v3. Comme
il n'existe pas de méthode bien établie pour
évaluer l' exactitude des
modèles génétiques (peut-être par une
vérification de la structure générale et une
notation majoritaire de similarité basée sur une
base de données), il s'agit simplement d'une
comparaison du nombre d'éléments. De plus, comme
mentionné, il existe certaines fusions et
scissions de gènes dans les ensembles de modèles
de gènes PT et TM, ce qui faussera dans une
certaine mesure le décompte des gènes. Comme
autre mesure de qualité pour les gènes codant
pour les protéines annotés, DOGMA 36 et
PfamScan 41 ont
été utilisés ; les résultats soutiennent la
notion de mauvais modèles de gènes dans
l'ensemble, qui ne contiennent pas certains
domaines protéiques ou seulement des fragments
de ceux-ci (Tableau 7 ).
Analyse comparative
Nous avons choisi les deux espèces étudiées pour
les raisons suivantes. Tropheus
moorii est
un brouteur d'algues très efficace que l'on
trouve en grand nombre sur tous les types de
rivages rocheux, tandis que Petrochromis
trewavasae est
un brouteur d'algues répandu sur les rivages
rocheux du côté ouest du lac, vivant en
sympatrie avec Tropheus . Les
Tropheini comprennent 3 espèces prédatrices, une
omnivore, 10 brouteurs d'algues et 15 brouteurs
d'algues. Les brouteurs d'algues ont des dents
en forme de ciseau pour mordre les algues
filamenteuses du substrat rocheux, tandis que
les brouteurs d'algues ont des dents en forme de
peigne sur plusieurs rangées pour éliminer les
algues unicellulaires et les détritus des
roches. En raison de l'âge avancé de la tribu
Tropheini, qui s'élève à environ 2 à 6,5
millions d'années au début de leur rayonnement 6 ,
le degré de divergence éco-morphologique est
plus grand que chez les équivalents
éco-morphologiques beaucoup plus jeunes du lac
Victoria, mais comparable à l'éco-morphoespace
couvert par l'ensemble du troupeau du lac
Malawi. Il est intéressant de noter que le
genre Tropheus comprend
environ 120 populations, pour la plupart
allopatriques et distinctes en termes de
couleur, ainsi que des espèces sœurs
morphologiquement similaires. Ils sont tous
restés dans la même niche trophique sur toutes
les rives rocheuses du lac. Petrochtomis
trewavasae ne
présente pas beaucoup de variation de couleur, a
une répartition restreinte sur la rive sud-ouest
du lac et fait partie d'une lignée de brouteurs
complexe et morphologiquement distincte
comprenant le complexe d'espèces beaucoup plus
diversifié de
P. polyodon . Si
l’on considère l’ensemble de la lignée, il a
subi une trajectoire évolutive similaire à celle
de Tropheus . Il
convient de noter ici que le nombre d'espèces
généralement beaucoup plus faible dans le lac
Tanganyika par rapport aux lacs Malawi et
Victoria résulte également des différents
concepts d'espèces utilisés, dans la mesure où
plusieurs entités allopatriques sont traitées
comme des espèces dans les lacs Victoria et
Malawi, alors que comme des variétés
géographiques. dans le rayonnement plus ancien
du lac Tanganyika.
L'analyse comparative présentée ici a donné,
comme prévu, un grand nombre de régions
variantes entre les deux espèces et même un
nombre considérable au sein de chaque espèce. La
grande quantité de variation au niveau
intraspécifique peut en fait être due à notre
approche consistant à utiliser plusieurs
individus F1 non consanguins d'une même
population échantillonnée dans l'environnement
naturel, mais reflète mieux la diversité
intra-population et, finalement, l'âge évolutif
ancien de l'espèce. lignée. Nous avons utilisé
GATK 42 et
DELLY 43 ,
deux outils bien établis, pour l'appel de
variantes ; cependant, l'appel de variantes
n'est toujours pas un problème bien résolu avec
souvent peu de chevauchement entre les résultats
des différentes routes algorithmiques (par
exemple, voir 44 , 45 ). En
ce qui concerne les statistiques rapportées sur
les effets variants, il est connu que l'état de
l'annotation structurelle et l'annotateur
d'effet variant utilisé influencent fortement
les résultats 46 . Les
résultats d'analyse présentés ici reflètent
l'état des reconstructions du génome (v1).
Le nombre relativement important de SV et de SMV
triés réciproquement parmi les deux espèces
étudiées est remarquable et pourrait refléter le
temps de divergence relativement ancien entre
les deux espèces étudiées, s'élevant à environ
2,5 à 6 Mya pour les deux clades 6 . En
fait, on s’attend à ce que les mutations
structurelles affectant les informations
codantes mettent plus de temps à évoluer que les
mutations régulatrices. Ainsi, lorsque l’on
compare des espèces provenant des lacs Victoria
et du Malawi, beaucoup plus jeunes, on ne
s’attendrait pas à un degré aussi marqué de
variation de codage réciproquement distincte. Le
SV et le SMV peuvent également être interprétés
à la lumière de l'hypothèse de la tige flexible 4 , 18 . La
tige flexible des radiations cichlidés est
formée d’espèces écologiquement et
phénotypiquement flexibles adaptées aux habitats
fluviaux saisonnièrement instables. Une fois
qu'ils ont semé des radiations lacustres, ils
peuvent rapidement s'adapter à des niches vides
dans cet environnement plus stable en raison de
leur grande plasticité phénotypique 18 . Par
la suite, la population phénotypiquement
plastique est subdivisée en phénotypes
adaptatifs alternatifs, puis les facteurs
génétiques adaptatifs sont triés au cours de la
spéciation pour continuer via l'accommodation
génétique et l'assimilation génétique 47 . La
plasticité phénotypique ou développementale fait
référence à la capacité d'un seul génotype à
produire plusieurs phénotypes dans différentes
conditions environnementales. L'hypothèse de la
tige flexible postule que la plasticité d'une
population peut influencer la direction de
l'évolution en exposant une variation génétique
cryptique à la sélection dans un nouvel
environnement. Selon ce modèle, des
sous-ensembles d'une population ancestrale
exploitent des niches écologiques distinctes
dans un nouvel habitat, comme différents types
d'aliments. Au cours d'une seule génération, la
plasticité de l'anatomie peut conduire à une
amélioration de la condition physique, par
exemple une capture ou une transformation plus
efficace des aliments, dans chaque niche. Les
variations phénotypiques nouvellement exposées
seront ciblées par la sélection, et si le nouvel
environnement est stable, les phénotypes
plastiques pourront être canalisés par
assimilation génétique. L'hypothèse est que les
mécanismes moléculaires de la réponse plastique
sous-tendent également l'évolution des
phénotypes clés, c'est-à-dire que la variation
génétique des mêmes molécules/voies de
signalisation, qui permettent la plasticité, est
ciblée par sélection et fixée afin de canaliser
le phénotype. Dans une étude récente, le rôle de
la signalisation hérisson (Hh) dans la
plasticité cranio-faciale chez les téléostéens a
été mis en évidence, démontrant que les niveaux
de Hh ajustent la sensibilité aux signaux
mécaniques liés aux conditions d'alimentation -
où les changements morphologiques adaptatifs
dans les structures immédiatement affectées, par
exemple, le les os pharyngés, peuvent propager
des changements morphologiques à d'autres
structures cranio-faciales 48 .
Des variantes ont été appelées dans pratiquement
toutes les régions génétiques. Environ 99 % ont
au moins une variante possible, selon les
paramètres appliqués, dans le corps du gène ou 5
kb en amont/en aval (Fig. 3 B). Les
gènes avec au moins une mutation ont été soumis
à une analyse d'ontologie génétique (GO) pour
obtenir des indications sur d'éventuels groupes
fonctionnels intéressants affectés par davantage
de variantes - c'est-à-dire que le nombre de
variantes (ou « charge de mutation ») a été
utilisé comme indicateur de la probabilité d'une
mutation efficace. changements. La justification
de cette approche était l'hypothèse de
l'exactitude du modèle infinitésimal ou du
modèle omnigénique 49 ,
respectivement. On peut s'attendre à ce que les
changements phénotypiques observés ne soient pas
dus à quelques variantes à fort impact
(généralement une région codante), mais plutôt à
plusieurs variantes à « impact moindre » (dans
les catégories utilisées, probablement les «
variantes modificatrices » qui représentent
généralement > 90 % des charge de
mutation). Même si à ce stade, la pertinence de
la variation dans les gènes sélectionnés n'est
pas claire, tous les gènes répertoriés ont de
multiples appels concernant le SMV et le SV
(Fig. 3 B ),
ce qui peut augmenter les chances d'influencer
efficacement les phénotypes. Compte tenu des
fonctions qui leur sont attribuées et rapportées
dans d'autres organismes (tableau 10 ),
ces gènes méritent cependant d'être étudiés. Par
exemple, cinq gènes liés à la définition de la
forme du nez et du menton ( DCHS2 , RUNX2 , GLI3 , PAX1 et EDAR )
ont récemment été identifiés dans une étude GWAS
humaine 50 ; plusieurs
variantes de tous ces gènes ont également été
trouvées entre les deux espèces. De plus, les
membres des familles PAX3 , KCTD15 et TBX ( TBX1 et TBX10 ,
mais pas TBX15 comme
indiqué précédemment) sont dans le jeu de
résultats ; ces gènes ont été liés à la
morphologie du visage chez l'homme dans deux
autres études GWAS récentes 51 , 52 (Tableau 10 ). Les
futures analyses en aval devraient se concentrer
particulièrement sur les gènes présentant des
différences stables dans l’expression des gènes
entre les espèces étudiées. Comme indiqué
précédemment, nous nous concentrons sur les
différences de formes faciales et pharyngées
(voir Fig. S1
supplémentaire).). Il
est intéressant de noter que cette méthode
simple de comptage de variantes impartiales
(«charge de mutation») produit de manière
reproductible les termes GO liés à la
morphogenèse du viscérocrâne (voir Informations
supplémentaires), sans donner une longue liste
plutôt non spécifique de termes GO. Du résultat
GO découle la mise en évidence de plusieurs
voies de signalisation importantes :
signalisation BMP (par exemple, bmp2, bmp4),
signalisation Hedgehog (Hh) (par exemple, Shh,
famille Gli, famille Sec, smo, med12, plcb3),
signalisation de l'endothéline (par exemple ,
edn1, furine, famille dlx), signalisation de
l'acide rétinoïque (RA) (par exemple, rere,
rerea) et signalisation du facteur de croissance
des fibroblastes (FGF) (par exemple, fgf8,
fgf20b) (voir le tableau 10 et le tableau supplémentaire S21 ) . Tous
ces réseaux de signalisation sont connus pour
jouer un rôle dans la régulation de la
morphogenèse faciale des vertébrés et
interagissent. Il existe, par exemple, de fortes
interactions coopératives et fonctionnelles
entre Shh et l'acide rétinoïque 53 , 54 , 55 , 56 , 57 , 58 . Une
analyse comparative plus approfondie de la
distribution des variantes génétiques observées
entre les deux espèces et de leurs phénotypes
respectifs n'a pas été réalisée à ce stade ; ce
sera une tâche importante pour les études de
suivi.
Pour résumer, les deux nouveaux projets de
génomes ajoutent deux espèces clés
monophylétiques et éco-morphologiquement
divergentes qui comblent une lacune
phylogénétique importante. De plus, ils
représentent la première ramification des
cichlidés haplochromines dits modernes, la
lignée la plus riche en espèces de cichlidés
d’Afrique de l’Est. Tandis que les Tropheini
rayonnaient dans les confins du lac Tanganyika,
leurs alliés se répandaient sur plusieurs
rivières pour semer des radiations
supplémentaires comme celles des lacs Malawi et
Victoria, où celles-ci atteignaient une
diversité éco-morphologique comparable.
Méthodes
Espèces étudiées
Les spécimens échantillonnés de T.
moorii sont
des descendants F2 d'individus capturés dans la
nature dans la partie zambienne de la rive
sud-ouest du lac Tanganyika (08°38′ S 30°52′ E)
près du village de Nakaku, qui ont été amenés à
l'Université de Graz. en 2005. Les spécimens de
P. trewavasae utilisés
dans cette étude sont des descendants F1 de
poissons sauvages également de la côte
sud-ouest, mais plus au nord-est près du village
de Katete (08°20′S 30°30′E) et ont été obtenus à
partir d'un poisson d'ornement. importateur. La
collecte de la génération parentale de poissons
a été réalisée dans le cadre d'un protocole
d'accord entre le Département des pêches, le
Ministère de l'agriculture et des coopératives
de Zambie, le Département des sciences
biologiques de l'Université de Zambie à Lusaka,
le Département de zoologie de l'Université de
Graz, en Autriche, le Département d'écologie
comportementale de l'Université de Berne, en
Suisse, et le Département de zoologie de
l'Université de Bâle, en Suisse, en vertu du
permis de recherche délivré au CSt par le
ministère zambien de l'Intérieur (numéro de
permis :SP006515). Les données de séquence
présentées ici sont basées sur des extractions
d'ADN de 6 P.
trewawasae et
5 T . individus
moorii ; les
spécimens comprenaient les deux sexes et étaient
âgés d'environ un an.
Procédures de séquençage et de laboratoire
Nous avons séquencé l'ADN génomique extrait des
échantillons ci-dessus à l'aide de plusieurs
technologies de séquençage : Illumina HiSeq
paire d'extrémités 2 × 101 pb (taille de
fragment de 300 pb et 600 pb), Illumina Nextera
mate-pair 2 × 100 pb (taille de fragment de 1 à
6 kpb). ), 454 Life Sciences (~ 350 pb de
longueur de lecture moyenne ; taille de fragment
de 8 et 20 kbps) et technologie de séquençage de
molécule unique en temps réel (SMRT) de Pacific
Biosciences (PacBio) (~ 8 000 à 9 000 pb de
longueur de lecture moyenne après correction) .
Les méthodes liées au laboratoire (extraction
d'ADN, préparation de bibliothèques et
séquençage) ont, en partie, été décrites
précédemment dans l'article d'accompagnement sur
les génomes mitochondriaux 59 . De
plus, nous avons effectué deux cycles de
séquençage en utilisant la technologie de
séquençage de deuxième génération de Pacific
Biosciences, basée sur un individu par
espèce. L'extraction de l'ADN a été réalisée à
Graz, la préparation de la bibliothèque et le
séquençage au Centre de technologies génomiques
de Lausanne : l'ADN a été cisaillé dans un
g-TUBE Covaris (Covaris, Woburn, MA, USA) pour
obtenir des fragments de 20 kpb. Après
cisaillement, la distribution de la taille de
l'ADN a été vérifiée sur un analyseur de
fragments (Advanced Analytical Technologies,
Ames, IA, USA). 5 µg d'ADN cisaillé ont été
utilisés pour préparer une bibliothèque SMRTbell
avec le kit de préparation de modèles PacBio
SMRTbell 1 (Pacific Biosciences, Menlo Park,
Californie, États-Unis) conformément aux
recommandations du fabricant. La bibliothèque
résultante a été sélectionnée en taille sur un
système BluePippin (Sage Science, Inc. ;
Beverly, MA, USA) pour les molécules de plus de
11 kpb. La bibliothèque récupérée a été
séquencée sur treize/seize cellules SMRT (TM/PT)
avec la chimie P6/C4 et MagBeads sur un système
PacBio RSII (Pacific Biosciences, Menlo Park,
CA, USA) pendant une durée de film de 240
minutes.
Pour l'ARN-seq, l'ARN total d'un individu mâle
et femelle par espèce (regroupé à partir des
tissus suivants : foie, rate, cerveau, cœur et
muscle squelettique) a été extrait avec Trizol
comme suit : les tissus ont été homogénéisés
avec MagnaLyser et incubés avec Trizol- tube 5
min à température ambiante (RT) ; 200 µl de
chloroforme (/ml de Trizol) ont été ajoutés et
secoués vigoureusement pendant 15 s, incubés
pendant 2 à 3 min/RT et centrifugés à 12 200
tr/min/4 °C/15 min ; le surnageant a été
transféré dans un nouveau tube de 1,5 ml et 500
µl d'isopropanol (/ml de Trizol) ont été
ajoutés ; après vortex, incubation pendant 10
min/RT, centrifugation à 12 200 tr/min/4 °C/10
min, le surnageant a été jeté et le culot placé
immédiatement sur la glace. Les culots ont été
lavés 2 fois : ajouter 1 ml d'EtOH à 80 % (-20
°C), centrifuger : pleine vitesse/4 °C/5 min,
éliminer le surnageant et enfin séchés à 37
°C. Les culots séchés ont été remis en
suspension dans 20 µl d'eau distillée. Les
bibliothèques d'ARN-seq ont été dérivées d'ARN
total appauvri en ARNr, normalisé et séquencé
sur une seule voie Illumina HiSeq 2500 par
espèce.
(Pré)traitement général des données
Tout le pipeline et le traitement de niveau
supérieur ont été effectués avec R/Bioconductor,
quelques pipelines mineurs dans Bash et
certaines fonctionnalités de pointe ont été
écrites en C ++ (appelées depuis R). Pour plus
de détails sur les réglages des paramètres pour
les étapes/outils importants, voir le tableau
supplémentaire S22 .
FastQC v0.10.1 60 a
été utilisé pour l'évaluation de base de la
qualité de lecture. Une approche personnalisée
basée sur le spectre k-mer utilisant JELLYFISH
v2.0 61 (en
conjonction avec une base de données de
séquences techniques connues) et une approche
basée sur De
Bruijn (implémentée
dans Minion à partir du package Kraken v13-274 62 )
ont été utilisées pour le identification
automatique des contaminants techniques et des
séquences suspectes (en fonction des fréquences
attendues). De plus, FastQScreen v0.4.4 63 a
été utilisé pour l'identification spécifique à
l'espèce de la contamination biologique et
DeconSeq v0.4.3 64 pour
sa suppression. Cutadapt v1.5 65 a
été utilisé pour l'élimination des contaminants
techniques, Scythe v0.994 66 pour
un découpage supplémentaire de l'adaptateur 3',
CLC Quality Trim v4.2 67 pour
un découpage de lecture basé sur le score de
qualité et Reaper v13-274 62 pour
une meilleure qualité. et un filtrage basé sur
la complexité. BBmerge v33.40 68 a
été utilisé pour la fusion de lectures appariées
superposées et FastUniq v1.1 69 pour
la suppression des doublons. Nextclip v1.2 70 a
été utilisé pour le filtrage et la
classification de lecture des paires de
partenaires Nextera. 454 ensembles de données
ont également été filtrés avec sffToCA
(utilitaire Celera Assembler). BAMtools v2.4.0 71 ,
SAMtools/BCFtools/HTSlib v1.4 72 et
les outils Picard v1.119 73 ont
été utilisés pour le mappage et les
manipulations de fichiers de séquence telles que
l'indexation, la fusion, le tri et la génération
de sous-ensembles, la suppression des lectures
en double et la suppression. de contamination PE
à partir de bibliothèques MP dans des fichiers
de séquence. Proovread v2.13.10 74 a
été utilisé pour la correction de lecture PacBio
en utilisant toutes les données Illumina PE
disponibles et les unitigs créés
par MaSuRCA v2.3.2 75 . SEECER
v0.1.3 76 et
Rcorrector v1.0.2 77 ont
été utilisés pour RNA-seq et Musket v1.1 78 pour
la correction des appels de base ADN-seq. Les
ensembles de données DNA-seq et RNA-seq ont été
prétraités en utilisant le même pipeline (avec
des paramètres différents) ; en général, deux
régimes de filtrage ont été appliqués à chaque
ensemble de données (« strict »/« standard » et
« détendu ») en préparation de différents cas
d'utilisation en aval (voir le tableau
supplémentaire S22 ). La
taille du génome a été estimée par une approche
basée sur le spectre k-mer mise en œuvre dans
GCE v1.0.2 79 .
Assemblage du génome
Du point de vue du méta-assemblage réalisé,
l'algorithme implémenté dans MaSuRCA v2.3.2 75 (utilise
Celera Assembler v6.5 80 )
a servi de procédure d'assemblage de base ; Tous
les ensembles de données disponibles à l'heure
actuelle (c'est-à-dire Illumina PE et MP,
Illumina Nextera MP et 454 MP et SE) ont été
utilisés. Celera Assembler v8.3rc2 (CA) 80 a
été utilisé pour les assemblages « PacBio
uniquement ». Comme plusieurs individus par
espèce (tous des diploïdes non consanguins) ont
été séquencés dans ce projet, l'hétérozygotie
était une préoccupation. Par conséquent, des
algorithmes d'assemblage spécialement conçus
pour mieux gérer la divergence ont été
incorporés dans l'approche de reconstruction :
Platanus v1.2.1 81 est
un assembleur récent conçu pour traiter de
manière plus judicieuse les problèmes
d'hétérozygotie dans les données génomiques (5
itérations ; tous les ensembles de données
Illumina ont été utilisés) ; Redundans v0.12c 82 (utilise
SSPACE3 83 ,
GapCloser 84 ,
bwa 85 et
last 86 )
vise également à fournir des assemblages plus
précis et contigus de génomes hautement
hétérozygotes (5 itérations ; tous les ensembles
de données Illumina ont été utilisés). La suite
PBJelly v15.8.24 87 (utilise
BLASR 88 )
a été utilisée pour incorporer les lectures à
séquence longue (PacBio) dans un processus
d'assemblage guidé par référence dans les
ébauches établies (5 itérations). L'ensemble
diversifié de projets de génome générés a été
soumis à Metassembler 89 dans
le but de générer des séquences consensus de
haute qualité. Un algorithme personnalisé, qui
prend en compte plusieurs mesures sur les
erreurs d'assemblage probables, la contiguïté et
les prédictions génétiques (tirant des
informations de QUAST 90 et
REAPR 38 ),
a été appliqué pour déterminer le meilleur ordre
des méta-assemblages successifs.
REAPR v1.0.18 38 (utilisant
SMALT v0.7.0.1 97 )
a été utilisé avec les bibliothèques Illumina
Nextera mate-pair (6 kpb) et Illumina PE (600
pb) pour évaluer l'exactitude des assemblages et
QUAST v4.1 90 a été appliqué
pour les statistiques de contiguïté et de
prédiction génétique. L'exhaustivité des
assemblages a été évaluée à l'aide de CEGMA
v2.5 35 (en
utilisant GeneWise v2.4.1 98 ,
HMMER v3.0 99 et
NCBI BLAST + v2.2.29 + 93 )
avec optimisation des paramètres pour les
génomes de vertébrés (–vrt) et BUSCO v3.0.2 34 (en
utilisant NCBI BLAST + v2.2.29 + , HMMER v3.1 99 et
AUGUSTUS v3.2.1 100 ).
Assemblage du transcriptome et cartographie des
lectures d'ARN-seq
Les assemblages du transcriptome ont été
réalisés avec Trinity v2.3.2 101 , 102 et
le pipeline PASA2 v2.0.2 103 (en
utilisant GMAP v2014-12-06 104 ,
BLAT v36.1 105 et
MySQL v5.7.12 106 )
; Transdecoder
v3.0.1 102 a
également été appliqué pour identifier les
régions codantes candidates (utilisées avec
MAKER3 107 ). Les
alignements de lecture d'ARN-seq pour d'autres
analyses ont généralement été effectués avec
STAR v2.4.2a 108 en
utilisant les paramètres par défaut.
Annotation du génome
Des annotations structurelles ont été réalisées
sur la base de données expérimentales provenant
d'ensembles de données d'ARNm-Seq. De plus, des
informations ont été tirées de modèles de
transcription et de protéines provenant
d'ensembles de données sélectionnés accessibles
au public ( Danio rerio , H.
burtoni, M. zebra, N. brichardi, O. niloticus et P.
nyererei )
et d'autres modèles dans UniProt | , nr/nt et
UniRef90|teleost. L'annotation fonctionnelle a
été principalement réalisée via des comparaisons
basées sur BLAST avec les bases de données
mentionnées et via une multitude de bases de
données coordonnées par InterProScan 5 (voir
Tableau 2 ).
L'annotation structurelle des gènes codants et
des ARNt a été générée à l'aide des pipelines
MAKER v3.0 107 (en
utilisant les chercheurs de gènes GeneMark-ES
v4.32 109 ,
AUGUSTUS v3.2.1 100 ,
SNAP v2013-11–29 110 et
tRNAscan v1.3.1 111 )
, Funannotate v0.5.5-v0.7.0 112 (FA)
et BRAKER1 v1.9 113 (utilisant
GeneMark-ET v4.32 114 et
AUGUSTUS v3.2.1 100 )
; BRAKER1 a également été utilisé pour la
formation AUGUSTUS. De plus, des modèles
génétiques ont été créés avec StringTie v1.3.2d 115 et
Cufflinks v2.2.1 116 . Tous
les modèles ont été combinés par EVidenceModeler
v1.1.1 117 (EVM)
sous le contrôle de MAKER3. Pour les ARN non
codants, Infernal v1.1.2 118 ,
Rfam v12.1 119 et
FEELnc v0.1.0 120 ont
été utilisés. L'ensemble de formation d'ARNm
pour FEELnc a été dérivé des données
d'annotation FA/MAKER, où des modèles de gènes
présumés « bons » avec une structure similaire
aux modèles précédemment publiés ont été
sélectionnés ; l'ensemble de formation lncRNA a
été généré par mélange des séquences d'ARNm. Les
microsatellites ont été appelés avec MISA v1.0 121 ,
les îles CpG avec EMBOSS v6.6.0 122 cpgplot
et les ORF avec EMBOSS v6.6.0 getorf (et
post-traitement R). Les répétitions ont été
déterminées à l'aide de RepeatMasker v4.0.6 32 (avec
RepBase v20160321 123 et
de bibliothèques spécifiques aux espèces
générées avec RepeatModeler v1.0.8 124 ),
RepeatScout v1.0.5 125 et
TRF v406 126 .
L'annotation fonctionnelle a été réalisée à
l'aide d'InterProScan v5.24–63.0 127 (en
utilisant les bases de données CDD-3.14,
Coils-2.2.1, Gene3D-3.5.0, Hamap-201605.11,
MobiDBLite-1.0, PANTHER-11.1, Pfam-30.0, PIRSF-
3.01, PRINTS-42.0, ProDom-2006.1,
ProSitePatterns-20.119, ProSiteProfiles-20.119,
SFLD-2, SMART-7.1, SUPERFAMILY-1.75,
TIGRFAM-15.0 et TMHMM-2.0c). De plus, sous le
contrôle de FA, les bases de données eggNOG
v4.5.1 128 (fiNOG),
MEROPS v12.0 129 ,
dbCAN v5.0 130 et
BUSCO vertebrata v3 34 ont
été utilisées pour les recherches de similarité
et SIGNALP v4.1 131 pour
l'identification de l'emplacement cible.
séquences de signaux.
L'intégration finale de toutes les annotations a
été réalisée avec R 3.4.3/Bioconductor 3.6 en
utilisant les packages data.table 1.12.2,
GenomicFeatures 1.30.3, VariantAnnotation 1.24.5
et leurs dépendances.
Cartographie de lecture de séquences d'ADN
Les lectures prétraitées ont été alignées en
mode paire avec BWA mem 85 en
utilisant les paramètres par défaut avec les
indicateurs ‐M et ‐R. Les lectures alignées ont
été triées par coordonnées avec Picard SortSam
v1.119 73 et
indexées avec l'index SAMtools v1.4 72 . Les
doublons ont été supprimés avec Picard
MarkDuplicates v1.119. La qualité des
cartographies a été évaluée avec QualiMap v2.0 132 .
Analyse comparative – appel de petites (SMV) et
de variantes structurelles (SV) – prédiction de
l'effet des variantes
La boîte à outils d'analyse du génome (GATK)
v3.7 a été utilisée pour le réalignement local
des lectures ainsi que pour la détection et le
filtrage des variantes SNP/InDel (appelées
petites variantes, SMV) 42 ,
comme recommandé par la documentation GATK ; le
HaplotypeCaller a été appliqué - avec un score
minimum pour l'émission de variantes de 10, pour
l'appel de 30 et un élagage minimum de 10. Les
SMV avec un score de qualité ≥ 30 ont été inclus
dans des analyses plus approfondies. DELLY
v0.7.7 43 a
été appliqué pour appeler des variantes
structurelles (SV, insertions, suppressions,
duplications, inversions et translocations) avec
une taille limite d'insertion de 3 (pour les
suppressions) et une qualité minimale de mappage
des extrémités appariées de 20. Toutes les
variantes avec un minimum de 5 paires de
lectures brisées prenant en charge la variante
ainsi qu'une longueur minimale de 300 pb (pour
les suppressions, les inversions et les
duplications) ont été incluses dans des analyses
plus approfondies, comme recommandé par la
documentation DELLY. Des effets de variantes
présumés ont été appelés avec SNPeff v4.3r 37 . Whippet
v0.11.1 133 a
été utilisé pour l'appel d'événements d'épissage
alternatifs. Les analyses comparatives ont été
effectuées dans R 3.4.3/Bioconductor 3.6 en
utilisant les packages data.table 1.12.2,
GenomicFeatures 1.30.3, VariantAnnotation 1.24.5
et leurs dépendances.
Analyse GO
Pour affiner la liste des gènes candidats, une
analyse d'enrichissement GO a été réalisée sur
les régions génétiques portant des variants à
l'aide du package R topGO v2.30.1 134 ; les
annotations GO personnalisées ont été générées
sur la base des mappages InterProScan. La
topologie GO a été prise en compte ( poids de
la méthode ) et l'enrichissement a été évalué
via un test exact de Fisher avec un seuil de p ≤
0,001. Voir les détails de l'analyse GO dans les
informations supplémentaires.
Approbation éthique et consentement à participer
Le traitement des animaux rapporté dans cet
article est conforme aux normes de la loi
autrichienne sur la protection des animaux et de
la directive communautaire 86/609 de la
Communauté européenne. Les poissons ont été
conservés dans notre aquarium certifié à
l'Institut de biologie de l'Université de
Graz. Les individus ont été échantillonnés par
CSt et SK, euthanasiés à l'aide d'une surdose
d'huile de clou de girofle et décapités
conformément à la législation autrichienne sur
le bien-être des animaux. Conformément à la loi
autrichienne sur l'expérimentation animale (TVG,
BGBI. Nr. 501/1989, modifiée en dernier lieu par
BGBI. I Nr. 162/2005), l'approbation n'était pas
requise car aucun traitement expérimental
n'était effectué.
Greenwood, PH cichlidés africains et
théories évolutionnistes. Dans Evolution
of Fish Species Flock (éd.
Echelle, AA & Kornfield, I.) 141-154
(Université du Maine à Orono Press,
Orono, 1984).
Muschick, M., Indermaur, A. &
Salzburger, W. Evolution convergente
au sein d'un rayonnement adaptatif
de poissons cichlidés. Curr. Biol. 22 ,
2362-2368 (2012).
Wagner, CE, Harmon, LJ et Seehausen,
O. L'opportunité écologique et la
sélection sexuelle prédisent
ensemble le rayonnement adaptatif. Nature 487 ,
366-369 (2012).
Tiercelin, J.-J. & Mondeguer, A. La
géologie de la fosse du
Tanganyika. Dans Lake
Tanganyika and its Life (éd.
Coulter, GW) 7–48 (Oxford University
Press, Oxford, 1991).
Irisarri, I. et
coll. La
phylogénomique révèle une
hybridation précoce et des loci
adaptatifs façonnant le rayonnement
des poissons cichlidés du lac
Tanganyika. Nat. Commun. 9 ,
3159 (2018).
Salzburger, W., Meyer, A., Baric,
S., Verheyen, E. et Sturmbauer, C.
Phylogénie du troupeau d'espèces de
cichlidés du lac Tanganyika et sa
relation avec les faunes de poissons
cichlidés haplochromines d'Afrique
centrale et orientale. Système. Biol. 51 ,
113-135 (2002).
Sturmbauer, C., Salzburger, W.,
Duftner, N., Schelly, R. &
Koblmüller, S. Histoire évolutive de
la tribu des
cichlidés du lac Tanganyika Lamprologini
(Teleostei : Perciformes) dérivée de
données d'ADN mitochondrial et
nucléaire. Mol. Phylogène. Évol. 57 ,
266-284 (2010).
Sturmbauer, C., Levinton, JS &
Christy, J. Analyse de la phylogénie
moléculaire des crabes violonistes :
test de l'hypothèse d'une complexité
comportementale croissante au cours
de l'évolution. Proc. Natl. Acad. Sci. États-Unis 93 ,
10855-10857 (1996).
Katongo, C., Koblmüller, S., Duftner,
N., Mumba, L. & Sturmbauer, C.
Histoire évolutive et affinités
biogéographiques des cichlidés
serranochromines dans les rivières
zambiennes. Mol. Phylogène. Évol. 45 ,
326-338 (2007).
Sturmbauer, C., Koblmüller, S., Sefc,
KM & Duftner, N. Histoire
phylogéographique du genre Tropheus ,
une lignée de poissons cichlidés
rocheux endémiques du lac
Tanganyika. Hydrobiologie 542 ,
335-366 (2005).
Svardal, H. et
coll. L'hybridation
ancestrale a facilité la
diversification des espèces dans le
rayonnement adaptatif des poissons
cichlidés du lac Malawi. Mol. Biol. Évol. 37 ,
1100-1113 (2020).
Kullander, SO & Roberts, TR Hors du
Tanganyika : les poissons de lac
endémiques habitent les rapides de
la rivière Lukuga. Ichtyol. Explorer. Fraîchement. 22 ,
355-376 (2011).
Rossiter, A. Les assemblages de
poissons cichlidés du lac
Tanganyika : écologie, comportement
et évolution de ses troupeaux
d'espèces. Dans Advances
in Ecological Research (eds
Begon, M. & Fitter, AH) 187-252 (Academic
Press Ltd., Londres, 1995).
Malinsky, M. et
coll. Les
séquences du génome entier des
cichlidés du Malawi révèlent de
multiples radiations interconnectées
par le flux génétique. Nat. Écol. Évol. 2 ,
1940-1955 (2018).
Carleton, KL, Dalton, BE, Escobar-Camacho,
D. & Nandamuri, SP Causes immédiates
et ultimes des sensibilités
visuelles variables : aperçus des
radiations des poissons cichlidés. Genèse 54 ,
299-325 (2016).
Maan, ME & Sefc, KM Variation de
couleur chez les poissons
cichlidés : mécanismes de
développement, pressions sélectives
et conséquences évolutives. Semin. Cellule. Dév. Biol. 24 ,
516-528 (2013).
Conté, MA et
al. Les
assemblages à l'échelle
chromosomique révèlent l'évolution
structurelle des génomes des
cichlidés africains. GigaScience 8 ,
giz030 (2019).
Conte, MA, Gammerdinger, WJ, Bartie,
KL, Penman, DJ & Kocher, TD Un
assemblage de haute qualité du
génome du tilapia du Nil ( Oreochromis
niloticus )
révèle la structure de deux régions
de détermination du sexe. bioRxiv https://doi.org/10.1101/099564 (2017).
Vij, S. et
coll. Assemblage
au niveau chromosomique du génome du
bar asiatique à l'aide de lectures
de séquences longues et d'un
échafaudage multicouche. PLoS
Genet. 12 ,
e1005954 (2016).
Simão, FA, Waterhouse, RM,
Ioannidis, P., Kriventseva, EV &
Zdobnov, EM BUSCO : Évaluation de
l'assemblage du génome et de
l'exhaustivité des annotations avec
des orthologues à copie unique. Bioinformatique 31 ,
3210-3212 (2015).
Parra, G., Bradnam, K. & Korf, I.
CEGMA : Un pipeline pour annoter
avec précision les gènes centraux
des génomes eucaryotes. Bioinformatique 23 ,
1061-1067 (2007).
Dohmen, E., Kremer, LPM,
Bornberg-Bauer, E. & Kemena, C.
DOGMA : Évaluation de la qualité du
transcriptome et du protéome basé
sur le domaine. Bioinformatique 32 ,
2577-2581 (2016).
Asalone, KC et
al. Expansion
ou effondrement de séquences
régionales dans les assemblages
génomiques hétérozygotes. Calcul
PLoS. Biol. 16 ,
e1008104 (2020).
McKenna, A. et
coll. La
boîte à outils d'analyse du génome :
un cadre MapReduce pour analyser les
données de séquençage de l'ADN de
nouvelle génération. Génome
Res. 20 ,
1297-1303 (2010).
Rausch, T. et
coll. DELLY : Découverte
de variantes structurelles par
analyse intégrée des extrémités
appariées et des lectures
fractionnées. Bioinformatique 28 ,
i333–i339 (2012).
Liu, Y. et
coll. Comparaison
de plusieurs algorithmes pour
détecter de manière fiable les
variantes structurelles des poires. BMC
Génomique 21 ,
61 (2020).
Supernat, A., Vidarsson, OV, Steen,
VM et Stokowy, T. Comparaison de
trois variantes d'appelants pour le
séquençage du génome humain entier. Sci. Rep.8
, 17851 (2018).
Gunter, HM, Schneider, RF, Karner,
I., Sturmbauer, C. & Meyer, A.
Enquête moléculaire sur
l'assimilation génétique lors des
radiations adaptatives rapides des
poissons cichlidés d'Afrique de
l'Est. Mol. Écol. 26 ,
6634-6653 (2017).
Navon, D. et
coll. La
signalisation hérisson est
nécessaire et suffisante pour
assurer la médiation de la
plasticité cranio-faciale chez les
téléostéens. Proc. Natl. Acad. Sci. États-Unis 117 ,
19321-19327 (2020).
Adhikari, K. et
al. Une
analyse d'association à l'échelle du
génome implique DCHS2, RUNX2, GLI3,
PAX1 et EDAR dans la variation
faciale humaine. Nat. Commun. 7 ,
11616 (2016).
Liu, F. et
al. Une
étude d'association à l'échelle du
génome identifie cinq loci
influençant la morphologie du visage
chez les Européens. PLoS
Genet. 8 ,
e1002932 (2012).
Claes, P. et
al. Cartographie
à l'échelle du génome des effets
génétiques mondiaux à locaux sur la
forme du visage humain. Nat. Genet. 50 ,
414-423 (2018).
Lupo, G., Harris, WA et Lewis, KE
Mécanismes de structuration ventrale
dans le système nerveux des
vertébrés. Nat. Révérend
Neurosci. 7 ,
103-114 (2006).
Dworkin, S., Boglev, Y., Owens, H. &
Goldie, SJ Le rôle du hérisson
sonique dans la structuration
craniofaciale, la morphogenèse et la
survie de la crête neurale
crânienne. J.
Dev. Biol. 4 ,
24 (2016).
Zhou, H., Kim, S., Ishii, S. &
Boyer, TG Mediator module la
signalisation Sonic hedgehog
dépendante de Gli3. Mol. Biol
cellulaire. 26 ,
8667-8682 (2006).
Clouthier, DE, Garcia, E. &
Schilling, TF Régulation de la
morphogenèse faciale par la
signalisation de l'endothéline :
aperçus des souris et des poissons. Suis. J.Méd. Genet. Un 152A ,
2962-2973 (2010).
Fischer, C. et
coll. Séquences
complètes d'ADN mitochondrial du
cichlidé Threadfin ( Petrochromis
trewavasae )
et du cichlidé Blunthead ( Trophée
moorii )
et modèles d'évolution du génome
mitochondrial chez les poissons
cichlidés. PLoS
ONE 8 ,
e67048 (2013).
Marçais, G. & Kingsford, C. Une
approche rapide et sans verrouillage
pour un comptage parallèle efficace
des occurrences de k-mers. Bioinformatique 27 ,
764-770 (2011).
Davis, MPA, van Dongen, S.,
Abreu-Goodger, C., Bartonicek, N. &
Enright, AJ Kraken : Un ensemble
d'outils pour le contrôle qualité et
l'analyse des données de séquence à
haut débit. Méthodes 63 ,
41–49 (2013).
Schmieder, R. & Edwards, R.
Identification et suppression
rapides de la contamination des
séquences des ensembles de données
génomiques et métagénomiques. PLoS
ONE 6 ,
e17288 (2011).
Bushnell, B., Rood, J. et Singer, E.
BBMerge : fusion précise de lectures
de fusils de chasse couplées via
chevauchement. PLoS
ONE 12 ,
e0185056 (2017).
Leggett, RM, Clavijo, BJ, Clissold,
L., Clark, MD & Caccamo, M. NextClip
: Un outil d'analyse et de
préparation à la lecture pour les
bibliothèques Nextera Long Mate
Pair. Bioinformatique 30 ,
566-568 (2014).
Barnett, DW, Garrison, EK, Quinlan,
AR, Strömberg, MP & Marth, GT
BamTools : une API C++ et une boîte
à outils pour analyser et gérer les
fichiers BAM. Bioinformatique 27 ,
1691-1692 (2011).
Hackl, T., Hedrich, R., Schultz, J.
& Förster, F. proovread : correction
PacBio de haute précision à grande
échelle grâce à un consensus
itératif de lecture courte. Bioinformatique 30 ,
3004-3011 (2014).
Le, HS, Schulz, MH, McCauley, BM,
Hinman, VF et Bar-Joseph, Z.
Correction d'erreur probabiliste
pour le séquençage de l'ARN. Acides
nucléiques Res. 41 ,
e109 (2013).
Liu, Y., Schröder, J. & Schmidt, B.
Musket : Un correcteur d'erreurs à
plusieurs étages basé sur le spectre
k-mer pour les données de séquence
Illumina. Bioinformatique 29 ,
308-315 (2013).
Liu,B. et
coll. Estimation
des caractéristiques génomiques par
analyse de la fréquence k-mer dans
les projets génomiques de
novo . arXiv : 1308.2012 (2013).
Denisov, G. et
al. Génération
de consensus et détection de
variantes par Celera Assembler. Bioinformatique 24 ,
1035-1040 (2008).
Kajitani, R. et
al. Assemblage
de novo efficace de génomes
hautement hétérozygotes à partir de
courtes lectures de fusil de chasse
du génome entier. Génome
Res. 24 ,
1384-1395 (2014).
Boetzer, M., Henkel, CV, Jansen, HJ,
Butler, D. et Pirovano, W.
Échafaudage de contigs pré-assemblés
à l'aide de SSPACE. Bioinformatique 27 ,
578-579 (2011).
Frith, MC, Wan, R. & Horton, P.
L'intégration de données de qualité
de séquence dans l'alignement
améliore la cartographie des
lectures d'ADN. Acides
nucléiques Res. 38 ,
100 euros (2010).
Anglais, AC et
al. Attention
à l'écart : mise à niveau des
génomes grâce à la technologie de
séquençage à lecture longue de
Pacific Biosciences RS. PLoS
ONE 7 ,
e47768 (2012).
Chaisson, MJ & Tesler, G.
Cartographie des lectures de
séquençage de molécules uniques en
utilisant l'alignement local de base
avec raffinement successif (BLASR) :
application et théorie. BMC
Bioinformer. 13 ,
238 (2012).
Gurevich, A., Saveliev, V., Vyahhi,
N. & Tesler, G. QUAST : Outil
d'évaluation de la qualité des
assemblages de génomes. Bioinformatique 29 ,
1072-1075 (2013).
Kosugi, S., Hirakawa, H. et Tabata,
S. GMcloser : combler les lacunes
dans les assemblages avec précision
grâce à une sélection basée sur la
vraisemblance d'alignements contig
ou à lecture longue. Bioinformatique 31 ,
3733-3741 (2015).
Paulino, D. et
al. Sealer :
une application évolutive permettant
de combler les lacunes pour la
finition des projets de génomes. BMC
Bioinformer. 16 ,
230 (2015).
Stanke, M. & Morgenstern, B.
Augustus : Un serveur Web pour la
prédiction génétique chez les
eucaryotes qui permet des
contraintes définies par
l'utilisateur. Acides
nucléiques Res. 33 ,
W465-W467 (2005).
Grabherr, MG et
coll. Trinity :
reconstruction d'un transcriptome
complet sans génome à partir de
données RNA-Seq. Nat. Biotechnologie. 29 ,
644-652 (2011).
Haas, BJ et
coll. Reconstruction
de séquence de transcription de novo
à partir de RNA-Seq : génération de
référence et analyse avec Trinity. Nat. Protocole. 8 ,
1494-1512 (2013).
Haas, BJ et
coll. Amélioration
de l'annotation du génome
d'Arabidopsis à l'aide d'assemblages
d'alignement maximal des
transcriptions. Acides
nucléiques Res. 31 ,
5654-5666 (2003).
Wu, TD & Watanabe, CK GMAP : Un
programme de cartographie et
d'alignement génomique pour les
séquences d'ARNm et EST. Bioinformatique 21 ,
1859-1875 (2005).
Cantarel, BL et
coll. MAKER : un
pipeline d'annotation facile à
utiliser conçu pour les génomes
d'organismes modèles émergents. Génome
Res. 18 ,
188-196 (2008).
Lomsadze, A., Ter-Hovhannisyan, V.,
Chernoff, YO et Borodovsky, M.
Identification de gènes dans de
nouveaux génomes eucaryotes par
algorithme d'auto-entraînement. Acides
nucléiques Res. 33 ,
6494-6506 (2005).
Schattner, P., Brooks, AN & Lowe, TM
Les serveurs Web tRNAscan-SE,
snoscan et snoGPS pour la détection
des ARNt et des snoRNA. Acides
nucléiques Res. 33 ,
W686-W689 (2005).
Hoff, KJ, Lange, S., Lomsadze, A.,
Borodovsky, M. & Stanke, M.
BRAKER1 : Annotation du génome non
supervisée basée sur RNA-Seq avec
GeneMark-ET et AUGUSTUS. Bioinformatique 32 ,
767-769 (2016).
Lomsadze, A., Burns, PD et
Borodovsky, M. Intégration des
lectures d'ARN-Seq cartographiées
dans l'entraînement automatique de
l'algorithme de recherche de gènes
eucaryotes. Acides
nucléiques Res. 42 ,
e119 (2014).
Pertea, M. et
coll. StringTie
permet une reconstruction améliorée
d’un transcriptome à partir de
lectures d’ARN-seq. Nat. Biotechnologie. 33 ,
290-295 (2015).
Trapnell, C. et
coll. L’assemblage
et la quantification des
transcriptions par RNA-Seq révèlent
des transcriptions non annotées et
une commutation d’isoforme au cours
de la différenciation cellulaire. Nat. Biotechnologie. 28 ,
511-515 (2010).
Haas, BJ et
coll. Annotation
automatisée de la structure des
gènes eucaryotes à l'aide
d'EVidenceModeler et du programme
pour assembler des alignements
épissés. Génome
Biol. 9 ,
R7 (2008).
Griffiths-Jones, S., Bateman, A.,
Marshall, M., Khanna, A. & Eddy, SR
Rfam : une base de données sur les
familles d'ARN. Acides
nucléiques Res. 31 ,
439-441 (2003).
Wucher, V. et
coll. FEELnc
: Un outil d'annotation d'ARN longs
non codants et son application au
transcriptome du chien. bioRxiv https://doi.org/10.1101/064436 (2016).
Thiel, T., Michalek, W., Varshney,
RK & Graner, A. Exploitation des
bases de données EST pour le
développement et la caractérisation
de marqueurs SSR dérivés de gènes
chez l'orge ( Hordeum
vulgare L.). Théorique. Appl. Genet. 106 ,
411-422 (2003).
Rice, P., Longden, I. & Bleasby, A.
EMBOSS : La suite logicielle ouverte
européenne de biologie moléculaire. Les
tendances. Genet. 16 ,
276-277 (2000).
Huerta-Cepas, J. et
al. eggNOG
4.5 : un cadre d'orthologie
hiérarchique avec des annotations
fonctionnelles améliorées pour les
séquences eucaryotes, procaryotes et
virales. Acides
nucléiques Res. 44 ,
D286-D293 (2016).
Rawlings, ND, Barrett, AJ & Finn, R.
Vingt ans de base de données MEROPS
sur les enzymes protéolytiques,
leurs substrats et inhibiteurs. Acides
nucléiques Res. 44 ,
D343-D350 (2016).
Yin, Y. et
al. dbCAN : une
ressource Web pour l'annotation
automatisée des enzymes actives sur
les glucides. Acides
nucléiques Res. 40 ,
W445-W451 (2012).
Okonechnikov, K., Conesa, A. &
García-Alcalde, F. Qualimap 2 :
contrôle qualité avancé de plusieurs
échantillons pour les données de
séquençage à haut débit. Bioinformatique 32 ,
292-294 (2016).
Sterne-Weiler, T., Weatheritt, RJ,
Best, AJ, Ha, KCH & Blencowe, BJ
Profilage quantitatif efficace et
précis de modèles d'épissage
alternatifs de toute complexité sur
un ordinateur portable. Mol. Cellule 72 ,
187-200 (2018).
Alexa, A., Rahnenführer, J. &
Lengauer, T. Amélioration de la
notation des groupes fonctionnels à
partir des données d'expression
génique en décorrélant la structure
du graphe GO. Bioinformatique 22 ,
1600-1607 (2006).
Li, Y., Xiang, J. et Duan, C. La
protéine 3 de liaison au facteur de
croissance analogue à l'insuline
joue un rôle important dans la
régulation du squelette pharyngé et
de la formation et de la
différenciation de l'oreille
interne. J.
Biol. Chimique. 280 ,
3613-3620 (2005).
Lin, JM et
al. Actions
du facteur de croissance des
fibroblastes 8 dans les cellules
osseuses in vitro. Suis. J.
Physiol. Endocrinol. Métab. 297 ,
E142-E150 (2009).
Nichols, JT, Pan, L., Moens, CB &
Kimmel, CB barx1 réprime
les articulations et favorise le
cartilage dans le squelette cranio-facial. Développement 140 ,
2765-2775 (2013).
Bush, JO, Lan, Y. et Jiang, R. Les
défauts de fente labio-palatine chez
les souris mutantes Dancer résultent
d'un gain de fonction du gène Tbx10 . Proc. Natl. Acad. Sci. États-Unis 101 ,
7022-7027 (2004).