Informations

Comment interpréter cet enregistrement PubChem de L-Alanine

Comment interpréter cet enregistrement PubChem de L-Alanine


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

En utilisant le service PUG de NCBI, je récupère des données de structure 3D pour une molécule.

Données brutes ici.

J'essaie de comprendre cet enregistrement, spécifiquement dans le but de rendre dans un système de coordonnées 3D à l'aide de threejs.

Quelqu'un pourrait-il s'il vous plaît aider à comprendre cette information. En raison de la grande taille de la réponse json et comme j'utilise javascript, j'ai construit des types Typescript qui décrivent la forme des données pour faciliter la discussion. J'ai des questions spécifiques, qui sont énoncées ci-dessous.

//// Interface d'objet racine JSON_Response { PC_Compounds: PC_Compound[]; } //// Compound Object // doit représenter PubChem Compound interface PC_Compound { id: ID; atomes : { aide : nombre[] ; élément : nombre[] ; } ; obligations : { aid1 : nombre[] ; aide2 : nombre[] ; numéro de commande[]; } ; stéréo : Stéréo[] ; coords: Coords[]; accessoires : Données[] ; compte : compte ; } //////// Sous-types décrits ci-dessous

Atomes

L'objet atomes a deux tableaux ; « aide » et « élément ». Dans la réponse JSON ci-dessus, ces tableaux ont tous deux une longueur de 13. Les données pour la L-Alanine montrent qu'elle a 13 atomes. J'ai raison de dire que les nombres du tableau 'element' correspondent aux nombres atomiques? Et ces numéros atomiques sont attribués aux identifiants à partir des index correspondants dans le tableau « id » ?

Obligations

Que sont l'aide1, l'aide2 et l'ordre ? Ces tableaux ont 12 entrées chacun, donc chacun doit représenter 1 liaison entre deux atomes. Mais à quoi correspondent les valeurs numériques ? Comment les interpréter ?

Coordonnées

Dans l'objet de coordonnées,

interface Coords { type : nombre[]; aide : nombre[] ; conformères : [ { x : nombre[] ; y : nombre[] ; z : nombre[] ; données : Données[] ; } ]; données : Données[] ; }

Les tableaux x, y et z ont une longueur de 13. Ai-je raison de dire qu'ils représentent les coordonnées x, y et z des atomes dans l'indice correspondant du tableau d'éléments ci-dessus ?

Données

L'objet de données semble faire partie d'un système ésotérique pour attacher des données arbitraires à l'objet. Si quelqu'un a une indication à ce sujet, il serait grandement apprécié.

interface Data { urn: { label: string; nom : chaîne ; type de données : nombre ; version : chaîne ; version ? : chaîne ; logiciel ? : chaîne ; source ? : chaîne ; paramètres ? : chaîne ; } ; valeur : { sval ? : chaîne ; fval ? : nombre ; slist ? : chaîne[] ; fvec?: nombre[]; ivec?: nombre[]; } ; }

Stéréo

semble décrire des plans de rotation

//// Interface de sous-types composés Stereo { tétraédrique : { center : nombre ; ci-dessus : nombre ; haut : nombre ; en bas : nombre ; ci-dessous : nombre ; parité : nombre ; tapez : nombre ; } ; } ID d'interface { id : { cid : nombre ; } ; }

informations chimiques diverses

interface Count { heavy_atom: nombre; atome_chiral : nombre ; atom_chiral_def : nombre ; atom_chiral_undef : nombre ; bond_chiral : nombre ; bond_chiral_def : nombre ; bond_chiral_undef : nombre ; isotope_atom : nombre ; unité_covalente : nombre ; tautomères : nombre ; }

De plus, si quelqu'un a des techniques ou des conseils sur la façon d'extraire le sens des données de réponse de PubChem, s'il pouvait publier ci-dessous, cela pourrait être utile pour moi ou pour une autre personne travaillant sur ce sujet.


La description du format PubChem n'est pas si facile à trouver : https://www.ncbi.nlm.nih.gov/IEB/ToolBox/CPP_DOC/asn_spec/pcsubstance.asn.html

Et le fichier ASN lié ici : https://pubchemdocs.ncbi.nlm.nih.gov/data-specification

J'ai raison de dire que les nombres du tableau 'element' correspondent aux nombres atomiques?

Oui, 1 est l'hydrogène, 6 est le carbone, 8 est l'oxygène, etc.

Et ces numéros atomiques sont attribués aux identifiants à partir des index correspondants dans le tableau « id » ?

dans ton exemple,"atomes": {"aide": [1, 2, 3,… , 13], "élément": [8, 8, 7,… , 1]},, l'ID du premier atome serait1et élément8(oxygène), le troisième atome : ID3et élément7(azote).

Ai-je raison de dire que ceux-ci représentent les coordonnées x, y et z des atomes dans l'indice correspondant du tableau d'éléments ci-dessus ?

Oui

Que sont l'aide1, l'aide2 et l'ordre ?

aide1etaide2sont lesuneà Midentifiantentificateurs.ordreest le type de liaison.

Ces tableaux ont 12 entrées chacun, donc chacun doit représenter 1 liaison entre deux atomes. Mais à quoi correspondent les valeurs numériques ? Comment les interpréter ?

Par exempleaide1 = [1, 2], aide2 = [3, 4], ordre = [1, 2]signifierait une simple liaison entre l'atome 1 et l'atome 3 et une double liaison entre l'atome 2 et l'atome 4.

De bons exemples d'implémentations :


PubChemRDF : vers l'annotation sémantique des bases de données de composés et de substances PubChem

PubChem est un référentiel ouvert pour les structures chimiques, les activités biologiques et les annotations biomédicales. Les technologies du Web sémantique apparaissent comme une approche de plus en plus importante pour distribuer et intégrer des données scientifiques. L'exposition des données PubChem aux services du Web sémantique peut aider à permettre l'intégration et la gestion automatisées des données, ainsi qu'à faciliter l'interopérabilité des applications Web.

La description

Ce travail, qui fait partie d'une série couvrant le projet PubChemRDF, décrit une approche pour traduire les informations PubChem sur les substances et les composés au format Resource Description Framework (RDF). Des exemples de base sont fournis pour démontrer son utilisation. Le but de cet effort est de fournir deux nouveaux avantages principaux aux chercheurs d'une manière rentable. Premièrement, nous visons à supprimer les limitations inhérentes à l'utilisation de la ressource Web PubChem en permettant à un chercheur d'utiliser des technologies sémantiques facilement disponibles (à savoir, les triples magasins RDF et leurs moteurs de requête SPARQL correspondants) pour interroger et analyser les données PubChem sur les ressources informatiques locales. . Deuxièmement, ce travail vise à aider à améliorer le partage, l'analyse et l'intégration des données PubChem à des ressources externes à NCBI et à travers les domaines scientifiques, au moyen de l'association des données PubChem aux cadres ontologiques existants, y compris l'ontologie CHEMical INFormation, l'ontologie intégrée Semanticscience, et d'autres.

Conclusion

Dans le but de décrire sémantiquement les informations disponibles dans l'archive PubChem, des cadres ontologiques préexistants ont été utilisés, plutôt que d'en créer de nouveaux. Les relations sémantiques entre les composés et les substances, les descripteurs chimiques associés aux composés et aux substances, les interrelations entre les produits chimiques, ainsi que les métadonnées de provenance et d'attributs des substances sont décrits.

Représentation schématique des liens sémantiques pour les composés et substances PubChem.


Comment interpréter cet enregistrement PubChem de L-Alanine - Biologie

Un manuel complet sur la boîte à outils NCBI C++, y compris son cadre de conception et de développement, une référence de bibliothèque C++, des exemples et des démos de logiciels, des FAQ et des notes de version. Le manuel est consultable en ligne et peut être téléchargé sous forme de série de documents PDF.

Téléchargements

Les exécutables BLAST à usage local sont fournis pour les systèmes Solaris, LINUX, Windows et MacOSX. Voir le fichier README dans le répertoire ftp pour plus d'informations. Des bases de données préformatées pour les recherches BLAST de nucléotides, de protéines et traduites sont également disponibles en téléchargement dans le sous-répertoire db.

Bases de données de séquences à utiliser avec les programmes BLAST autonomes. Les fichiers de ce répertoire sont des bases de données préformatées prêtes à être utilisées avec BLAST.

Ce site fournit des enregistrements de données complets pour CDD, ainsi que des matrices de notation spécifiques à la position (PSSM), des séquences mFASTA et des données d'annotation pour chaque domaine conservé. Voir le fichier README pour plus de détails.

Ce site propose des extractions de données complètes au format XML et des données de synthèse au format VCF. Il contient des fichiers contenant des informations sur les termes standard utilisés dans ClinVar, MedGen et GTR.

Bases de données de séquences au format FASTA à utiliser avec les programmes BLAST autonomes. Ces bases de données doivent être formatées à l'aide de formatdb avant de pouvoir être utilisées avec BLAST.

Ce site contient des fichiers pour tous les enregistrements de séquences dans GenBank dans le format de fichier plat par défaut. Les fichiers sont organisés par division GenBank et le contenu complet est décrit dans le fichier README.genbank.

Les séquences protéiques correspondant aux traductions des séquences codantes (CDS) dans GenBank sont collectées pour chaque version de GenBank. Veuillez consulter le fichier README dans le répertoire pour plus d'informations.

Ce site contient trois répertoires : DATA, GeneRIF et tools. Le répertoire DATA contient des fichiers répertoriant toutes les données liées aux GeneID ainsi que des sous-répertoires contenant des données ASN.1 pour les enregistrements Gene. Le répertoire GeneRIF (Gene References into Function) contient des identifiants PubMed pour les articles décrivant la fonction d'un seul gène ou les interactions entre les produits de deux gènes. Des exemples de programmes pour manipuler les données génétiques sont fournis dans le répertoire tools. Veuillez consulter le fichier README pour plus de détails.

Ce site contient des données GEO sous deux formats : SOFT (Simple Omnibus in Text Format) et MINiML (MIAME Notation in Markup Language). Des fichiers texte de synthèse et des données supplémentaires sont également disponibles. Veuillez consulter le fichier README.TXT pour plus d'informations.

Ce site contient la séquence du génome et des données cartographiques pour les organismes de Entrez Genome. Les données sont organisées en répertoires pour une seule espèce ou des groupes d'espèces. Les données cartographiques sont collectées dans le répertoire MapView et sont organisées par espèces. Voir le fichier README dans le répertoire racine et les fichiers README dans les sous-répertoires des espèces pour des informations détaillées.

Contient des répertoires pour chaque génome qui incluent les données cartographiques disponibles pour les versions actuelles et précédentes de ce génome.

Ce site contient la base de données taxonomique complète ainsi que des fichiers associant les enregistrements de séquences de nucléotides et de protéines à leurs identifiants taxonomiques. Consultez les fichiers taxdump_readme.txt et gi_taxid.readme pour plus d'informations.

Ce site fournit des données des bases de données PubChem Substance, Compound et Bioassay à télécharger via ftp. Des téléchargements complets des bases de données sont disponibles ainsi que des mises à jour quotidiennes, hebdomadaires et mensuelles pour la substance et le composé. Les données sur les substances et les composés sont fournies aux formats ASN.1, SDF et XML. Voir les fichiers README pour plus d'informations.

Ce site contient tous les enregistrements de séquences de nucléotides et de protéines de la collection Reference Sequence (RefSeq). Le répertoire ""release"" contient la version la plus récente de la collection complète, tandis que les données pour les organismes sélectionnés (tels que l'homme, la souris et le rat) sont disponibles dans des répertoires séparés. Les données sont disponibles dans les formats FASTA et de fichiers plats. Consultez le fichier readme pour plus de détails.

Ce site contient des données SKY-CGH aux formats ASN.1, XML et EasySKYCGH. Voir le fichier skycghreadme.txt pour plus d'informations.

Données téléchargeables pour SNP.

Ce site contient des données de séquençage de nouvelle génération organisées par le projet de séquençage soumis.

Site de téléchargement FTP pour les bases de données, les outils et les utilitaires NCBI.

Ce site contient des données ASN.1 pour tous les enregistrements de la MMDB ainsi que des données d'alignement VAST et les ensembles de données PDB non redondants (nr-PDB). Voir le fichier README pour plus d'informations.

Ce site contient les données du chromatogramme des traces organisées par espèces. Les données incluent le chromatogramme, les scores de qualité, les séquences FASTA des appels de base automatiques et d'autres informations auxiliaires dans du texte délimité par des tabulations ainsi que dans des formats XML. Consultez le fichier readme pour plus de détails.

Ce site contient les bases de données UniVec et UniVec_Core au format FASTA. Voir le fichier README.uv pour plus de détails.

Ce site contient des données de séquence de fusil de chasse du génome entier organisées par le code de projet à 4 chiffres. Les données incluent les fichiers plats GenBank et GenPept, les scores de qualité et les statistiques récapitulatives. Voir le fichier README.genbank.wgs pour plus d'informations.

Les données en libre accès comprennent généralement des résumés d'études d'association génotype/phénotype, des descriptions des variables mesurées et des documents d'étude, tels que le protocole et les questionnaires. L'accès aux données au niveau individuel, y compris les tableaux de données phénotypiques et les génotypes, nécessite différents niveaux d'autorisation.

Les spécifications des données NCBI au format ASN.1 ou DTD sont disponibles sur la page Index of data_specs. Les liens "NCBI_data_conversion.html" vers l'outil de conversion.

Une suite de jeux de balises pour la création et l'archivage d'articles de revues ainsi que pour le transfert d'articles de revues des éditeurs vers les archives et entre les archives. Il existe quatre jeux de balises : Jeu de balises d'archivage et d'échange - Créé pour permettre à une archive de capturer autant de composants structurels et sémantiques du matériel de journal imprimé et étiqueté existant aussi facilement que possible Jeu de balises de publication de journal - Optimisé pour les archives qui souhaitent régulariser et contrôler leur contenu, de ne pas accepter la séquence et l'arrangement qui leur sont présentés par un éditeur particulier.

Ce service permet aux utilisateurs de télécharger des enregistrements de composés ou de substances correspondant à un ensemble d'identifiants PubChem, qui peuvent être fournis manuellement ou via un fichier texte. De nombreux formats de téléchargement sont disponibles, notamment SDF, XML et SMILES.

Abonnez-vous aux flux Web/RSS pour des mises à jour sur les ressources NCBI.

Soumissions

Un formulaire en ligne qui fournit une interface aux chercheurs, aux consortiums et aux organisations pour enregistrer leurs BioProjets. Cela sert de point de départ pour la soumission des données génomiques et génétiques pour l'étude. Les données n'ont pas besoin d'être soumises au moment de l'enregistrement de BioProject.

Un outil de soumission de séquences basé sur le Web pour une ou plusieurs soumissions à la base de données GenBank, conçu pour rendre le processus de soumission rapide et facile.

Outil de soumission à la base de données GenBank des séquences nucléotidiques courtes de codes-barres d'un locus génétique standard pour une utilisation dans l'identification des espèces.

Un outil logiciel autonome développé par le NCBI pour soumettre et mettre à jour des entrées dans des bases de données de séquences publiques (GenBank, EMBL ou DDBJ). Il est capable de gérer des soumissions simples contenant une seule séquence d'ARNm courte, des soumissions complexes contenant de longues séquences, des annotations multiples, des ensembles segmentés d'ADN, ainsi que des séquences d'études phylogénétiques et de population avec alignements. Pour une soumission simple, utilisez plutôt l'outil de soumission en ligne BankIt.

Un programme en ligne de commande qui automatise la création d'enregistrements de séquences à soumettre à GenBank en utilisant bon nombre des mêmes fonctions que Sequin. Il est principalement utilisé pour la soumission de génomes complets et de grands lots de séquences.

Soumettez des données d'expression, telles que des ensembles de données de microarray, SAGE ou de spectrométrie de masse à la base de données NCBI Gene Expression Omnibus (GEO).

Ce site permet aux utilisateurs de soumettre des données aux bases de données PubChem Substance et BioAssay, y compris les structures chimiques, les résultats d'activité biologique expérimentale, les annotations, les données siRNA et plus encore. Il peut également être utilisé pour mettre à jour les enregistrements soumis précédemment.

La page des outils de la base de données SNP fournit des liens vers les directives générales de soumission et vers la demande de traitement de soumission. La page contient également deux liens spécifiques pour les soumissions uniques ou par lots des données de variation humaine en utilisant la nomenclature de la Human Genome Variation Society.

Un point d'entrée unique pour les expéditeurs pour se connecter et trouver des informations sur tous les processus de soumission de données au NCBI. Actuellement, cela sert d'interface pour l'enregistrement de BioProjects et BioSamples et la soumission de données pour WGS et GTR. De futurs ajouts à ce site sont prévus.

Ce lien décrit comment les expéditeurs de données de trace peuvent obtenir un site FTP NCBI sécurisé pour leurs données, et décrit également les formats de données et les structures de répertoire autorisés.

Outils

Effectue une recherche BLAST de séquences similaires à partir de génomes eucaryotes et procaryotes complets sélectionnés.

Effectue une recherche BLAST des séquences génomiques dans l'ensemble RefSeqGene/LRG. L'affichage par défaut fournit une navigation prête à examiner les alignements dans l'affichage graphique.

Trouve des régions de similarité locale entre des séquences biologiques. Le programme compare les séquences de nucléotides ou de protéines aux bases de données de séquences et calcule la signification statistique des correspondances. BLAST peut être utilisé pour déduire des relations fonctionnelles et évolutives entre des séquences ainsi que pour aider à identifier les membres des familles de gènes.

Vous permet de récupérer des enregistrements de nombreuses bases de données Entrez en téléchargeant un fichier de numéros GI ou d'accession à partir des bases de données Nucleotide ou Protein, ou un fichier d'identifiants uniques à partir d'autres bases de données Entrez. Les résultats de la recherche peuvent être enregistrés dans divers formats directement dans un fichier local sur votre ordinateur.

Une application autonome pour classer les séquences de protéines et étudier leurs relations évolutives. CDTree peut importer, analyser et mettre à jour des enregistrements et des hiérarchies de domaines conservés (CDD) existants, et permet également aux utilisateurs de créer les leurs. CDTree est étroitement intégré à Entrez CDD et Cn3D et permet aux utilisateurs de créer et de mettre à jour des alignements de domaines protéiques.

COBALT est un outil d'alignement de séquences multiples de protéines qui trouve une collection de contraintes par paires dérivées de la base de données de domaines conservés, de la base de données de motifs protéiques et de la similarité de séquence, à l'aide de RPS-BLAST, BLASTP et PHI-BLAST.

Une application autonome pour visualiser les structures tridimensionnelles du service de récupération Entrez de NCBI. Cn3D fonctionne sous Windows, Macintosh et UNIX et peut être configuré pour recevoir des données des navigateurs Web les plus courants. Cn3D affiche simultanément la structure, la séquence et l'alignement, et dispose de puissantes fonctionnalités d'édition d'annotation et d'alignement.

Identifie les domaines conservés présents dans une séquence protéique. CD-Search utilise RPS-BLAST (Reverse Position-Specific BLAST) pour comparer une séquence de requête avec des matrices de scores spécifiques à la position qui ont été préparées à partir d'alignements de domaines conservés présents dans la base de données de domaines conservés (CDD).

Outils permettant d'accéder aux données du système Entrez de NCBI en dehors de l'interface de requête Web standard. Ils fournissent une méthode d'automatisation des tâches Entrez dans les applications logicielles. Chaque utilitaire effectue une tâche de récupération spécialisée et peut être utilisé simplement en écrivant une URL spécialement formatée.

Outil d'alignement d'une séquence de requête (nucléotide ou protéine) aux séquences GenBank incluses sur les plateformes de microarray ou SAGE dans la base de données GEO.

Cet outil compare les séquences de nucléotides ou de protéines aux bases de données de séquences génomiques et calcule la signification statistique des correspondances à l'aide de l'algorithme BLAST (Basic Local Alignment Search Tool).

L'outil Remap de NCBI permet aux utilisateurs de projeter des données d'annotation et de convertir des emplacements de caractéristiques d'un assemblage génomique à un autre ou en séquences RefSeqGene via une analyse base par base. Des options sont fournies pour ajuster la rigueur du remappage, et les résultats récapitulatifs sont affichés sur la page Web. Les résultats complets peuvent être téléchargés pour être visualisés dans le visualiseur graphique Genome Workbench de NCBI, et les données d'annotation pour les caractéristiques remappées, ainsi que les données récapitulatives, sont également disponibles en téléchargement.

Une application intégrée pour la visualisation et l'analyse des données de séquence. Avec Genome Workbench, vous pouvez afficher les données dans les bases de données de séquences accessibles au public au NCBI et mélanger ces données avec vos propres données.

Une application Web interactive qui permet aux utilisateurs de visualiser plusieurs alignements créés par les résultats de recherche dans la base de données ou d'autres applications logicielles. Le MSA Viewer permet aux utilisateurs de télécharger un alignement et de définir une séquence principale, et d'explorer les données à l'aide de fonctionnalités telles que le zoom et le changement de coloration.

Un ensemble de spécifications de logiciels et d'échange de données utilisées par NCBI pour produire des logiciels portables et modulaires pour la biologie moléculaire. Le logiciel de la boîte à outils est principalement conçu pour lire les enregistrements au format Abstract Syntax Notation 1 (ASN.1), un format de représentation des données de l'Organisation internationale de normalisation (ISO).

Un progiciel d'assurance qualité du domaine public qui facilite l'évaluation des profils d'ADN multiplex à répétition courte en tandem (STR) sur la base de protocoles spécifiques au laboratoire. OSIRIS évalue les données brutes d'électrophorèse à l'aide d'un algorithme de dimensionnement basé sur des mathématiques dérivé indépendamment. Il offre deux nouvelles mesures de qualité de pointe - le niveau d'ajustement et le résidu de dimensionnement. Il peut être personnalisé pour s'adapter aux signatures spécifiques au laboratoire telles que les paramètres de bruit de fond, les conventions de nommage personnalisées et les contrôles de laboratoire internes supplémentaires.

Un outil d'analyse graphique qui trouve tous les cadres de lecture ouverts dans la séquence d'un utilisateur ou dans une séquence déjà dans la base de données. Seize codes génétiques différents peuvent être utilisés. La séquence d'acides aminés déduite peut être enregistrée dans divers formats et recherchée dans des bases de données de protéines à l'aide de BLAST.

L'outil Primer-BLAST utilise Primer3 pour concevoir des amorces PCR sur un modèle de séquence. Les produits potentiels sont ensuite automatiquement analysés avec une recherche BLAST dans les bases de données spécifiées par l'utilisateur, pour vérifier la spécificité par rapport à la cible visée.

Un utilitaire pour calculer l'alignement des protéines sur la séquence nucléotidique génomique. Il est basé sur une variante de l'algorithme d'alignement global de Needleman Wunsch et tient spécifiquement compte des introns et des signaux d'épissage. Grâce à cet algorithme, ProSplign est précis dans la détermination des sites d'épissure et tolérant les erreurs de séquençage.

PUG permet d'accéder aux services PubChem via une interface de programmation. PUG permet aux utilisateurs de télécharger des données, d'initier des recherches de structure chimique, de normaliser les structures chimiques et d'interagir avec les utilitaires électroniques. Le PUG est accessible via des URL standard ou via SOAP.

La normalisation, dans la terminologie PubChem, est le traitement des structures chimiques de la même manière que celle utilisée pour créer des enregistrements de composés PubChem à partir des structures originales des contributeurs. Ce service permet aux utilisateurs de voir comment PubChem gérerait toute structure qu'ils souhaitent soumettre.

La recherche de structure PubChem permet d'interroger la base de données de composés PubChem par structure chimique ou modèle de structure chimique. Le PubChem Sketcher permet de dessiner manuellement une requête. Les utilisateurs peuvent également spécifier l'entrée de requête structurelle par PubChem Compound Identifier (CID), SMILES, SMARTS, InChI, Molecular Formula, ou par téléchargement d'un format de fichier de structure pris en charge.

Une variété d'outils sont disponibles pour la recherche dans la base de données SNP, permettant une recherche par génotype, méthode, population, demandeur, marqueurs et similarité de séquence à l'aide de BLAST. Ceux-ci sont liés sous ""Rechercher"" dans la barre latérale gauche de la page principale de dbSNP.

Fournit un affichage graphique configurable d'une séquence de nucléotides ou de protéines et des caractéristiques qui ont été annotées sur cette séquence. En plus d'être utilisé sur les pages de base de données de séquences NCBI, ce visualiseur est disponible en tant que composant de page Web intégrable. Une documentation détaillée comprenant un guide de référence API est disponible pour les développeurs souhaitant intégrer la visionneuse dans leurs propres pages.

Un utilitaire pour calculer les alignements de séquences d'ADNc à génomique. Il est basé sur une variante de l'algorithme d'alignement global de Needleman-Wunsch et tient spécifiquement compte des introns et des signaux d'épissage. Grâce à cet algorithme, Splign est précis dans la détermination des sites d'épissage et tolérant les erreurs de séquençage.

Un outil pour créer et afficher des données d'arbres phylogénétiques. Tree Viewer permet l'analyse de vos propres données de séquence, produit des images vectorielles imprimables au format PDF et peut être intégré dans une page Web.

L'invention concerne un système permettant d'identifier rapidement des segments d'une séquence d'acide nucléique pouvant être d'origine vectorielle. VecScreen recherche une séquence de requête pour les segments qui correspondent à n'importe quelle séquence dans une base de données vectorielle spécialisée non redondante (UniVec).

Un algorithme informatique qui identifie des structures tridimensionnelles de protéines similaires. Les voisins de structure pour chaque structure dans MMDB sont pré-calculés et accessibles via des liens sur les pages de résumé de structure MMDB. Ces voisins peuvent être utilisés pour identifier des homologues distants qui ne peuvent pas être reconnus par la seule comparaison de séquences.


INTERFACES WEB

Page d'affichage de la cible PubChem

PubChem contient 237 millions de bioactivités pour trois millions de composés, déterminées dans plus de 1,2 million d'expériences de dosage biologique. Bon nombre de ces tests sont effectués contre des protéines ou des gènes cibles. Cependant, trouver toutes les données de bioactivité pour une cible donnée n'est pas une tâche triviale. La page PubChem Target fournit une vue « centrée sur la cible » des données PubChem pertinentes pour un gène ou une protéine cible donné, y compris les produits chimiques testés contre la cible et les expériences de dosage biologique effectuées contre la cible. La page Target View présente également des médicaments connus et des ligands sélectionnés, collectés dans ChEMBL (9), DrugBank (10) et IUPHAR/BPS Guide to PHARMACOLOGY (11). En outre, il contient des informations annotées sur la cible, telles que les synonymes, les fonctions biologiques, la pertinence pour la maladie, les classifications gène/protéine, les structures protéiques, les interactions gène-gène, les orthologues, les voies, etc. Ces annotations sont collectées à partir des principales bases de données de biologie moléculaire. , y compris NCBI Gene ( 12), Gene Ontology ( 13, 14), Human Genome Organization (HUGO) Gene Nomenclature Committee (HGNC) ( 15), UniProt ( 16), Protein Data Bank (PDB) ( 17), Conserved Domains Database (CDD) ( 18), Pfam ( 19), MedGen ( 20), Encyclopédie de Kyoto des gènes et des génomes (KEGG) ( 21), BioSystems ( 22), Base de données de modélisation moléculaire (MMDB) ( 23).

De plus, la page Target View est accessible à partir de la page Summary ou Record des enregistrements PubChem (Figure 2). Par exemple, la page Target View pour le gène HRH1 humain est accessible en cliquant sur le nom du gène cible mentionné dans la section « BioAssay Results » ou « Biomolecular Interactions and Pathways » de la page Résumé du CID 2678 (Zyrtec). Il est également accessible à partir de la page BioAssay Record de l'AID 238823.

Page PubChem Target View pour le gène du récepteur humain de l'histamine H1 (HRH1) (https://pubchem.ncbi.nlm.nih.gov/target/gene/3269) (en bas à droite), avec ses exemples de points d'entrée du Résumé du composé page pour CID 2678 (https://pubchem.ncbi.nlm.nih.gov/compound/2678) et la page BioAssay Record pour AID 238823 (https://pubchem.ncbi.nlm.nih.gov/bioassay/238823) .

Page PubChem Target View pour le gène du récepteur humain de l'histamine H1 (HRH1) (https://pubchem.ncbi.nlm.nih.gov/target/gene/3269) (en bas à droite), avec ses exemples de points d'entrée du Résumé du composé page pour CID 2678 (https://pubchem.ncbi.nlm.nih.gov/compound/2678) et la page BioAssay Record pour AID 238823 (https://pubchem.ncbi.nlm.nih.gov/bioassay/238823) .

Page de la dyade PubChem Bioactivité

La page dyade présente également la courbe dose-réponse (si disponible). Il montre également les données de bioactivité pour des substances structurellement similaires testées dans le même essai, et les données de bioactivité pour la même molécule testée dans différents essais. La page de la dyade AID-SID est accessible en cliquant sur le résultat de l'activité (actif, inactif, non concluant ou non spécifié) affiché dans la colonne « Activité » du tableau des résultats du test biologique (sur la page Résumé du composé ou Enregistrement de la substance), ou le tableau de données (sur la page BioAssay Record), comme le montre la figure 3.

Page de dyade PubChem Bioactivity pour SID 4247730 (correspondant à CID 3241895) et AID 820 (https://pubchem.ncbi.nlm.nih.gov/bioassay/820#sid=4247730) (à droite). Cette page est accessible depuis la page Substance Record pour SID 4247730 (https://pubchem.ncbi.nlm.nih.gov/substance/4247730), la page Compound Summary pour CID 3241895 (https://pubchem.ncbi.nlm .nih.gov/compound/3241895), ou la page BioAssay Record pour AID 820 (https://pubchem.ncbi.nlm.nih.gov/bioassay/238823).

Page de dyade PubChem Bioactivity pour SID 4247730 (correspondant à CID 3241895) et AID 820 (https://pubchem.ncbi.nlm.nih.gov/bioassay/820#sid=4247730) (à droite). Cette page est accessible depuis la page Substance Record pour SID 4247730 (https://pubchem.ncbi.nlm.nih.gov/substance/4247730), la page Compound Summary pour CID 3241895 (https://pubchem.ncbi.nlm .nih.gov/compound/3241895), ou la page BioAssay Record pour AID 820 (https://pubchem.ncbi.nlm.nih.gov/bioassay/238823).

Les pages de dyade gène-CID et protéine-CID pour un CID donné présentent également les données de bioactivité du même composé contre d'autres cibles ainsi que celles de composés structurellement similaires à ce CID contre le même gène ou protéine cible. Ces pages de dyades sont accessibles à partir des pages Target View pour le gène et la protéine cible correspondants.

Voir les brevets

La page d'affichage des brevets pour un brevet donné fournit des composés et des substances qui y sont mentionnés, ainsi que d'autres informations, notamment le titre du brevet, l'abrégé, les dates de demande/publication, le demandeur et l'inventeur. Il contient également des informations sur la classification des brevets basées sur la Classification internationale des brevets (IPC) de l'Organisation mondiale de la propriété intellectuelle (OMPI).

La page d'affichage des brevets est accessible en cliquant sur l'un des identificateurs de brevet répertoriés dans la section « Identifiants de brevet fournis par le déposant » sur la page Résumé du composé (Figure 4). Il convient de noter qu'au moment de la rédaction du présent document, la page Vue sur les brevets ne fournit pas le contexte expliquant pourquoi un produit chimique particulier a été mentionné dans le brevet. En d'autres termes, il pourrait ne pas être possible de dire si le produit chimique fait effectivement l'objet de la délivrance du brevet, ou s'il est simplement mentionné comme faisant partie de l'art antérieur dans la section Contexte.

PubChem Patent View page pour US8501698 (https://pubchem.ncbi.nlm.nih.gov/patent/US8501698) (à droite). Cette page est accessible à partir de la section « Depositor-Supplied Patent Identifiers » sur la page de résumé du composé pour le CID 4247730 (https://pubchem.ncbi.nlm.nih.gov/compound/2162) (à gauche).

Page d'affichage des brevets PubChem pour US8501698 (https://pubchem.ncbi.nlm.nih.gov/patent/US8501698) (à droite). Cette page est accessible à partir de la section « Depositor-Supplied Patent Identifiers » sur la page de résumé du composé pour le CID 4247730 (https://pubchem.ncbi.nlm.nih.gov/compound/2162) (à gauche).

Page des sources de données PubChem

La page des sources de données de PubChem (https://pubchem.ncbi.nlm.nih.gov/sources) est une interface qui fournit un aperçu flexible des organisations fournissant des données à PubChem. En utilisant la page des sources de données PubChem, on peut facilement trouver qui a fourni quelles informations à PubChem : substances, tests et annotations (principalement des informations textuelles liées à divers types d'enregistrements PubChem). Cette interface permet de filtrer les sources de données par type de données, catégorie de source, statut de source et pays, ou de les trier par nombre d'enregistrements ou date de dernière modification. Il est également possible de rechercher une source de données par mot-clé. En cliquant sur un nom de source de données répertorié sur la page Sources de données, les utilisateurs sont dirigés vers une page dédiée à cette source, qui fournit l'URL de la source, les coordonnées, le nombre actuel d'enregistrements soumis à PubChem et la date de la dernière mise à jour du contenu.

Widget

PubChem a publié PubChem Widgets 2.0f (https://pubchemdocs.ncbi.nlm.nih.gov/widgets). Les widgets PubChem offrent aux développeurs Web scientifiques un moyen pratique d'afficher le contenu PubChem dans les pages Web qu'ils conçoivent. Étant donné que toutes les données présentées dans les widgets sont servies directement à partir de PubChem, les widgets sont assurés d'afficher le contenu le plus à jour dans PubChem. Les widgets peuvent être utilisés pour afficher un résumé tabulaire des éléments liés aux enregistrements PubChem (par exemple, brevets, bioactivités, articles PubMed, etc.), un carrousel de structures chimiques associées ou une classification des enregistrements PubChem d'intérêt.

PubChem Widgets 2.0f permet d'afficher n'importe quelle section ou sous-section des pages de résumé ou d'enregistrement de PubChem dans un widget (à l'exception de la section supérieure). Par rapport à la version précédente, les nouveaux widgets offrent beaucoup plus de vues de données et facilitent leur intégration dans n'importe quelle page Web. De plus, les nouveaux widgets sont plus faciles à redimensionner, ce qui les rend plus adaptés aux affichages de tailles variées.


OUTIL D'ANALYSE STRUCTURE–ACTIVITÉ

L'outil Structure-Activity Analysis ( Figure 4) permet d'effectuer une analyse exploratoire en regroupant simultanément les informations sur les composés et les dosages à l'aide d'une méthodologie de regroupement à liaison unique (14). L'outil d'analyse structure-activité est conçu pour aider à identifier rapidement des sous-ensembles intéressants de composés et d'essais biologiques à l'aide de divers concepts de similarité. Il permet aux utilisateurs de comparer et de contraster les résultats du dépistage par profil de bioactivité ou la similarité des cibles de dosage, ou d'analyser l'activité de séries d'analogues de composés dans un panel de tests pour identifier le SAR le cas échéant, et de suggérer des caractéristiques de structure essentielles pour améliorer la puissance de l'activité biologique.

Capture d'écran de l'analyse structure-activité PubChem pour les 10 composés actifs dans AID 523 et plusieurs tests de confirmation contre quelques cibles protéiques. Les clusters de test, basés sur la similarité de séquence cible du test, sont montrés dans la dimension horizontale, tandis que les clusters de composés, basés sur la similarité de structure 2D, sont montrés dans la dimension verticale. Chaque cellule de la carte thermique est colorée en fonction de la valeur de concentration active signalée (par exemple, IC50) selon la légende contenue dans la figure. L'accession PubChem Compound, par ex. CID, is shown to the right of each leaf of the compound cluster dendrogram. A chemical structure display can be invoked upon mouse-over the respective CID. PubChem BioAssay accession, e.g. AID, is shown beneath each leaf of the assay cluster dendrogram, while GI numbers for the respective assay targets are provided below the heatmap and hyperlinked to the corresponding Entrez protein records.

Screen shot of PubChem structure-activity analysis for the 10 active compounds in AID 523 and several confirmatory assays against a few protein targets. Assay clusters, based on assay target sequence similarity, are shown in the horizontal dimension, while compound clusters, based on 2D structure similarity, are shown in the vertical dimension. Each cell in the heatmap is colored based on the reported active concentration value (e.g. IC50) according to the legend contained within the figure. The PubChem Compound accession, e.g. CID, is shown to the right of each leaf of the compound cluster dendrogram. A chemical structure display can be invoked upon mouse-over the respective CID. PubChem BioAssay accession, e.g. AID, is shown beneath each leaf of the assay cluster dendrogram, while GI numbers for the respective assay targets are provided below the heatmap and hyperlinked to the corresponding Entrez protein records.

The results are presented through the use of an interactive heatmap display. With this web-based service, a group of compounds and assays may be clustered using various means. Chemical structures may be clustered based on 2D structure similarity (as measured by Tanimoto score using the PubChem dictionary-based fingerprint [ftp://ftp.ncbi.nlm.nih.gov/pubchem/specifications/pubchem_fingerprints.txt]) or biological response, as measured by reported bioactivity outcome, bioactivity score, or active concentration (e.g. IC50, EC50, AC50, etc.). Assays can be clustered based on similarity in biological response of the compound set, similarity in sequence of assay targets, or similarity provided by depositors. Some of the similarity data (e.g. protein target similarity) are pre-computed to obtain optimal analysis performance.

‘Revise Selection’ features, similarly to those in the BioActivity Summary tool, are provided to define and modify the focus of the analysis. These features can be accessed by clicking on the ‘+’ sign shown on the left of the Revise Selection section ( Figure 4). Furthermore, facilities for further analyzing the clustering results and navigating between various PubChem tools, including the Entrez search system, are provided and may be accessed throughout the heatmap display. For example, as shown in Figure 4, in the dendrogram display, one may click on a blue circle attached to a node of a compound cluster to invoke a feature menu, and to display the sub-tree, prune the sub-tree, or add compounds similar to those contained in a sub-tree. Users can also retrieve chemical structure similarity score matrix used in the clustering and send the selected compounds to one of PubChem tools or to Entrez system. Using similar functionalities associated with assay cluster, one may retrieve assay target similarity score matrix, or revise assay selection to include the various types of related bioassays. Users can also perform a number of operations on a combined group of assays and compounds. To define such a subset, one can zoom in the heatmap display by clicking on two cells in the heatmap. The operations available include sending the compounds in the sub-cluster to the ‘Structure Clustering’ service to visualize the chemical structure classes, sending assays, or compounds to the Entrez system to, for example, check the availability of protein 3D structure complex or look for information on biological mechanism using linked PubMed articles, etc. Using this feature, one can further compare multiple test results in details by retrieving all readouts using the Data Table tool (to be described).

A common entry point for the Structure–Activity Analysis service is from the previously described BioActivity Summary service, which can be used to narrow down the compound and assay set, thus to prepare an appropriate input for the SAR study. This tool can also be accessed from the BioAssay Summary service for a given bioassay record to analyze the set of active compounds in a single assay through identification of chemical structure clusters that exhibit similar biological response. In this particular application, one may want to take advantage of the integrated tools to further expand the assay scope, for example, to combine the screening results for related targets using the ‘Add Related BioAssays’ functionality provided in the Revise Selection section, and attempt to search compounds demonstrating high selectivity towards a particular target. This service can be also accessed through the common gateway of the PubChem BioActivity Analysis Service at http://pubchem.ncbi.nlm.nih.gov/assay/assay.cgi?p=heat, where assays, substances or compounds can be flexibly specified based on one's research need.

Results from such structure–activity analysis, including image, data table and similarity matrix can be exported in respective formats including the Graph Modelling Language format for the dendrograms. Similarly to the BioActivity Summary service, the results of this analysis are saved temporarily, and can be accessed for only a limited period of time, usually 48 hours. Users can use the ‘Save View’ button to save the analysis in a status file and use this file to communicate the results with collaborators, who can open the status file at http://pubchem.ncbi.nlm.nih.gov/assay/assay.cgi?p=qfile to see the exact same analysis page at a later time.

An example to illustrate the usage for this Structure–Activity Analysis Tool is shown in Figure 4, which demonstrates how this tool allows chemists and biologists to easily access and combine related screening data for identification of potential chemical probes with desired SAR property and target selectivity. To start the analysis, compounds active in AID 523 and a few confirmatory assays are selected from the BioActivity Summary table as shown in Figure 3. Each of the selected assays has a specified protein target. In this particular analysis, compounds are clustered based on 2D structure similarity and assays are clustered based on target sequence similarity. Each cell is colored according to the reported potency of the compound in the corresponding assay. The heatmap presentation allows one to identify instantly a cluster of compounds that demonstrate interesting SAR. Meanwhile, this analysis allows one to examine the selectivity and target specificity of the compounds by comparing the biological responses against a series of related targets.


Contenu

Alanine was first synthesized in 1850 when Adolph Strecker combined acetaldehyde and ammonia with hydrogen cyanide. [9] [10] [11] The amino acid was named Alanin in German, in reference to aldehyde, with the infix -an- for ease of pronunciation, [12] the German ending -dans used in chemical compounds being analogous to English -ine.

Alanine is an aliphatic amino acid, because the side-chain connected to the α-carbon atom is a methyl group (-CH3) alanine is the simplest α-amino acid after glycine. The methyl side-chain of alanine is non-reactive and is therefore hardly ever directly involved in protein function. [13] Alanine is a nonessential amino acid, meaning it can be manufactured by the human body, and does not need to be obtained through the diet. Alanine is found in a wide variety of foods, but is particularly concentrated in meats.

Biosynthesis Edit

Alanine is produced by reductive amination of pyruvate, a two-step process. In the first step, α-ketoglutarate, ammonia and NADH are converted by glutamate dehydrogenase to glutamate, NAD + and water. In the second step, the amino group of the newly-formed glutamate is transferred to pyruvate by an aminotransferase enzyme, regenerating the α-ketoglutarate, and converting the pyruvate to alanine. The net result is that pyruvate and ammonia are converted to alanine, consuming one reducing equivalent. [6] : 721 Because transamination reactions are readily reversible and pyruvate is present in all cells, alanine can be easily formed and thus has close links to metabolic pathways such as glycolysis, gluconeogenesis, and the citric acid cycle.

Chemical synthesis Edit

L-Alanine is produced industrially by decarboxylation of L-aspartate by the action of aspartate 4-decarboxylase. Fermentation routes to L-alanine are complicated by alanine racemase. [14]

Racemic alanine can be prepared by the condensation of acetaldehyde with ammonium chloride in the presence of sodium cyanide by the Strecker reaction, [15] or by the ammonolysis of 2-bromopropanoic acid. [16]

Degradation Edit

Alanine is broken down by oxidative deamination, the inverse reaction of the reductive amination reaction described above, catalyzed by the same enzymes. The direction of the process is largely controlled by the relative concentration of the substrates and products of the reactions involved. [6] : 721

Alanine is one of the twenty canonical α-amino acids used as building blocks (monomers) for the ribosome-mediated biosynthesis of proteins. Alanine is believed to be one of the earliest amino acids to be included in the genetic code standard repertoire. [17] [18] [19] [8] On the basis of this fact the "Alanine World" hypothesis was proposed. [20] This hypothesis explains the evolutionary choice of amino acids in the repertoire of the genetic code from a chemical point of view. In this model the selection of monomers (i.e. amino acids) for ribosomal protein synthesis is rather limited to those Alanine derivatives that are suitable for building α-helix or β-sheet secondary structural elements. Dominant secondary structures in life as we know it are α-helices and β-sheets and most canonical amino acids can be regarded as chemical derivatives of Alanine. Therefore, most canonical amino acids in proteins can be exchanged with Ala by point mutations while the secondary structure remains intact. The fact that Ala mimics the secondary structure preferences of the majority of the encoded amino acids is practically exploited in alanine scanning mutagenesis. In addition, classical X-ray crystallography often employs the polyalanine-backbone model [21] to determine three-dimensional structures of proteins using molecular replacement - a model-based phasing method.

Glucose–alanine cycle Edit

In mammals, alanine plays a key role in glucose–alanine cycle between tissues and liver. In muscle and other tissues that degrade amino acids for fuel, amino groups are collected in the form of glutamate by transamination. Glutamate can then transfer its amino group to pyruvate, a product of muscle glycolysis, through the action of alanine aminotransferase, forming alanine and α-ketoglutarate. The alanine enters the bloodstream, and is transported to the liver. The alanine aminotransferase reaction takes place in reverse in the liver, where the regenerated pyruvate is used in gluconeogenesis, forming glucose which returns to the muscles through the circulation system. Glutamate in the liver enters mitochondria and is broken down by glutamate dehydrogenase into α-ketoglutarate and ammonium, which in turn participates in the urea cycle to form urea which is excreted through the kidneys. [22]

The glucose–alanine cycle enables pyruvate and glutamate to be removed from muscle and safely transported to the liver. Once there, pyruvate is used to regenerate glucose, after which the glucose returns to muscle to be metabolized for energy: this moves the energetic burden of gluconeogenesis to the liver instead of the muscle, and all available ATP in the muscle can be devoted to muscle contraction. [22] It is a catabolic pathway, and relies upon protein breakdown in the muscle tissue. Whether and to what extent it occurs in non-mammals is unclear. [23] [24]

Link to diabetes Edit

Alterations in the alanine cycle that increase the levels of serum alanine aminotransferase (ALT) are linked to the development of type II diabetes. [25]

Alanine is useful in loss of function experiments with respect to phosphorylation. Some techniques involve creating a library of genes, each of which has a point mutation at a different position in the area of interest, sometimes even every position in the whole gene: this is called "scanning mutagenesis". The simplest method, and the first to have been used, is so-called alanine scanning, where every position in turn is mutated to alanine. [26]

Hydrogenation of alanine give the amino alcohol alaninol, which is a useful chiral building block.

Free radical Edit

The deamination of an alanine molecule produces the free radical CH3C • HCO2 - . Deamination can be induced in solid or aqueous alanine by radiation that causes homolytic cleavage of the carbon–nitrogen bond. [27]

This property of alanine is used in dosimetric measurements in radiotherapy. When normal alanine is irradiated, the radiation causes certain alanine molecules to become free radicals, and, as these radicals are stable, the free radical content can later be measured by electron paramagnetic resonance in order to find out how much radiation the alanine was exposed to. [28] This is considered to be a biologically relevant measure of the amount of radiation damage that living tissue would suffer under the same radiation exposure. [28] Radiotherapy treatment plans can be delivered in test mode to alanine pellets, which can then be measured to check that the intended pattern of radiation dose is correctly delivered by the treatment system.


Conclusion

Literature information available in PubChem for substances, compounds and assays, as well as how this information can be accessed, was described. Individual data contributors provide PubChem with cross-references between chemical substances and PubMed articles that contain information on that substance. From these SID-PMID cross-references, PubChem generates cross-references between the corresponding compound and the PubMed articles (i.e., CID-PMID cross-references). Data contributors can also supply a list of PMIDs for scientific articles that have information relevant to a given assay record. These articles may contain various kinds of information related to the assay, including experimental protocols, assay targets, diseases associated with the targets, and known ligands that bind the targets. Of particular interest, some data contributors provide bioactivity data extracted from literature through manual curation or data mining and are an important source of bioactivity information in PubChem that complement HTS data from the now-concluded NIH Molecular Libraries Program and other HTS projects. In addition to community-provided literature information, PubChem generates Entrez links between PubChem records and PubMed articles that share the same MeSH annotation. This automated process allows PubChem users to leverage the biomedical literature and its MeSH indexing for search and analysis purposes.

Some journals, such as Nature Chimie Biologie, provide PubChem with information on chemicals that appear in their newly published articles. This enables PubChem to direct users to the new articles on the journal web site, even before their abstracts become available in PubMed. In turn, the publisher can provide their readers with access to comprehensive information available in PubChem about the chemicals mentioned in a given article. This exemplifies the mutual benefit of concurrent publication of scientific articles in journals and associated data in public databases.

Literature information, both provided by depositors and derived via MeSH, can be accessed from the DocSum page of an Entrez search result, or from the Compound Summary, Substance Record, or BioAssay Record page. Users can also retrieve PubChem records associated with scientific articles, using appropriate Entrez filters. These tools allow PubChem users to more readily explore information available in literature related to PubChem records.


Public Chemical Databases

PubChem

PubChem ( Kim, 2016 Kim et al., 2016a Wang et al., 2017 ) is a public chemical information resource, developed and maintained by the National Center for Biotechnology Information (NCBI) at the National Library of Medicine (NLM), an institute within the U.S. National institutes of Health (NIH). It collects chemical substance descriptions and their biological activities from more than 500 data sources and disseminates these data to the public free of charge. Since the launch in 2004 as a component of the NIH Molecular Libraries Roadmap Initiatives, PubChem has been a key information resource for biomedical research communities in many areas such as cheminformatics, chemical biology, medicinal chemistry, and drug discovery.

PubChem contains various types of chemical information, including 2-D and 3-D structures, chemical and physical properties, bioactivity data, pharmacology, toxicology, drug target, metabolism, safety and handling, relevant patents and scientific papers, etc. While the majority of PubChem’s records are about small molecules, it also contains information on a broad range of chemical entities, including siRNAs, miRNAs, carbohydrates, lipids, peptides, chemically modified macromolecules, and many others. These data are provided by various contributors, including government agencies, university labs, pharmaceutical companies, chemical vendors, publishers and a number of chemical biology resources. Most of the chemical databases discussed in this paper also contribute their data to PubChem.

As shown in Fig. 3 , PubChem organizes its data into three inter-linked databases: Substance, Compound, and BioAssay ( Kim et al., 2016a ) (see the Relevant Websites section). The Substance database contains chemical substance descriptions submitted by individual data depositors. Unique chemical structures are extracted from the Substance database and stored in the Compound database. The BioAssay database contains descriptions and results of biological assay experiments performed on chemical substances. The records in the Substance, Compound, and BioAssay databases are called substances, compounds, and bioassays, respectively. Similarly, the record accessions used for the respective PubChem databases are the Substance ID (SID), Compound ID (CID), and Assay ID (AID). Currently, PubChem contains more than 234 million depositor-provided substances, 93 million unique compounds, and 233 million bioactivity test results from 1.25 million bioassays, covering more than 10,000 protein target sequences.

Fig. 3 . Data organization in PubChem. PubChem organizes its data into three inter-linked databases called Substance, Compound, and BioAssay. SID, CID, and AID are record identifiers used in the Substance, Compound, and BioAssay databases, respectively.

Although this article describes PubChem under Section Large-Scale Data Aggregators , it should be emphasized that PubChem contains the largest amount of bioactivity data available in the public domain. These data are primarily generated from high-throughput screening (HTS) experiments, because PubChem served as a central repository for the now-concluded NIH’s Molecular Libraries Program (MLP). However, it also contains a substantial amount of high-quality bioactivity data extracted from research articles and patent documents, thanks to data contributions by many bioactivity databases, including ChEMBL, BindingDB, and PDBbind (to be discussed later in the present paper) ( Kim et al., 2016b ). In Fig. 4 , the PubChem BioAssay database is compared with other bioactivity databases discussed in the present article.

Fig. 4 . Comparison of PubChem and other databases that provide bioactivity data of small molecules.


What is new in PubChemRDF 1.5β?

The 1.5β release contains a number of new features and technological improvements including:

  • Faster Speed
    PubChemRDF data is now served from a triple-store and provides a noticeable speed improvement, especially for records with lots of data. Previously, RDF was generated on the fly from data stored in disparate data systems.
  • Addition of MeSH
    Major improvements were made to the reference subdomain. Most notable is the addition of Medical Subject Heading (MeSH) annotation of PubMed records. This includes MeSH topical descriptors (with optional qualifier) that indicate the subject of an article and MeSH (supplementary) concepts that indicate things like chemicals and diseases discussed in an article.
  • Direct links to authoritative RDF resources
    PubChemRDF now enhances cross-integration by providing direct links to available authoritative RDF resources within applicable subdomains, including: reference, synonym, and inchikey to MeSH RDF protein to UniProt RDF protein and substance to PDB RDF biosystem to Reactome RDF substance to ChEMBL RDF and compound to WikiData RDF. For example, the links to PDB RDF help to distinguish proteins and associated chemical substances found in a Protein Data Bank (PDB) crystal structure.
  • Addition of ‘concept’ subdomain
    A new ‘concept’ subdomain provides the means to annotate PubChemRDF subdomains. For example, annotation between nodes within the concept subdomain allows a hierarchy of concepts to be created, such as those in the WHO ATC classification. These can then be applied, such as in the case of adding links from chemical substance synonyms to a WHO ATC classification to indicate its therapeutic and pharmacological properties.
  • New links added between the compound and biosystem subdomains
    Previously, the biosystem subdomain linked only to the protein subdomain. The added links between the compound and biosystem subdomains help to indicate the chemical structure involved in a given pathway.
  • Support for protein complexes
    Protein complex targets are now distinguished within the bioassay subdomain and are linked to the component protein units.
  • Linked Data using JSON
    JSON-LD (or JavaScript Object Notation for Linked Data) is a method of transporting Linked Data using JSON. This addition helps those wanting to use JSON formatted data, for example, with JavaScript.
  • Substring searches
    PubChemRDF REST interface now provides a substring search. For example, this returns chemical substance synonyms that contain the string “aspirin”:
    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&name=aspirin&contain=true
  • Simple SPARQL-like query functions
    PubChemRDF REST interface provides simple SPARQL-like query capabilities for grouping and filtering relevant resources. For instance, the following query can retrieve the ChEBI class assignments for PubChem substances:
    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=substance&predicate=rdf:type

PUBLIC ACCESS AND SEARCH

An individual record in the PubChem BioAssay database can be accessed directly through the BioAssay Summary service at http://pubchem.ncbi.nlm.nih.gov/assay/assay.cgi?aid=myAID, where ‘myAID’ is a valid numeric PubChem BioAssay accession (AID). This service provides access to all versions of deposited assay information, such as assay protocol, test result descriptions and data ( Figure 1). It allows one to retrieve, view, and download test results through the ‘Show Data’ links. The service also lists information about the assay target, including depositor-provided molecular information and annotations derived by PubChem about protein family classification, the corresponding gene, pathway and homologous 3D structures. Furthermore, the BioAssay Summary service provides a central entry point to a set of data analysis tools for the bioactive compounds identified in the assay. These analysis tools can be accessed through the ‘BioActivity Summary’, ‘Structure–Activity Analysis’ and ‘Structure Clustering’ links, and allow one to cluster the scaffolds of the tested compounds, examine and visualize SAR relationships, and evaluate target specificity or promiscuity properties of the compounds. In addition, the ‘Related BioAssays’ section lists assays that may be related to the one under review and links to further detailed summary over the bioassay relationship. Cross-references to other NCBI databases, such as PubMed, are listed under the ‘Links’ section.

The summary view of a PubChem bioassay record. Assay results can be retrieved through the Show Data | Active and Show Data | All links.


Voir la vidéo: CompoundSubstanceBioAssay Retrieval from PubChem Database (Juillet 2022).


Commentaires:

  1. Moogukus

    Oui vraiment. Et je l'ai fait face.

  2. Wambli-Waste

    Dis-moi à qui puis-je demander

  3. Tekree

    Aimerait dire une paire de mots.

  4. Sevrin

    Je pense qu'il a tort. Écrivez-moi dans PM, cela vous parle.

  5. Pityocamptes

    Je suis désolé, mais je pense que vous faites une erreur. Discutons de cela. Envoyez-moi un courriel à PM, nous parlerons.

  6. Gugore

    ahahahahhh this is cool .. neighing wonderfully



Écrire un message