COCONUT (COlleCtion of Open Natural ProdUcTs)-广东药科大学图书馆

开放获取资源

当前位置：首页-> 数字资源-> 开放获取资源-> 正文

COCONUT (COlleCtion of Open Natural ProdUcTs)

发布时间：2022-09-06

名称

COCONUT (COlleCtion of Open Natural ProdUcTs)

链接

https://coconut.naturalproducts.net/ 建议使用火狐、搜狗浏览器

详细描述

COCONUT(COlleCtion of Open Natural ProdUcTs) 数据库是由德国耶拿大学(Friedrich-Schiller-Universit?t Jena)的Maria Sorokina 和 Christoph Steinbeck教授从53个不同数据库以及文献中合并整理得到。当前版本（2022年1月）包含407,270个无立体化学结构的天然产物以及它们已知的立体化学形式、文献、生物来源、地理位置和各种预先计算的分子特性。 COCONUT数据库是免费的，面向所有用户开放，不需要登录即可使用。其Web界面允许进行多种形式搜索（例如：分子名称，InChI，InChI key，SMILES，结构，分子式），以及分子属性、子结构和相似性等高级搜索，还能以不同格式下载整个数据库或搜索结果。还可以通过REST API (REpresentational State Transfer Application Programming Interface)查询数据库。

收录的化合物数据量：407,270(version from January 2022)

COCONUT数据库的搭建和内容：

1、Web界面和技术特性

所有COCONUT数据都存储在MongoDB（一个跨平台的面向文档的NoSQL数据库程序）中。MongoDB中最小的单元是一个文档，类似于JSON(JavaScript Object Notation)对象的键和值对组成。具有相同性质的文档被组织在集合中，这些集合等效于基于SQL的数据库表。MongoDB特别适合大型和复杂数据，支持多种索引编制，包括文本索引编制，可在文本索引字段中增强文本搜索，并包含多种内置搜索和分析功能。

COCONUT数据库中存在两个主要集合：SourceNaturalProduct，它包含从开源收集的原始NP数据；UniqueNaturalProduct，它是经过规范和管理的NP集合。具有所有计算功能的完整版本的COCONUT可以在网站的“下载”部分中作为MongoDB转储进行访问。欢迎通过COCONUT GitHub跟踪器请求在Web界面中显示其他关键功能并使它们可通过高级搜索界面进行搜索。

COCONUT在线前端完全使用React.js开发，React.js是一个JavaScript库，用于构建响应迅速且高效的用户界面。OpenChemLib库用于处理搜索功能的化学编辑器。使用Spring框架，用Kotlin和Java 11编写了COCONUT后端，它允许处理前端请求并与数据库通信。CDK(Chemistry Development Kit)用于处理化学信息和格式。COCONUT Web界面，后端和数据库完全采用Dockerized，可在本地服务器和云上快速地进行部署。前端和后端的所有代码都可以在GitHub （https://github.com/mSorok/NaturalProductsOnline）上找到。

2、数据来源、模型和内容

COCONUT的数据是从53个不同数据库以及文献中整理得到。当前版本（2020年8月）包含426,916个无立体化学结构的天然产物和746,626个有立体化学结构的天然产物。

首先从外部收集的每个分子都必须通过质量控制和注册程序，该程序检查分子结构的大小（5到210个重原子之间），连通性（仅保留最大的连接结构），伪原子（隐性和显性氢正确、化合价守恒）。Kekulé表示也分配给每种化合物的芳族体系。然后，来自不同出处的NP会根据其InChI keys的身份进行统一，而无需进行立体化学分析。以这种方式执行此统一步骤，具有立体化学的原始分子结构将得到保留，并且可以在每个NP条目中看到。作者深知化合物的不同立体异构体会影响生物活性。因此，上述过程是从质量不同的分布式数据库中创建统一资源的必要步骤，然后逐步改善立体化学的分配以及与原始文献的联系。

然后，为每个唯一的NP分配一个唯一的标识符，该标识符由“ CNP”前缀和7位数字组成。执行NP元数据的自动管理，包括搜索其正式名称、同义词和对其他主要化学数据库的交叉引用。然后，使用内置CDK库计算一系列分子特性，描述符和分子指纹。由于计算的属性的数量很大（每个文档中的73个字段对应于一个唯一的NP），因此COCONUT Web界面上仅显示其中一部分的选定内容。接着，执行第一轮NP元数据的自动管理，特别是分子名称同义词，与其他主要化学数据库的交叉引用，文献参考（PubMed标识符和DOI）的更正和分类法。所有原始数据，规范后的NP以及衍生物和计算的信息都存储在MongoDB中。COCONUT中所有NP的化学分类都是使用ClassyFire进行的，在化合物页面的相应部分中进行。此外，针对NP计算有助于NP分析其化学和治疗性质的框架，例如Murcko框架，Ertl官能团和深度SMILES。

最后，计算COCONUT中每个NP的注释级别。这是一个基于5星的系统，其中1星是最低注释质量（没有经过验证的通用名称，没有生物注释，没有文献参考和没有可信数据源），而5星是最高注释质量，所有中间注释质量由2、3和4星反映。这里的“可信”数据源对NP具有很高的管理水平：ChEBI，KNApSAcK，ChEMBL，MAUP，NP Atlas，当然还有人工选择的数据。在其页面上的每个NP上都可以看到以星号表示的注释级别。

3、天然产物命名

COCONUT中的NP名称一般来源于其原始数据库。其余NP是用其 InChI在化学数据库（如：PubChem，ChEMBL和ChEBI）中搜索，寻找该化合物的常用名和同义名。IUPAC名称是使用ChemAxon系统计算的，如果该化合物没有通用名称，则使用指定名称。因此，COCONUT中的所有NP都有一个指定的分子名称。使用ChemAxon的MolCovert为每个NP计算IUPAC名称，如果找到该分子的名称，则IUPAC名称指定为主要名称。

4、计算分子特征

糖部分是NP的一种常见但非强制性特征。为了追踪它们对其他特征的影响，对它们的存在和不存在进行了颜色映射（蓝色的分子结构中没有糖部分，橙色中存在至少一个糖部分）。NP的分子量范围很宽；但有趣的是，其与分子中氧原子数目相关，而与是否存在糖无关。另一个有趣的相关性是无糖分子的分子量和氮原子数相关。NP相似性得分具有NP集的典型分布，其中大多数分子的得分都为正。

计算分子环是一项复杂的工作，因为两个稠合环的外周可以算作一个大环。缩合环越多，稠合环的周长数（又称为所有环的集合）就会急剧增加。

5、天然产物注释

除了其结构和计算特征外，NPs还需要至少在一篇文献参考中注明，并注释在何处，何时以及从哪个生物中分离出来。因此，NP条目应与至少一种生物相关，优先与NCBI分类法标识符和该生物被收集的地理位置相关。遗憾的是，在原始来源的公共数据库和数据集中，通常会省略此信息。因此，在COCONUT中，只有31.7％（135,352）NP被注释至少一种生物分类群，15.4％（66,068）NP已知该生物集合的地理位置（在大陆一级），16.6％（70,730）NP至少有一个参考文献。这些统计结合了原始的NP注释和我们从主要化学数据库（PubChem，ChEMBL，ChEBI，CMAUP和KnapSacK）中的人工搜索的努力。尽管付出很多努力，但NP结构说明的原始出版物与其参考文献，来源生物及其地理位置之间的大多数联系仍然缺失。解决这些空白的方法是手动管理，但即使使用了此方法，COCONUT中的数据量也很少。另一个解决方案是无监督机器学习，解析现代同行评审的文献和书籍，以重新建立NP结构与其出处之间的联系。

我们分析了NP的分类学，以及在COCONUT中已知起源生物的31％NP的生物界之间NP的重叠这里有五个分类类别：植物，细菌，真菌，动物和海洋生物。最后一个不是适当的单枝分类，而是反映了仅在海洋和海洋环境中发现的一组生物，因此在种类和NP含量方面可以与其他类别重叠，这在分类上更加严格。这些带注释的NP中的很大一部分（65％）仅由植物产生，只有极少数（0.5％）来自动物。在分类界之间，NP的主要重叠是植物与海洋生物之间的重叠（这并不奇怪，因为海洋实体之间可能存在真正的植物），而植物与真菌之间的重叠却令人惊讶。这里需要指出的是，多细胞生物，例如植物，动物和某些真菌，大多数时候与微生物特别是细菌共生。因此，从这种多细胞生物中分离出的NP可以通过其共生体或微生物群落合成和分泌，因此会错误地分配给不正确的生物。收集地理位置或产生NP的生物信息是很难的。由于全球化及在人类食用方面的成功（例如大蒜，西红柿，姜黄或姜），在地球的不同地方可以发现多种生物，尤其是植物。因此，很难确定其原始出处。同样，地理信息在文献和大多数NP数据库中通常被省略。地理来源存储在COCONUT的MongoDB转储中，但不显示在网站上。

可获取地理信息的NP似乎大多数在亚洲。这种差别是由中国、印度传统医学科学家的深入研究以及从药用植物中分离和阐明NP引起的。来自非洲大陆的NP在COCONUT中也有很好的代表，这是由对非洲传统药物和非洲生物多样性的科学兴趣产生的。到目前为止，没有来自澳大利亚大陆生物多样性的数据，只有很少的从欧洲特有生物中分离出来的NP数据。美洲的NP主要由在巴西和墨西哥的生物多样性探索中提取和发现的。在一个以上的大陆（主要在亚洲和非洲）存在的NP只有少数，并且重叠因大陆之间不同存有偏差。

6、数据库搜索

在线COCONUT旨在成为一个成熟的、完备的化学数据库，并具有所有后续功能，尤其是搜索方面。目前，化学搜索在MongoDB中并不常见，因此已经采用了几种方法来运行分子子结构搜索和相似度搜索。

简单搜索：可以使用标题搜索栏进行简单搜索。可以对分子名称（例如“姜黄素”），SMILES，InChI，InChi key，COCONUT id或分子式进行查询。名称搜索使用本机MongoDB文本索引，允许在“名称”和“同义词”字段中进行模糊搜索。首先，使用正则表达式识别输入的字符串类型，然后针对适当的字段查询DB，并将结果（如果存在）返回到前端。

子结构搜索：在分子的MongoDB数据库中搜索精确的子结构非常容易。数据库中的每个分子都需要选择其指纹（在COCONUT中使用PubChem指纹）进行预先计算，并存储为字节列表（MongoDB中的BinData类型）。然后，查询分子（子结构）需要使用$ allBitsSet函数来计算其指纹并与数据库进行匹配。MongoDB的本质功能允许在集合中选择文档，在该集合中BinData字段将所有查询位设置为“on”。然后，为了确认子结构匹配，使用CDK方法执行Ullmann模式匹配。

相似度搜索：一篇出色的ChEBML博客文章教程中实现了如何进行相似性搜索，该教程关于MongoDB中基于LSH的相似性搜索并将其改编为Java，Kotlin和Spring数据。在这种方法中，MongoDB聚合框架用于对存储在单独表中的PubChem指纹执行反向索引搜索，并引用包含每个位编码的分子特征的COCONUT标识符。

高级搜索：通过高级搜索，可以根据一系列参数来搜索COCONUT中的NP，例如分子式、分子描述符值、环数、糖部分类型等。

通过API查询COCONUT：API也可用于以编程方式查询COCONUT。它依赖Kotlin API功能，其用法以及一些示例在网站https://coconut.naturalproducts.net/documentation的文档部分中进行了详细说明。

7、文档资料

https://coconut.naturalproducts.net/documentation网站的文档部分提供了描述COCONUT及其数据和功能的完整文档。

8、效用讨论

在线COCONUT数据库是研究天然产物的开放工具。COCONUT是2020年最大的NP集合，其中包含的数据可以使许多研究人员受益，例如生物多样性研究和药物发现。Web界面允许以各种化学相关的方式进行查询和解析数据收集。它也是使用MongoDB作为存储管理系统的第一个大型化学数据库。

可以预先计算出分子的各种描述符，并在大量手动管理前，尽可能多地注释文献，分类及其地理信息。可通过分子结构、化合物名称和分子特征等多种方式搜索数据库，从而使该数据库成为成熟完整的化学数据库。用户界面现代且易于使用。此外，COCONUT的全部内容可以以多种格式下载。

未来COCONUT将支持用户注册，以实现用户驱动的NP策划和提交，并将进一步完善数据注释，尤其是使用深度学习方法来得到NP的生物、地理和相应文献的信息。

9、反馈

可以在项目问题跟踪器https://github.com/m-Sorok/NaturalProductsOnline/issues中报告错误，注释问题以及对新的COCONUT条目的请求或对现有条目的重新注释。也欢迎提出新功能的建议。

上一条：Seaweed Metabolite Database

下一条：ProCarDB