COCONUT(COlleCtion of Open Natural ProdUcTs) 数据库是由德国耶拿大学(Friedrich-Schiller-Universit?t Jena)的Maria Sorokina 和 Christoph Steinbeck教授从53个不同数据库以及文献中合并整理得到。当前版本(2022年1月)包含407,270个无立体化学结构的天然产物以及它们已知的立体化学形式、文献、生物来源、地理位置和各种预先计算的分子特性。 COCONUT数据库是免费的,面向所有用户开放,不需要登录即可使用。其Web界面允许进行多种形式搜索(例如:分子名称,InChI,InChI key,SMILES,结构,分子式),以及分子属性、子结构和相似性等高级搜索,还能以不同格式下载整个数据库或搜索结果。还可以通过REST API (REpresentational State Transfer Application Programming Interface)查询数据库。 收录的化合物数据量:407,270(version from January 2022) COCONUT数据库的搭建和内容: 1、Web界面和技术特性 所有COCONUT数据都存储在MongoDB(一个跨平台的面向文档的NoSQL数据库程序)中。MongoDB中最小的单元是一个文档,类似于JSON(JavaScript Object Notation)对象的键和值对组成。具有相同性质的文档被组织在集合中,这些集合等效于基于SQL的数据库表。MongoDB特别适合大型和复杂数据,支持多种索引编制,包括文本索引编制,可在文本索引字段中增强文本搜索,并包含多种内置搜索和分析功能。 COCONUT数据库中存在两个主要集合:SourceNaturalProduct,它包含从开源收集的原始NP数据;UniqueNaturalProduct,它是经过规范和管理的NP集合。具有所有计算功能的完整版本的COCONUT可以在网站的“下载”部分中作为MongoDB转储进行访问。欢迎通过COCONUT GitHub跟踪器请求在Web界面中显示其他关键功能并使它们可通过高级搜索界面进行搜索。 COCONUT在线前端完全使用React.js开发,React.js是一个JavaScript库,用于构建响应迅速且高效的用户界面。OpenChemLib库用于处理搜索功能的化学编辑器。使用Spring框架,用Kotlin和Java 11编写了COCONUT后端,它允许处理前端请求并与数据库通信。CDK(Chemistry Development Kit)用于处理化学信息和格式。COCONUT Web界面,后端和数据库完全采用Dockerized,可在本地服务器和云上快速地进行部署。前端和后端的所有代码都可以在GitHub (https://github.com/mSorok/NaturalProductsOnline)上找到。 2、数据来源、模型和内容 COCONUT的数据是从53个不同数据库以及文献中整理得到。当前版本(2020年8月)包含426,916个无立体化学结构的天然产物和746,626个有立体化学结构的天然产物。 首先从外部收集的每个分子都必须通过质量控制和注册程序,该程序检查分子结构的大小(5到210个重原子之间),连通性(仅保留最大的连接结构),伪原子(隐性和显性氢正确、化合价守恒)。Kekulé表示也分配给每种化合物的芳族体系。然后,来自不同出处的NP会根据其InChI keys的身份进行统一,而无需进行立体化学分析。以这种方式执行此统一步骤,具有立体化学的原始分子结构将得到保留,并且可以在每个NP条目中看到。作者深知化合物的不同立体异构体会影响生物活性。因此,上述过程是从质量不同的分布式数据库中创建统一资源的必要步骤,然后逐步改善立体化学的分配以及与原始文献的联系。 然后,为每个唯一的NP分配一个唯一的标识符,该标识符由“ CNP”前缀和7位数字组成。执行NP元数据的自动管理,包括搜索其正式名称、同义词和对其他主要化学数据库的交叉引用。然后,使用内置CDK库计算一系列分子特性,描述符和分子指纹。由于计算的属性的数量很大(每个文档中的73个字段对应于一个唯一的NP),因此COCONUT Web界面上仅显示其中一部分的选定内容。接着,执行第一轮NP元数据的自动管理,特别是分子名称同义词,与其他主要化学数据库的交叉引用,文献参考(PubMed标识符和DOI)的更正和分类法。所有原始数据,规范后的NP以及衍生物和计算的信息都存储在MongoDB中。COCONUT中所有NP的化学分类都是使用ClassyFire进行的,在化合物页面的相应部分中进行。此外,针对NP计算有助于NP分析其化学和治疗性质的框架,例如Murcko框架,Ertl官能团和深度SMILES。 最后,计算COCONUT中每个NP的注释级别。这是一个基于5星的系统,其中1星是最低注释质量(没有经过验证的通用名称,没有生物注释,没有文献参考和没有可信数据源),而5星是最高注释质量,所有中间注释质量由2、3和4星反映。这里的“可信”数据源对NP具有很高的管理水平:ChEBI,KNApSAcK,ChEMBL,MAUP,NP Atlas,当然还有人工选择的数据。在其页面上的每个NP上都可以看到以星号表示的注释级别。 3、天然产物命名 COCONUT中的NP名称一般来源于其原始数据库。其余NP是用其 InChI在化学数据库(如:PubChem,ChEMBL和ChEBI)中搜索,寻找该化合物的常用名和同义名。IUPAC名称是使用ChemAxon系统计算的,如果该化合物没有通用名称,则使用指定名称。因此,COCONUT中的所有NP都有一个指定的分子名称。使用ChemAxon的MolCovert为每个NP计算IUPAC名称,如果找到该分子的名称,则IUPAC名称指定为主要名称。 4、计算分子特征 糖部分是NP的一种常见但非强制性特征。为了追踪它们对其他特征的影响,对它们的存在和不存在进行了颜色映射(蓝色的分子结构中没有糖部分,橙色中存在至少一个糖部分)。NP的分子量范围很宽;但有趣的是,其与分子中氧原子数目相关,而与是否存在糖无关。另一个有趣的相关性是无糖分子的分子量和氮原子数相关。NP相似性得分具有NP集的典型分布,其中大多数分子的得分都为正。 计算分子环是一项复杂的工作,因为两个稠合环的外周可以算作一个大环。缩合环越多,稠合环的周长数(又称为所有环的集合)就会急剧增加。 5、天然产物注释 除了其结构和计算特征外,NPs还需要至少在一篇文献参考中注明,并注释在何处,何时以及从哪个生物中分离出来。因此,NP条目应与至少一种生物相关,优先与NCBI分类法标识符和该生物被收集的地理位置相关。遗憾的是,在原始来源的公共数据库和数据集中,通常会省略此信息。因此,在COCONUT中,只有31.7%(135,352)NP被注释至少一种生物分类群,15.4%(66,068)NP已知该生物集合的地理位置(在大陆一级),16.6%(70,730)NP至少有一个参考文献。这些统计结合了原始的NP注释和我们从主要化学数据库(PubChem,ChEMBL,ChEBI,CMAUP和KnapSacK)中的人工搜索的努力。尽管付出很多努力,但NP结构说明的原始出版物与其参考文献,来源生物及其地理位置之间的大多数联系仍然缺失。解决这些空白的方法是手动管理,但即使使用了此方法,COCONUT中的数据量也很少。另一个解决方案是无监督机器学习,解析现代同行评审的文献和书籍,以重新建立NP结构与其出处之间的联系。 我们分析了NP的分类学,以及在COCONUT中已知起源生物的31%NP的生物界之间NP的重叠这里有五个分类类别:植物,细菌,真菌,动物和海洋生物。最后一个不是适当的单枝分类,而是反映了仅在海洋和海洋环境中发现的一组生物,因此在种类和NP含量方面可以与其他类别重叠,这在分类上更加严格。这些带注释的NP中的很大一部分(65%)仅由植物产生,只有极少数(0.5%)来自动物。在分类界之间,NP的主要重叠是植物与海洋生物之间的重叠(这并不奇怪,因为海洋实体之间可能存在真正的植物),而植物与真菌之间的重叠却令人惊讶。这里需要指出的是,多细胞生物,例如植物,动物和某些真菌,大多数时候与微生物特别是细菌共生。因此,从这种多细胞生物中分离出的NP可以通过其共生体或微生物群落合成和分泌,因此会错误地分配给不正确的生物。收集地理位置或产生NP的生物信息是很难的。由于全球化及在人类食用方面的成功(例如大蒜,西红柿,姜黄或姜),在地球的不同地方可以发现多种生物,尤其是植物。因此,很难确定其原始出处。同样,地理信息在文献和大多数NP数据库中通常被省略。地理来源存储在COCONUT的MongoDB转储中,但不显示在网站上。 可获取地理信息的NP似乎大多数在亚洲。这种差别是由中国、印度传统医学科学家的深入研究以及从药用植物中分离和阐明NP引起的。来自非洲大陆的NP在COCONUT中也有很好的代表,这是由对非洲传统药物和非洲生物多样性的科学兴趣产生的。到目前为止,没有来自澳大利亚大陆生物多样性的数据,只有很少的从欧洲特有生物中分离出来的NP数据。美洲的NP主要由在巴西和墨西哥的生物多样性探索中提取和发现的。在一个以上的大陆(主要在亚洲和非洲)存在的NP只有少数,并且重叠因大陆之间不同存有偏差。 6、数据库搜索 在线COCONUT旨在成为一个成熟的、完备的化学数据库,并具有所有后续功能,尤其是搜索方面。目前,化学搜索在MongoDB中并不常见,因此已经采用了几种方法来运行分子子结构搜索和相似度搜索。 简单搜索:可以使用标题搜索栏进行简单搜索。可以对分子名称(例如“姜黄素”),SMILES,InChI,InChi key,COCONUT id或分子式进行查询。名称搜索使用本机MongoDB文本索引,允许在“名称”和“同义词”字段中进行模糊搜索。首先,使用正则表达式识别输入的字符串类型,然后针对适当的字段查询DB,并将结果(如果存在)返回到前端。 子结构搜索:在分子的MongoDB数据库中搜索精确的子结构非常容易。数据库中的每个分子都需要选择其指纹(在COCONUT中使用PubChem指纹)进行预先计算,并存储为字节列表(MongoDB中的BinData类型)。然后,查询分子(子结构)需要使用$ allBitsSet函数来计算其指纹并与数据库进行匹配。MongoDB的本质功能允许在集合中选择文档,在该集合中BinData字段将所有查询位设置为“on”。然后,为了确认子结构匹配,使用CDK方法执行Ullmann模式匹配。 相似度搜索:一篇出色的ChEBML博客文章教程中实现了如何进行相似性搜索,该教程关于MongoDB中基于LSH的相似性搜索并将其改编为Java,Kotlin和Spring数据。在这种方法中,MongoDB聚合框架用于对存储在单独表中的PubChem指纹执行反向索引搜索,并引用包含每个位编码的分子特征的COCONUT标识符。 高级搜索:通过高级搜索,可以根据一系列参数来搜索COCONUT中的NP,例如分子式、分子描述符值、环数、糖部分类型等。 通过API查询COCONUT:API也可用于以编程方式查询COCONUT。它依赖Kotlin API功能,其用法以及一些示例在网站https://coconut.naturalproducts.net/documentation的文档部分中进行了详细说明。 7、文档资料 https://coconut.naturalproducts.net/documentation网站的文档部分提供了描述COCONUT及其数据和功能的完整文档。 8、效用讨论 在线COCONUT数据库是研究天然产物的开放工具。COCONUT是2020年最大的NP集合,其中包含的数据可以使许多研究人员受益,例如生物多样性研究和药物发现。Web界面允许以各种化学相关的方式进行查询和解析数据收集。它也是使用MongoDB作为存储管理系统的第一个大型化学数据库。 可以预先计算出分子的各种描述符,并在大量手动管理前,尽可能多地注释文献,分类及其地理信息。可通过分子结构、化合物名称和分子特征等多种方式搜索数据库,从而使该数据库成为成熟完整的化学数据库。用户界面现代且易于使用。此外,COCONUT的全部内容可以以多种格式下载。 未来COCONUT将支持用户注册,以实现用户驱动的NP策划和提交,并将进一步完善数据注释,尤其是使用深度学习方法来得到NP的生物、地理和相应文献的信息。 9、反馈 可以在项目问题跟踪器https://github.com/m-Sorok/NaturalProductsOnline/issues中报告错误,注释问题以及对新的COCONUT条目的请求或对现有条目的重新注释。也欢迎提出新功能的建议。 |