本例子提供了分子搜索,支持上传smi文件文件,使用RDKit提取分子特征,并基于milvus向量引擎进行后续检索。
SMILES(Simplified molecular input line entry system),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。 由于SMILES用一串字符来描述一个三维化学结构,它必然要将化学结构转化成一个生成树,此系统采用纵向优先遍历树算法。转化时,先要去掉氢,还要把环打开。表示时,被拆掉的键端的原子要用数字标记,支链写在小括号里。 SMILES字符串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型。
RDKit是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符生成,fingerprint生成,化合物结构相似性计算,2D和3D分子展示等。将化学与机器学习联系起来的、非常实用的库。可以在很多种化学文件如mol2,mol,Smiles,sdf等之间互相转化,并能将其展示成2D、3D等形式供开发人员使用。
|
|
xxxxxxxxxx
P(=O)(OC[C@H]1O[C@@H](n2c3ncnc(N)c3nc2)[C@H](O)[C@@H]1F)(O)O