多语言文本语义特征提取工具箱提供3个SDK, 满足对不同语言,不同精度,不同速度等场景的需要。 文本语义特征提取是指从文本数据中提取出具有语义信息的关键特征的过程,最后生成特征向量。这些特征向量可以帮助计算机更好地理解文本内容,进行分类、聚类、检索、摘要等任务。文本语义特征提取具体应用有:
文本搜索,具体过程都分为两个阶段: 首先是文本入库,文本入库主要包含两个步骤,文本特征提取,以及文本特征入库,也就是存入向量数据库。 第二阶段是文本语义搜索。首先输入文本,然后系统会提取文本的特征,最后根据特征值去向量数据库进行检索,获取相似度最高的一组文本,并返回搜索结果。
文本搜索是一种通过在文本数据集中查找特定关键词、短语或模式来定位信息的技术。它在各种领域中都有广泛的应用,包括搜索引擎、信息检索、自然语言处理、数据挖掘等。在RAG,即检索增强生成模型中,文本搜索起着关键作用,以下是文本搜索在检索增强生成中的应用介绍:
运行成功后,命令行应该看到下面的信息:
...
# 测试语句:
# 英文一组
[INFO ] - input Sentence1: This model generates embeddings for input sentence
[INFO ] - input Sentence2: This model generates embeddings
# 中文一组
[INFO ] - input Sentence3: 今天天气不错
[INFO ] - input Sentence4: 今天风和日丽
# 向量维度:
[INFO ] - Vector dimensions: 768
# 英文 - 生成向量:
[INFO ] - Sentence1 embeddings: [0.10717804, 0.0023716218, ..., -0.087652676, 0.5144994]
[INFO ] - Sentence2 embeddings: [0.06960095, 0.09246655, ..., -0.06324193, 0.2669841]
#计算英文相似度:
[INFO ] - 英文 Similarity: 0.84808713
# 中文 - 生成向量:
[INFO ] - Sentence1 embeddings: [0.19896796, 0.46568888,..., 0.09489663, 0.19511698]
[INFO ] - Sentence2 embeddings: [0.1639189, 0.43350196, ..., -0.025053274, -0.121924624]
#计算中文相似度:
#由于使用了sentencepiece切词器,中文切词更准确,比15种语言的模型(只切成字,没有考虑词)精度更好。
[INFO ] - 中文 Similarity: 0.67201