构建高效QA系统的全新方法

2024-11-29 14:39 栏目：行业动态 查看()

最近，正在进行人工智能，目标是实现智能问答系统来支持业务。经过一段时间的基本人工智能技术研究，小马开始研究NLP和智能问答系统。本文介绍了如何在5分钟内快速构建智能问答系统。个人测试非常有效。

典型的QA 该系统包括在线客户服务系统，QA 聊天机器人等。大多数问答系统可以分为：生成式或检索式、单轮或多轮、开放式或特定的问答系统。

大部分传统的问答机器人都是以规则为基础的知识地图，需要对大量的语料库进行分类。

基于深度学习模型的实现，可以完全摆脱语料库的预处理，只需提供问答的对应关系，通过自然语言处理的语义分析模型，将问题库提取的语义特征向量存储在milvus中，然后提取问题的语义特征向量，通过匹配向量特征实现自动回复，轻松实现智能客户服务等应用。

第一，理论准备

如何在5分钟内快速构建智能问答系统，小马首先受到这个视频教程“5分钟构建智能问答系统”的启发，文章“快速构建对话机器人，使用这个动作！”——有一个比较清晰的原则描述，但是发现教程中的项目版本太旧，资源已经下架，所以视频仅供参考。因此，找到最新的相关教程github地址，跟随教程。(参考文章《bootcamp问答系统部署》加载中文模型)

首先，我们来看一下这个项目的描述。

This project combines Milvus and BERT to build a question and answer system. This aims to provide a solution to achieve semantic similarity matching with Milvus combined with AI models.

直译为：

本项目结合 Milvus 和 BERT 构建问答系统。通过提供解决方案，提供解决方案。 Milvus 结合 AI 实现模型语义相似度匹配。

Milvus是什么？

Milvus是世界领先的开源向量数据库，赋能了世界领先的开源向量数据库。 AI 应用程序和向量相似性搜索，加速非结构化数据搜索。

BERT 是什么？

基于Transformer的机器学习技术BERT是谷歌开发的，用于自然语言处理。(NLP) 预训练。

这里有一个BERT相关的视频教程，“BERT从零开始详细解读，不知道怎么打我”，涉及AE输入形式。 Mask模型采用概率学，所以没有监督学习依赖于训练数据，需要从训练数据中计算概率。

BERT是由MLM和NSP两个自监督任务组成的多任务模型。Next Sentence Prediction（NSP）判断句子B是否是句子A的任务。还有一个教程1、2。

生成词向量是BERT的一个重要功能，它可以解决word2vec中无法解决的词多义问题。在获得BERT词向量之后，还可以结合CNN、RNN等模型来完成自己的任务。

如今，我们可以看一下系统的结构原理图。

Question Answering Engine

该系统可以将新用户问题与之前存储在向量数据库中的大量答案联系起来。为了建立这样一个聊天机器人，请准备你自己的问题数据集和相应的答案。将问题和答案存储在关系数据库中 MySQL 中间。再用于自然语言处理。(NLP) 的机器学习 (ML) 模型 BERT 把问题转换成向量。这类问题的向量 Milvus 存储和索引。当用户输入新的问题时，BERT 这个模型也把它转换成向量，Milvus 这将搜索与这个新向量最相似的问题向量。问答系统将最相似的问题返回到相应的答案。

系统会使用 Milvus 存储和搜索特征向量数据，Mysql 用于存储 Milvus 返回的 id 在这个时候，需要启动与问题数据集的对应关系。 Milvus 和 Mysql。

快速部署

因为这篇文章之前没有详细写过，想保留评论笔记，所以不想删除，所以重新整理了一个完整的内容:门户。