这是我第一篇带有大量图的文章。这篇文章,主要使用基于BM25检索算法的形式构建RAG对话系统,对比向量检索是有缺陷的。不过大家可能更多的是混合使用两者吧。文章主要是基于上次构建的最小对话系统原型为基础引入RAG技术。文章主要讲了文本分块,混合多语言的BM25检索算法,封装MinerU作为pdf转换器。上次有读者反馈说有图会更好一些,这次文章就加入了很多图,有结构图,也有项目运行示例图,还有MinerU转换效果图😄,最后的话也是提到了一些优化的方向,希望大家能喜欢,哈哈
虽然文章目标是不懂RAG的小白,但是全文接近一万五字,我觉得有基础的也可以看看哈,大佬给点意见就太感谢了,哈哈
文章在飞书上,因为网站格式不兼容:
https://jiixflj4r94.feishu.cn/docx/XDRydeuvPokI0UxWo8Bc448nnyh?from=from_copylink