心之所向 素履以往
聚客AI累计更新百余次,每一次的完善背后都离不开所有技术人员的辛勤付出
首页 >> 新闻中心 >> AI百科
RAGFlow:从 0 到 1教你搭建RAG知识库
浏览量 54时间 2025-03-25

1. RAGFlow概述

RAGFlow是基于检索增强生成(Retrieval-Augmented Generation)技术的开源知识库解决方案,能够快速将非结构化文档(PDF、Word、Markdown等)转化为可检索的知识库,并通过大模型实现精准问答。其核心优势包括:

  • 自动文本解析:支持复杂格式文档(表格、公式、代码块)的智能解析;

  • 精准检索:结合语义匹配和关键词检索,提升上下文相关性;

  • 可视化流程:从文档预处理到问答测试全流程图形化操作。

image.png


2. 环境准备与系统搭建

2.1 环境需求

image.png

2.2 安装

通过Docker一键部署

# 拉取最新镜像
docker pull infiniflow/ragflow:latest
# 启动容器(GPU版本需附加--gpus all参数)
docker run -d --name ragflow 
  -p 8000:8000 
  -v /data/ragflow:/var/ragflow 
  infiniflow/ragflow

访问 http://localhost:8000 进入登录界面

image.png

3. 应用实践

3.1 注册账号

  1. 点击首页"Sign Up"进入注册页面

  2. 输入邮箱、密码(需包含大小写字母+数字)

  3. 验证邮箱后完成注册


image.png

3.2 添加模型

进入模型管理 > 新增模型

  • 本地模型:指定模型路径(如/opt/llama2-13b)

  • API模型:填写OpenAI/Gemini等API密钥

  • 参数设置:调整temperature、max_tokens等生成参数

  • image.png

  • 3.3 创建知识库

  • 点击知识库 > 新建知识库

  • 上传文档(支持批量上传)

  • 配置解析规则:

    • 分块大小:建议512-1024 tokens

    • 元数据提取:自动识别作者、日期等字段

  • 启动文档解析(等待进度条完成)

  • image.png


4. 验证效果

检索分析

查看检索日志

  • 命中的文档片段

  • 相关性评分

  • 大模型改写后的查询语句

    image.png
  • 原文档:

  • image.png

  • 本文介绍了 RAGFlow 的基础使用方法,从演示效果来看尚可。然而,在实际应用场景中,各类文件格式与结构各不相同,文件解析成为一大难题。一旦解析不准确,即便使用性能强劲的 Deepseek-R1 大模型(经亲测),也会出现分析错误的情况。因此,在 RAG 过程中,文件解析、Embedding 以及 LLM 是提升准确率的三大关键攻克点。


    推荐阅读
    2025-03-1570
    3月1日晚,湖南光聚客网络科技有限公司(以下简称“聚客AI”)旗下聚客AI学院主办的首期线上交流分享···
    2025-01-3063
    新年伊始,不少产业链企业就围绕自动驾驶展开布局。在2025年国际消费电子展( 简称“CES 2025···
    2025-01-25111
    人工智能中的Agent,也称为智能体(Intelligent Agent),是一种具有自主性、目标导···
    2025-03-2847
    引言:从技术实践到行业共识的RAG演进之路在2023年之前,RAG(检索增强生成)的核心技术——检索···
    2025-03-2723
    【2025年3月20日】国内领先的人工智能教育科技品牌聚客AI宣布,其官方学习平台正式登陆百度智能小···
    聚客学院已正式上线立即体验