Skip to content

Digi10-Max/sui-knowledge-base

Repository files navigation

Sui Knowledge Base — 层次化 AI 知识库爬虫系统

L1-L5 五层爬虫 + 多 Agent 协作调度 + 自动质检

Python

架构

五层信息架构,每层独立爬取、独立验证:

层级 名称 爬取目标
L1 系统层 底层架构、操作系统、基础设施
L2 应用层 完整应用、平台、产品
L3 模块层 子系统、微服务、功能模块
L4 接口层 API、协议、数据格式
L5 实现层 具体代码、配置、调优

多 Agent 协作

  • 调度器 (agent_scheduler.py) — 分配爬取任务,管理并发
  • 审查器 (agent_reviewer.py) — 评估信息质量,去重去噪
  • 知识匹配器 (knowledge_matcher.py) — 将碎片信息挂载到五层树
  • 浏览器验证器 (browser_verifier.py) — 动态页面内容抓取
  • 质量检查器 (quality_checker.py) — 自动校验完整性
  • 报告生成器 (report_generator.py) — 结构化输出

快速开始

pip install -r requirements.txt
python crawler/main.py

项目结构

sui-knowledge-base/
├── crawler/          # 18个爬虫+agent模块
├── knowledge-base/   # 五层知识存储
└── docs/             # 设计文档

作者

Digi10-MaxGitHub

About

Sui knowledge base - L1-L5 + crawler tools

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages