L1-L5 五层爬虫 + 多 Agent 协作调度 + 自动质检
五层信息架构,每层独立爬取、独立验证:
| 层级 | 名称 | 爬取目标 |
|---|---|---|
| L1 | 系统层 | 底层架构、操作系统、基础设施 |
| L2 | 应用层 | 完整应用、平台、产品 |
| L3 | 模块层 | 子系统、微服务、功能模块 |
| L4 | 接口层 | API、协议、数据格式 |
| L5 | 实现层 | 具体代码、配置、调优 |
- 调度器 (
agent_scheduler.py) — 分配爬取任务,管理并发 - 审查器 (
agent_reviewer.py) — 评估信息质量,去重去噪 - 知识匹配器 (
knowledge_matcher.py) — 将碎片信息挂载到五层树 - 浏览器验证器 (
browser_verifier.py) — 动态页面内容抓取 - 质量检查器 (
quality_checker.py) — 自动校验完整性 - 报告生成器 (
report_generator.py) — 结构化输出
pip install -r requirements.txt
python crawler/main.pysui-knowledge-base/
├── crawler/ # 18个爬虫+agent模块
├── knowledge-base/ # 五层知识存储
└── docs/ # 设计文档
Digi10-Max — GitHub