背景
DeepGraph 现在已经不只是文献分析 dashboard。当前系统已经具备固定流自动科研能力:可以摄取论文、抽取结构化证据、生成 deep insights、搭建实验、运行验证循环,并在证据门允许时生成论文包。
下一版不应该做一个硬编码 toy demo,也不应该试图一次性完成最终形态的“通用自主科学家”。更合理的目标是把 DeepGraph 往前推进一级:从“能推进一个被指定的研究想法”,升级为“能在可配置研究议程约束下,自己选择并完成一个研究闭环”。
目标
实现一个由可配置研究议程驱动的自主科研闭环。
用户提供一个可配置的研究 agenda/filter 后,DeepGraph 应该能从现有 deep_insights / 研究候选项中自动选择一个高价值、可验证的课题,并推进完整流程:
agenda/filter -> 候选课题选择 -> 实验计划 -> 真实实验/benchmark 运行 -> 证据包 -> 论文包 -> AI 审稿反馈 -> 下一轮修订计划
最低成功标准是:在一个真实、非 smoke-only 的任务上,跑通一个完整、可审计的闭环。
为什么这个任务重要
系统价值不只是“能不能生成一篇论文”,而是:
科研产出价值 = 产出数量 * 单篇平均质量 / 总资源与人工审查成本
这个任务的重点是提高系统在给定研究方向下选择并完成高价值闭环的能力。资源优化可以在后续版本继续深化,但下一版首先要明确能力边界:DeepGraph 应该知道自己要服务什么研究方向,能自动选择合适课题,并在不需要人工逐步干预的情况下产出可验证结果。
范围
本次任务包含
- 增加一个可配置的研究 agenda/filter 层。
- 根据 agenda/filter 从现有 DeepGraph 候选课题中排序或选择一个候选项。
- 生成清晰的选择理由,说明为什么选择该候选项,以及为什么没有选择其他候选项。
- 将选中的候选项推进到现有或扩展后的 SciForge / validation / manuscript pipeline。
- 产出证据包、论文包、AI 审稿反馈和后续修订计划。
- 增加 API/UI 可见性,使评审者可以从运行中的 dashboard 检查完整闭环,而不需要重新部署或手动翻本地目录。
- 实现方式要足够通用:未来更换 agenda 应该通过配置完成,而不是改代码。
本次任务不包含
- 不要求支持所有科学领域。
- 不要求一次性实现连续多篇论文生产系统。
- 不要求实现最终投稿自动化。
- 不允许把方案硬编码到一个具体论文题目或一个固定 insight id。
- 不允许把 synthetic-only、smoke-only、toy-only 实验算作成功闭环。
- 不强制使用某一个外部 AI reviewer 服务;如果有更好的 reviewer adapter 也可以。
建议实现路径
1. 研究议程配置
增加一个带版本号的 agenda 配置,例如:
schema_version: agenda_v1
name: token_scale_agent_architecture
focus:
- token-scale agent architecture
- verification-repair loops
- context compression loss
- multi-agent scheduling efficiency
- human-review bottleneck reduction
prefer:
- measurable experiments
- real benchmark or real dataset
- CPU or bounded GPU experiments
- outputs suitable for technical report, workshop paper, or benchmark note
reject:
- pure literature survey
- no measurable claim
- full model pretraining requirement
- smoke-only validation
required_output:
- experiment_result_packet
- evidence_manifest
- manuscript_bundle
- ai_review
- revision_plan
具体格式可以调整,但必须能在不改源码的情况下编辑。
2. 候选课题选择
创建一个选择模块,读取 agenda 后,对现有候选项排序,例如来自 deep_insights、auto_research_jobs 或其他现有候选表。
选择器需要产出并持久化一个 selection artifact,例如:
{
"agenda_name": "...",
"selected_deep_insight_id": 123,
"selection_score": 0.82,
"selection_rationale": "...",
"rejected_candidates": [
{"id": 1, "reason": "requires full pretraining"},
{"id": 2, "reason": "no measurable benchmark"}
],
"estimated_route": "technical_report|workshop_paper|benchmark_note|blocked",
"expected_resource_class": "cpu|gpu_small|gpu_large"
}
3. 闭环执行
用选中的候选项触发或继续现有流程:
- 构建或读取 experiment specification;
- 运行真实实验或 benchmark,而不只是 smoke validation;
- 将 metric 解析成结构化 result packet;
- 运行 evidence completeness / evidence gate 检查;
- 只有在证据门允许时才生成 manuscript bundle;
- 运行 AI review;
- 基于 review 和 evidence blockers 写出下一轮修订计划。
实现时应优先复用现有模块,包括 validation loop、GPU scheduler、manuscript pipeline、evidence gate。
4. AI Reviewer Adapter
增加 reviewer adapter 接口。可以先使用现有内部 reviewer / evidence gate。
如果可行,可以支持外部服务,例如 https://paperreview.ai/;但这不是完成任务的硬性要求。核心要求是 reviewer feedback 必须结构化,并能进入 revision plan。
示例输出:
{
"reviewer": "internal|paperreview_ai|custom",
"recommendation": "reject|weak_reject|borderline|weak_accept|accept",
"strengths": ["..."],
"weaknesses": ["..."],
"required_revisions": ["..."],
"next_experiments": ["..."]
}
5. API / Dashboard 可见性
增加或扩展 endpoint/UI,让完整闭环可以被检查:
- 当前使用的 agenda;
- 被选中的候选课题和选择理由;
- 当前闭环阶段;
- experiment run id 和状态;
- evidence gate 状态;
- manuscript bundle 链接/状态;
- AI review 结果;
- revision plan;
- 可下载或可查看的 artifacts。
目标是让任务评审者不需要重新部署本地环境,也不需要手动翻文件系统,就能判断任务是否完成。
验收标准
只有以下条件全部满足,任务才算完成。
功能验收
- research agenda/filter 可以在不修改源码的情况下配置。
- DeepGraph 可以根据 agenda 从现有研究候选项中自动选择一个课题。
- 被选中的课题有持久化 selection report,包含排序、选择理由和未选择其他候选项的原因。
- 系统能将选中的课题启动或继续推进到实验闭环。
- 实验必须使用真实 benchmark、真实数据集或真实代码执行路径。smoke-only 或 synthetic-only 不算完成。
- 实验产出结构化 metrics,以及
experiment_result_packet 或等价 artifact。
- evidence gate 产出 pass/block 报告,并明确列出 blockers。
- manuscript bundle 只有在 evidence gate 允许时才生成。
- 系统产出 AI review artifact。
- 系统基于 review 和 evidence state 产出 revision / follow-up plan。
产品与可评审性验收
- dashboard 或 API 暴露完整闭环状态。
- 评审者可以从运行中的 app 检查 selected agenda、selected candidate、experiment result、evidence report、manuscript status、review result 和 revision plan。
- PR 中必须包含关键阶段截图或 terminal/API 输出。
- PR 中必须包含成功 demonstration run 的 artifact 链接或路径。
质量验收
- 实现不能硬编码到某个 insight title、某个 id 或某个具体论文题目。
- 更换 agenda/filter 应该只需要改配置,不需要改代码。
- 现有 fixed-flow automation 仍然可用。
- 现有测试必须通过。
- 新测试至少覆盖:
- agenda parsing;
- candidate scoring / selection;
- selection artifact persistence;
- manuscript/review allowed 与 blocked 两种行为;
- loop inspection API payload。
Demo 验收
PR 必须包含一个 demonstration section,列出:
- 使用的 agenda config;
- 被选中的 candidate id/title;
- selection rationale;
- experiment run id;
- 最终 experiment status;
- evidence gate status;
- manuscript bundle status/path/link;
- AI reviewer recommendation;
- revision plan path/link;
- 能证明以上内容的截图或 API 输出。
可接受的 API evidence 示例:
curl http://localhost:8080/api/research_agenda/current
curl http://localhost:8080/api/research_agenda/selection/latest
curl http://localhost:8080/api/experiments/<run_id>
curl http://localhost:8080/api/submission_bundles/<bundle_id>
curl http://localhost:8080/api/research_agenda/review/latest
endpoint 名称可以不同,但必须提供等价的可检查输出。
预期交付
提交一个 PR,把 DeepGraph 从固定流自主科研 pipeline 升级为 agenda-driven autonomous research loop。
PR 至少要包含一个真实闭环 demonstration,并提供足够的 UI/API 证据,让维护者不用重新完整跑一遍系统,也能判断任务是否完成。
背景
DeepGraph 现在已经不只是文献分析 dashboard。当前系统已经具备固定流自动科研能力:可以摄取论文、抽取结构化证据、生成 deep insights、搭建实验、运行验证循环,并在证据门允许时生成论文包。
下一版不应该做一个硬编码 toy demo,也不应该试图一次性完成最终形态的“通用自主科学家”。更合理的目标是把 DeepGraph 往前推进一级:从“能推进一个被指定的研究想法”,升级为“能在可配置研究议程约束下,自己选择并完成一个研究闭环”。
目标
实现一个由可配置研究议程驱动的自主科研闭环。
用户提供一个可配置的研究 agenda/filter 后,DeepGraph 应该能从现有
deep_insights/ 研究候选项中自动选择一个高价值、可验证的课题,并推进完整流程:最低成功标准是:在一个真实、非 smoke-only 的任务上,跑通一个完整、可审计的闭环。
为什么这个任务重要
系统价值不只是“能不能生成一篇论文”,而是:
这个任务的重点是提高系统在给定研究方向下选择并完成高价值闭环的能力。资源优化可以在后续版本继续深化,但下一版首先要明确能力边界:DeepGraph 应该知道自己要服务什么研究方向,能自动选择合适课题,并在不需要人工逐步干预的情况下产出可验证结果。
范围
本次任务包含
本次任务不包含
建议实现路径
1. 研究议程配置
增加一个带版本号的 agenda 配置,例如:
具体格式可以调整,但必须能在不改源码的情况下编辑。
2. 候选课题选择
创建一个选择模块,读取 agenda 后,对现有候选项排序,例如来自
deep_insights、auto_research_jobs或其他现有候选表。选择器需要产出并持久化一个 selection artifact,例如:
{ "agenda_name": "...", "selected_deep_insight_id": 123, "selection_score": 0.82, "selection_rationale": "...", "rejected_candidates": [ {"id": 1, "reason": "requires full pretraining"}, {"id": 2, "reason": "no measurable benchmark"} ], "estimated_route": "technical_report|workshop_paper|benchmark_note|blocked", "expected_resource_class": "cpu|gpu_small|gpu_large" }3. 闭环执行
用选中的候选项触发或继续现有流程:
实现时应优先复用现有模块,包括 validation loop、GPU scheduler、manuscript pipeline、evidence gate。
4. AI Reviewer Adapter
增加 reviewer adapter 接口。可以先使用现有内部 reviewer / evidence gate。
如果可行,可以支持外部服务,例如 https://paperreview.ai/;但这不是完成任务的硬性要求。核心要求是 reviewer feedback 必须结构化,并能进入 revision plan。
示例输出:
{ "reviewer": "internal|paperreview_ai|custom", "recommendation": "reject|weak_reject|borderline|weak_accept|accept", "strengths": ["..."], "weaknesses": ["..."], "required_revisions": ["..."], "next_experiments": ["..."] }5. API / Dashboard 可见性
增加或扩展 endpoint/UI,让完整闭环可以被检查:
目标是让任务评审者不需要重新部署本地环境,也不需要手动翻文件系统,就能判断任务是否完成。
验收标准
只有以下条件全部满足,任务才算完成。
功能验收
experiment_result_packet或等价 artifact。产品与可评审性验收
质量验收
Demo 验收
PR 必须包含一个 demonstration section,列出:
可接受的 API evidence 示例:
endpoint 名称可以不同,但必须提供等价的可检查输出。
预期交付
提交一个 PR,把 DeepGraph 从固定流自主科研 pipeline 升级为 agenda-driven autonomous research loop。
PR 至少要包含一个真实闭环 demonstration,并提供足够的 UI/API 证据,让维护者不用重新完整跑一遍系统,也能判断任务是否完成。