Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
21 changes: 21 additions & 0 deletions app/docs/ai-projects/index.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,21 @@
---
title: 实战项目
description: 团队项目集合与协作入口,包含多模态、强化学习等方向的实战项目。
date: "2025-10-17"
tags:
- projects
- ai
- collaboration
---

欢迎来到项目分区(AI Projects)。这里将汇总团队正在推进或计划开展的工程化项目,聚焦“从想法到可用原型(MVP)”的落地过程与文档化沉淀。

## 当前项目

- 前往: [多模态强化学习项目(MVP)](./ai-projects/multimodal-rl/)

## 使用说明

- 项目文档包含:项目愿景、MVP 范围、系统架构、里程碑与分工。
- 鼓励以小步快跑的方式推进,每个阶段产出可验证的原型与记录。
- 欢迎贡献:问题讨论、改进建议、实现细节与复盘总结。
89 changes: 89 additions & 0 deletions app/docs/ai-projects/multimodal-rl/index.mdx
Original file line number Diff line number Diff line change
@@ -0,0 +1,89 @@
---
title: 多模态强化学习项目(MVP 目标)
description: 构建轻量化的多模态理解与生成系统,实现从视觉感知到语言表达的闭环,并引入强化学习与答案可视化生成。
date: "2025-10-17"
tags:
- projects
- multimodal
- reinforcement-learning
- RLHF
---

# Multimodal Group – MVP 目标说明文档

**项目版本:** v0.1
**仓库:** [involutionhell.github.io](https://github.com/InvolutionHell/involutionhell.github.io)

---

<a id="vision"></a>
## 一、项目愿景

构建一个轻量化的多模态理解与生成系统,让模型能够看懂图片、检索相关信息,并生成逻辑清晰的文字内容。
目标是实现从视觉感知到语言表达的完整闭环,并进一步具备以图解释答案的能力。

<a id="mvp-goals"></a>
## 二、MVP 阶段目标

<a id="phase-1"></a>
### 阶段 1:基础多模态闭环

- 图像内容识别(物体、场景、语义标签)。
- 语义检索(图→文 / 文→图)。
- 生成式理解与文本输出。
- 模型参考:CLIP / SigLIP / BLIP-2 / LLaVA / Qwen-VL。

<a id="phase-2"></a>
### 阶段 2:多模态强化学习(Multimodal RL)

- 引入用户反馈和奖励信号,优化模型生成与检索表现。
- 主要方向:
1. RLHF / DPO 微调,学习用户偏好。
2. 基于行为数据的检索策略优化。
3. 生成质量控制与一致性提升。

- 目标:让系统具备自我学习与偏好适应能力。

<a id="phase-2-5"></a>
### 阶段 2.5:答案可视化生成(Answer-to-Image)

- 根据模型生成的答案内容自动生成配图,辅助理解。
- 实现方式:使用 Stable Diffusion / SDXL,将回答文本转为图像提示词。
- 应用示例:
- 回答“黑洞形成过程”→ 生成结构示意图。
- 解释小说场景 → 生成概念画面。

- 目标:让系统不仅能理解图片并回答,还能用图像解释答案。

<a id="architecture"></a>
## 三、系统架构

```
[Frontend] → 上传图片 / 展示结果
[Backend API] → FastAPI + LangChain + Vector Search
[Multimodal Models] → CLIP / BLIP / LLaVA / Qwen-VL
[RL Module + Answer-to-Image] (阶段 2 与 2.5)
```

<a id="milestones"></a>
## 四、里程碑

| 阶段 | 目标 | 产出 |
| --------- | ---------------- | ------------------------ |
| Phase 1 | 多模态识别与生成 | 图像识别、检索、文本生成 |
| Phase 2 | 强化学习优化 | RLHF / DPO、检索策略优化 |
| Phase 2.5 | 答案可视化生成 | 自动生成配图 |
| Phase 3 | 扩展与部署 | Web 展示与 API 接口 |

<a id="team"></a>
## 五、组员分工

| 模块 | 负责人 |
| -------------------- | ------ |
| 图像识别与编码 | 组员 A |
| 语义检索与数据处理 | 组员 B |
| 生成模块与模型集成 | 组员 C |
| 强化学习与可视化输出 | 组员 D |