Problem Statement
OpenViking 存储PDF,PPT等格式的文件时,文件中的图片并没有解析和处理。同时表格处理时,仅提取文字,丢失了格式和前后文关系。
图片问题:
原文
解析并存储后
公式问题:
原文
解析并存储后
表格问题:
原文
解析并存储后
Proposed Solution
- PPT & PPTX & PDF等格式文件中可以将图片,表格等内容正确存储
- 检索知识库时,可以针对图片内容进行检索,并返回对应的图片
- 表格类型的数据存储为json格式,保持格式和上下文不变
Alternatives Considered
https://github.com/microsoft/markitdown 可参考Microsoft .md转换项目
Feature Area
Storage/VectorDB
Use Case
将OpenViking 搭建为远程服务,作为团队的知识库
Example API (Optional)
Additional Context
[实验存储的论文:]
2603.10087v1_engram_cxl.pdf
[OpenViking存储后的文档:]
2603.10087v1_engram_cxl.zip
Contribution
Problem Statement
OpenViking 存储PDF,PPT等格式的文件时,文件中的图片并没有解析和处理。同时表格处理时,仅提取文字,丢失了格式和前后文关系。
图片问题:
原文
解析并存储后
公式问题:
原文
解析并存储后
表格问题:
原文
解析并存储后
Proposed Solution
Alternatives Considered
https://github.com/microsoft/markitdown 可参考Microsoft .md转换项目
Feature Area
Storage/VectorDB
Use Case
将OpenViking 搭建为远程服务,作为团队的知识库
Example API (Optional)
Additional Context
[实验存储的论文:]
2603.10087v1_engram_cxl.pdf
[OpenViking存储后的文档:]
2603.10087v1_engram_cxl.zip
Contribution