Skip to content

[Feature]: PPT & PDF 等文件中增加对于图片,表格,公式等的处理 #2181

@Ussrmby

Description

@Ussrmby

Problem Statement

OpenViking 存储PDF,PPT等格式的文件时,文件中的图片并没有解析和处理。同时表格处理时,仅提取文字,丢失了格式和前后文关系。

图片问题:

原文

Image

解析并存储后

Image Image

公式问题:

原文

Image

解析并存储后

Image

表格问题:

原文

Image

解析并存储后

Image
  • PPT & PPTX中的图片完全没有处理

Proposed Solution

  1. PPT & PPTX & PDF等格式文件中可以将图片,表格等内容正确存储
  2. 检索知识库时,可以针对图片内容进行检索,并返回对应的图片
  3. 表格类型的数据存储为json格式,保持格式和上下文不变

Alternatives Considered

https://github.com/microsoft/markitdown 可参考Microsoft .md转换项目

Feature Area

Storage/VectorDB

Use Case

将OpenViking 搭建为远程服务,作为团队的知识库

Example API (Optional)

Additional Context

[实验存储的论文:]

2603.10087v1_engram_cxl.pdf

[OpenViking存储后的文档:]

2603.10087v1_engram_cxl.zip

Contribution

  • I am willing to contribute to implementing this feature

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type
    No fields configured for issues without a type.

    Projects

    Status

    Backlog

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions