💥 use 0-based page indexes for file names

ianardee · ianardee · commit f5788a4609e3 · 2026-05-02T20:24:05.000+02:00
diff --git a/src/main/java/com/mindee/pdf/BasePDFExtractor.java b/src/main/java/com/mindee/pdf/BasePDFExtractor.java
@@ -55,17 +55,15 @@ public BasePDFExtractor(LocalInputSource source) throws IOException {
     }
   }
 
-  /**
-   * Converts an array to a buffered image.
-   *
-   * @param byteArray Raw byte array.
-   * @return a valid ImageIO buffer.
-   * @throws IOException Throws if the file can't be accessed.
-   */
-  private static BufferedImage byteArrayToBufferedImage(byte[] byteArray) throws IOException {
-    try (ByteArrayInputStream stream = new ByteArrayInputStream(byteArray)) {
-      return ImageIO.read(stream);
+  public ExtractedPDF extractSinglePage(
+      List<Integer> pageNumbers,
+      boolean closeOriginal
+  ) throws IOException {
+    if (pageNumbers.isEmpty()) {
+      throw new MindeeException("Empty indexes not allowed for extraction.");
     }
+    var pdfBytes = createPdfFromExistingPdf(this.sourcePdf, pageNumbers, closeOriginal);
+    return new ExtractedPDF(pdfBytes, makeFilename(pageNumbers));
   }
 
   /**
@@ -79,23 +77,37 @@ public ExtractedPDFs extractSubDocuments(List<List<Integer>> pageIndexes) throws
     var extractedPDFs = new ExtractedPDFs();
 
     for (List<Integer> pageIndexElement : pageIndexes) {
-      if (pageIndexElement.isEmpty()) {
-        throw new MindeeException("Empty indexes not allowed for extraction.");
-      }
-      String[] splitName = InputSourceUtils.splitNameStrict(filename);
-      String fieldFilename = splitName[0]
-        + String.format("_%3s", pageIndexElement.get(0) + 1).replace(" ", "0")
-        + "-"
-        + String
-          .format("%3s", pageIndexElement.get(pageIndexElement.size() - 1) + 1)
-          .replace(" ", "0")
-        + "."
-        + splitName[1];
-      extractedPDFs.add(extractSinglePage(pageIndexElement, fieldFilename, false));
+      extractedPDFs.add(extractSinglePage(pageIndexElement, false));
     }
     return extractedPDFs;
   }
 
+  /**
+   * Converts an array to a buffered image.
+   *
+   * @param byteArray Raw byte array.
+   * @return a valid ImageIO buffer.
+   * @throws IOException Throws if the file can't be accessed.
+   */
+  private static BufferedImage byteArrayToBufferedImage(byte[] byteArray) throws IOException {
+    try (ByteArrayInputStream stream = new ByteArrayInputStream(byteArray)) {
+      return ImageIO.read(stream);
+    }
+  }
+
+  /**
+   * Make a nice filename for the split.
+   */
+  private String makeFilename(List<Integer> pageNumbers) {
+    String[] splitName = InputSourceUtils.splitNameStrict(filename);
+    return splitName[0]
+      + String.format("_%3s", pageNumbers.get(0)).replace(" ", "0")
+      + "-"
+      + String.format("%3s", pageNumbers.get(pageNumbers.size() - 1)).replace(" ", "0")
+      + "."
+      + splitName[1];
+  }
+
   private static PDPage clonePage(PDPage page) {
 
     COSDictionary pageDict = page.getCOSObject();
@@ -129,28 +141,4 @@ private static byte[] createPdfFromExistingPdf(
     outputStream.close();
     return output;
   }
-
-  public ExtractedPDF extractSinglePage(
-      List<Integer> pageNumbers,
-      String fieldFilename,
-      boolean closeOriginal
-  ) throws IOException {
-    var pdfBytes = createPdfFromExistingPdf(this.sourcePdf, pageNumbers, closeOriginal);
-    return new ExtractedPDF(pdfBytes, fieldFilename);
-  }
-
-  public ExtractedPDF extractSinglePage(
-      List<Integer> pageNumbers,
-      boolean closeOriginal
-  ) throws IOException {
-    var pdfBytes = createPdfFromExistingPdf(this.sourcePdf, pageNumbers, closeOriginal);
-    String[] splitName = InputSourceUtils.splitNameStrict(filename);
-    String fieldFilename = splitName[0]
-      + String.format("_%3s", pageNumbers.get(0) + 1).replace(" ", "0")
-      + "-"
-      + String.format("%3s", pageNumbers.get(pageNumbers.size() - 1) + 1).replace(" ", "0")
-      + "."
-      + splitName[1];
-    return new ExtractedPDF(pdfBytes, fieldFilename);
-  }
 }
diff --git a/src/test/java/com/mindee/v1/fileOperations/InvoiceSplitterAutoExtractionIT.java b/src/test/java/com/mindee/v1/fileOperations/InvoiceSplitterAutoExtractionIT.java
@@ -71,8 +71,8 @@ public void givenAPDF_shouldExtractInvoices() throws IOException, InterruptedExc
     List<ExtractedPDF> extractedPDFsStrict = extractor
       .extractInvoices(inference.getPrediction().getInvoicePageGroups(), false);
     Assertions.assertEquals(2, extractedPDFsStrict.size());
-    Assertions.assertEquals("default_sample_001-001.pdf", extractedPDFsStrict.get(0).getFilename());
-    Assertions.assertEquals("default_sample_002-002.pdf", extractedPDFsStrict.get(1).getFilename());
+    Assertions.assertEquals("default_sample_000-000.pdf", extractedPDFsStrict.get(0).getFilename());
+    Assertions.assertEquals("default_sample_001-001.pdf", extractedPDFsStrict.get(1).getFilename());
 
     PredictResponse<InvoiceV4> invoice0 = getInvoicePrediction(
       extractedPDFsStrict.get(0).asInputSource()
diff --git a/src/test/java/com/mindee/v1/pdf/PDFExtractorTest.java b/src/test/java/com/mindee/v1/pdf/PDFExtractorTest.java
@@ -31,9 +31,9 @@ public void givenAPDF_shouldExtractInvoicesNoStrict() throws IOException {
     var extractedPDFSNoStrict = extractor
       .extractInvoices(inference.getPrediction().getInvoicePageGroups(), false);
     Assertions.assertEquals(3, extractedPDFSNoStrict.size());
-    Assertions.assertEquals("invoice_5p_001-001.pdf", extractedPDFSNoStrict.get(0).getFilename());
-    Assertions.assertEquals("invoice_5p_002-004.pdf", extractedPDFSNoStrict.get(1).getFilename());
-    Assertions.assertEquals("invoice_5p_005-005.pdf", extractedPDFSNoStrict.get(2).getFilename());
+    Assertions.assertEquals("invoice_5p_000-000.pdf", extractedPDFSNoStrict.get(0).getFilename());
+    Assertions.assertEquals("invoice_5p_001-003.pdf", extractedPDFSNoStrict.get(1).getFilename());
+    Assertions.assertEquals("invoice_5p_004-004.pdf", extractedPDFSNoStrict.get(2).getFilename());
   }
 
   @Test
@@ -48,7 +48,7 @@ public void givenAPDF_shouldExtractInvoicesStrict() throws IOException {
     var extractedPDFStrict = extractor
       .extractInvoices(inference.getPrediction().getInvoicePageGroups(), true);
     Assertions.assertEquals(2, extractedPDFStrict.size());
-    Assertions.assertEquals("invoice_5p_001-001.pdf", extractedPDFStrict.get(0).getFilename());
-    Assertions.assertEquals("invoice_5p_002-005.pdf", extractedPDFStrict.get(1).getFilename());
+    Assertions.assertEquals("invoice_5p_000-000.pdf", extractedPDFStrict.get(0).getFilename());
+    Assertions.assertEquals("invoice_5p_001-004.pdf", extractedPDFStrict.get(1).getFilename());
   }
 }
diff --git a/src/test/java/com/mindee/v2/fileOperations/SplitTest.java b/src/test/java/com/mindee/v2/fileOperations/SplitTest.java
@@ -20,7 +20,7 @@ void singlePage_splitsCorrectly() throws IOException {
     var extractedSplit = new Split(inputSample)
       .extractSingle(doc.getInference().getResult().getSplits().get(0));
 
-    assertEquals("default_sample_001-001.pdf", extractedSplit.getFilename());
+    assertEquals("default_sample_000-000.pdf", extractedSplit.getFilename());
     var asInputSource = extractedSplit.asInputSource();
     assertEquals(1, asInputSource.getPageCount());
   }
@@ -38,12 +38,12 @@ void multiplePages_splitsCorrectly() throws IOException {
     assertEquals(2, extractedSplits.size());
 
     var split0 = extractedSplits.get(0);
-    assertEquals("default_sample_001-001.pdf", split0.getFilename());
+    assertEquals("default_sample_000-000.pdf", split0.getFilename());
     var asInputSource0 = split0.asInputSource();
     assertEquals(1, asInputSource0.getPageCount());
 
     var split1 = extractedSplits.get(1);
-    assertEquals("default_sample_002-002.pdf", split1.getFilename());
+    assertEquals("default_sample_001-001.pdf", split1.getFilename());
     var asInputSource1 = split1.asInputSource();
     assertEquals(1, asInputSource1.getPageCount());
   }