fix: warn when Eval() receives an empty dataset (#109)

ekon15 · claude · web-flow · commit 4f1d9510a188 · 2026-03-21T08:50:58.000+01:00
* warn when Eval() receives an empty dataset

Print a warning to stderr when no data rows are found after iterating
the dataset, so users get an actionable signal instead of silently
landing on an empty experiment in the UI.

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;

* use eprint and bcolors.WARNING for empty dataset warning

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;

* ruff format

Co-Authored-By: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;

---------

Co-authored-by: ekon15 &lt;ekon15@users.noreply.github.com&gt;
Co-authored-by: Claude Sonnet 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/py/src/braintrust/framework.py b/py/src/braintrust/framework.py
@@ -1695,6 +1695,11 @@ async def with_max_concurrency(coro):
             for trial_index in range(evaluator.trial_count):
                 tasks.append(asyncio.create_task(with_max_concurrency(run_evaluator_task(datum, trial_index))))
 
+    if not tasks:
+        eprint(
+            f"{bcolors.WARNING}Warning: no data rows found for evaluator '{evaluator.eval_name}'. The experiment will be empty.{bcolors.ENDC}"
+        )
+
     results = []
     for task in std_tqdm(tasks, desc=f"{evaluator.eval_name} (tasks)", position=position, disable=position is None):
         results.append(await task)
diff --git a/py/src/braintrust/test_framework.py b/py/src/braintrust/test_framework.py
@@ -607,3 +607,22 @@ async def test_eval_enable_cache():
     )
     state.span_cache.start.assert_called()
     state.span_cache.stop.assert_called()
+
+
+@pytest.mark.asyncio
+async def test_run_evaluator_empty_dataset_warns(capsys):
+    """Warn when run_evaluator receives an empty dataset."""
+    evaluator = Evaluator(
+        project_name="test-project",
+        eval_name="test-evaluator",
+        data=[],
+        task=lambda input: input,
+        scores=[],
+        experiment_name=None,
+        metadata=None,
+    )
+    await run_evaluator(experiment=None, evaluator=evaluator, position=None, filters=[])
+
+    captured = capsys.readouterr()
+    assert "Warning" in captured.err
+    assert "empty" in captured.err.lower()