Show meta-analysis in buffbench email

jahooma · jahooma · commit d5e4c5db4ea8 · 2025-11-01T16:16:03.000-07:00
diff --git a/evals/buffbench/main-nightly.ts b/evals/buffbench/main-nightly.ts
@@ -4,6 +4,7 @@ import { sendBasicEmail } from '@codebuff/internal/loops'
 
 import { runBuffBench } from './run-buffbench'
 import type { AgentEvalResults } from './types'
+import type { MetaAnalysisResult } from './meta-analyzer'
 
 async function main() {
   console.log('Starting nightly buffbench evaluation...')
@@ -23,8 +24,8 @@ async function main() {
   const recipientEmail = process.env.EVAL_RESULTS_EMAIL || 'team@codebuff.com'
   console.log(`\n📧 Sending buffbench results email to ${recipientEmail}...`)
 
-  const { metadata, ...agentResults } = results
-  const emailContent = formatBuffBenchEmailContent(agentResults, metadata)
+  const { metadata, metaAnalysis, ...agentResults } = results
+  const emailContent = formatBuffBenchEmailContent(agentResults, metadata, metaAnalysis)
 
   try {
     const emailResult = await sendBasicEmail({
@@ -48,6 +49,7 @@ async function main() {
 function formatBuffBenchEmailContent(
   results: Record<string, AgentEvalResults>,
   metadata: any,
+  metaAnalysis?: MetaAnalysisResult,
 ) {
   const agents = Object.keys(results)
   const date = new Date().toLocaleDateString()
@@ -69,7 +71,7 @@ function formatBuffBenchEmailContent(
     )
     .join('\n\n')
 
-  const message = `📊 NIGHTLY BUFFBENCH RESULTS
+  let message = `📊 NIGHTLY BUFFBENCH RESULTS
 
 📈 AGENT RESULTS:
 ${agentComparison}
@@ -82,6 +84,41 @@ ${agentComparison}
 Generated on: ${metadata.timestamp}
 Repository: ${metadata.repoUrl}`
 
+  if (metaAnalysis) {
+    message += `
+
+🔍 META-ANALYSIS
+
+Overall Comparison:
+${metaAnalysis.overallComparison}`
+
+    if (metaAnalysis.agentInsights.length > 0) {
+      message += `\n\nAgent-Specific Insights:`
+      for (const insight of metaAnalysis.agentInsights) {
+        message += `\n\n[${insight.agentId}]`
+        if (insight.consistentStrengths.length > 0) {
+          message += `\n  Strengths: ${insight.consistentStrengths.join(', ')}`
+        }
+        if (insight.consistentWeaknesses.length > 0) {
+          message += `\n  Weaknesses: ${insight.consistentWeaknesses.join(', ')}`
+        }
+        if (insight.recommendations.length > 0) {
+          message += `\n  Recommendations:`
+          insight.recommendations.forEach((rec) => {
+            message += `\n    • ${rec}`
+          })
+        }
+      }
+    }
+
+    if (metaAnalysis.keyFindings.length > 0) {
+      message += `\n\nKey Findings:`
+      metaAnalysis.keyFindings.forEach((finding, i) => {
+        message += `\n  ${i + 1}. ${finding}`
+      })
+    }
+  }
+
   return { subject, message }
 }
 
diff --git a/evals/buffbench/run-buffbench.ts b/evals/buffbench/run-buffbench.ts
@@ -493,6 +493,7 @@ export async function runBuffBench(options: {
       logsDirectory: logsDir,
       files: logFiles,
     },
+    metaAnalysis,
     ...results,
   }
 

Original file line number	Diff line number	Diff line change
`@@ -493,6 +493,7 @@ export async function runBuffBench(options: {`
`493`	`493`	`logsDirectory: logsDir,`
`494`	`494`	`files: logFiles,`
`495`	`495`	`},`
	`496`	`+ metaAnalysis,`
`496`	`497`	`...results,`
`497`	`498`	`}`
`498`	`499`