The-OpenROAD-Project · luarss · May 17, 2026 · May 16, 2026
diff --git a/evaluation/auto_evaluation/eval_main.py b/evaluation/auto_evaluation/eval_main.py
@@ -11,8 +11,8 @@
 from dotenv import load_dotenv
 from deepeval.test_case import LLMTestCase
 from deepeval import evaluate
-from deepeval.models import GeminiModel
 
+from auto_evaluation.src.models.gemini import GoogleGeminiLangChain
 from auto_evaluation.src.metrics.retrieval import (
     make_contextual_precision_metric,
     make_contextual_recall_metric,
@@ -41,10 +41,7 @@ def __init__(self, base_url: str, dataset: str, reranker_base_url: str = ""):
         self.dataset = dataset
         self.reranker_base_url = reranker_base_url
         self.qns = preprocess.read_data(self.dataset)
-        self.eval_model = GeminiModel(
-            model_name="gemini-2.5-pro",
-            api_key=os.getenv("GOOGLE_API_KEY"),
-        )
+        self.eval_model = GoogleGeminiLangChain(model_name="gemini-3.1-pro-preview")
         self.log_dir = "logs"
         os.makedirs(self.log_dir, exist_ok=True)
         self.sanity_check()

diff --git a/evaluation/auto_evaluation/src/models/gemini.py b/evaluation/auto_evaluation/src/models/gemini.py
@@ -68,15 +68,15 @@ def get_model_name(self):
 
 
 def main():
-    model = GoogleGeminiLangChain(model_name="gemini-2.5-pro")
+    model = GoogleGeminiLangChain(model_name="gemini-3.1-pro-preview")
     prompt = "Write me a joke"
     print(f"Prompt: {prompt}")
     response = model.generate(prompt, schema=Response)
     print(f"Response: {response}")
 
 
 async def main_async():
-    model = GoogleGeminiLangChain(model_name="gemini-2.5-pro")
+    model = GoogleGeminiLangChain(model_name="gemini-3.1-pro-preview")
     prompt = "Write me a joke"
     print(f"Prompt: {prompt}")
     response = await model.a_generate(prompt, schema=Response)

diff --git a/evaluation/script_based_evaluation/models/gemini_model.py b/evaluation/script_based_evaluation/models/gemini_model.py
@@ -58,7 +58,7 @@ def base_gemini_pro(query: str) -> tuple[str, float]:
         try:
             start_time = time.time()
             response = _client.models.generate_content(
-                model="gemini-2.5-pro",
+                model="gemini-3.1-pro-preview",
                 contents=" " + query,
                 config=types.GenerateContentConfig(
                     safety_settings=_safety_config,