feat(handler): Support add_generation_prompt parameter pass to MTMDChatHandler

JamePeng · JamePeng · commit 969b45f4a8fb · 2026-04-28T00:12:43.000+08:00
- supports disabling assistant part injection, used to support the multimodal `assistant_prefill` functionality.

Signed-off-by: JamePeng &lt;jame_peng@sina.com&gt;
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -2717,6 +2717,7 @@ def create_chat_completion(
         logprobs: Optional[bool] = None,
         top_logprobs: Optional[int] = None,
         assistant_prefill: bool = False,
+        add_generation_prompt: bool = True,
     ) -> Union[
         CreateChatCompletionResponse, Iterator[CreateChatCompletionStreamResponse]
     ]:
@@ -2829,6 +2830,7 @@ def create_chat_completion(
             active_loras=active_loras,
             control_vector=control_vector,
             assistant_prefill=assistant_prefill,
+            add_generation_prompt=add_generation_prompt,
         )
 
     def create_chat_completion_openai_v1(
diff --git a/llama_cpp/llama_chat_format.py b/llama_cpp/llama_chat_format.py
@@ -3079,6 +3079,7 @@ def _process_mtmd_prompt(
         function_call: Optional[llama_types.ChatCompletionRequestFunctionCall] = None,
         tools: Optional[List[llama_types.ChatCompletionTool]] = None,
         tool_choice: Optional[llama_types.ChatCompletionToolChoiceOption] = None,
+        add_generation_prompt: bool = True,
     ) -> Tuple[List[int], List[tuple], Any, List[Any]]:
         """
         Core multimodal preprocessing pipeline.
@@ -3106,7 +3107,7 @@ def _process_mtmd_prompt(
         # 2. Render the chat template and replace actual URLs with C++ media markers
         text = self.chat_template.render(
             messages=messages,
-            add_generation_prompt=True,
+            add_generation_prompt=add_generation_prompt,
             eos_token=self.mtmd_eos_token,
             bos_token=self.mtmd_bos_token,
             functions=functions,
@@ -3306,6 +3307,7 @@ def __call__(
         logit_bias: Optional[Dict[str, float]] = None,
         logprobs: Optional[bool] = None,
         top_logprobs: Optional[int] = None,
+        add_generation_prompt: bool = True,
         **kwargs,  # type: ignore
     ) -> Union[
         llama_types.CreateChatCompletionResponse,
@@ -3322,7 +3324,8 @@ def __call__(
             functions=functions,
             function_call=function_call,
             tools=tools,
-            tool_choice=tool_choice
+            tool_choice=tool_choice,
+            add_generation_prompt=add_generation_prompt,
         )
 
         if self.verbose: