livekit · davidzhao · Jan 27, 2026 · Jan 23, 2026 · Jan 23, 2026 · Jan 26, 2026
diff --git a/livekit-agents/livekit/agents/inference/llm.py b/livekit-agents/livekit/agents/inference/llm.py
@@ -34,32 +34,39 @@
 
 
 OpenAIModels = Literal[
-    "openai/gpt-5",
-    "openai/gpt-5-mini",
-    "openai/gpt-5-nano",
+    "openai/gpt-4o",
+    "openai/gpt-4o-mini",
     "openai/gpt-4.1",
     "openai/gpt-4.1-mini",
     "openai/gpt-4.1-nano",
-    "openai/gpt-4o",
-    "openai/gpt-4o-mini",
+    "openai/gpt-5",
+    "openai/gpt-5-mini",
+    "openai/gpt-5-nano",
+    "openai/gpt-5.1",
+    "openai/gpt-5.1-chat-latest",
+    "openai/gpt-5.2",
+    "openai/gpt-5.2-chat-latest",
     "openai/gpt-oss-120b",
 ]
 
 GoogleModels = Literal[
+    "google/gemini-3-pro",
+    "google/gemini-3-flash",
     "google/gemini-2.5-pro",
     "google/gemini-2.5-flash",
     "google/gemini-2.5-flash-lite",
     "google/gemini-2.0-flash",
     "google/gemini-2.0-flash-lite",
 ]
 
-QwenModels = Literal["qwen/qwen3-235b-a22b-instruct"]
-
 KimiModels = Literal["moonshotai/kimi-k2-instruct"]
 
-DeepSeekModels = Literal["deepseek-ai/deepseek-v3"]
+DeepSeekModels = Literal[
+    "deepseek-ai/deepseek-v3",
+    "deepseek-ai/deepseek-v3.2",
+]
 
-LLMModels = Union[OpenAIModels, GoogleModels, QwenModels, KimiModels, DeepSeekModels]
+LLMModels = Union[OpenAIModels, GoogleModels, KimiModels, DeepSeekModels]
 
 
 class ChatCompletionOptions(TypedDict, total=False):

diff --git a/livekit-agents/livekit/agents/inference/stt.py b/livekit-agents/livekit/agents/inference/stt.py
@@ -27,17 +27,21 @@
 from ._utils import create_access_token
 
 DeepgramModels = Literal[
+    "deepgram/flux-general",
+    "deepgram/flux-general-en",
     "deepgram/nova-3",
-    "deepgram/nova-3-general",
     "deepgram/nova-3-medical",
     "deepgram/nova-2",
-    "deepgram/nova-2-general",
     "deepgram/nova-2-medical",
     "deepgram/nova-2-conversationalai",
     "deepgram/nova-2-phonecall",
 ]
 CartesiaModels = Literal["cartesia/ink-whisper",]
-AssemblyAIModels = Literal["assemblyai/universal-streaming",]
+AssemblyAIModels = Literal[
+    "assemblyai/universal-streaming",
+    "assemblyai/universal-streaming-multilingual",
+]
+ElevenlabsModels = Literal["elevenlabs/scribe_v2_realtime",]
 
 
 class CartesiaOptions(TypedDict, total=False):
@@ -67,6 +71,15 @@ class AssemblyaiOptions(TypedDict, total=False):
     keyterms_prompt: list[str]  # default: not specified
 
 
+class ElevenlabsOptions(TypedDict, total=False):
+    commit_strategy: Literal["manual", "vad"]
+    include_timestamps: bool
+    vad_silence_threshold_secs: float
+    vad_threshold: float
+    min_speech_duration_ms: int
+    min_silence_duration_ms: int
+
+
 STTLanguages = Literal["multi", "en", "de", "es", "fr", "ja", "pt", "zh", "hi"]
 
 
@@ -116,6 +129,7 @@ def _make_fallback(model: FallbackModelType) -> FallbackModel:
     DeepgramModels,
     CartesiaModels,
     AssemblyAIModels,
+    ElevenlabsModels,
     Literal["auto"],  # automatically select a provider based on the language
 ]
 STTEncoding = Literal["pcm_s16le"]
@@ -192,6 +206,23 @@ def __init__(
         conn_options: NotGivenOr[APIConnectOptions] = NOT_GIVEN,
     ) -> None: ...
 
+    @overload
+    def __init__(
+        self,
+        model: ElevenlabsModels,
+        *,
+        language: NotGivenOr[str] = NOT_GIVEN,
+        base_url: NotGivenOr[str] = NOT_GIVEN,
+        encoding: NotGivenOr[STTEncoding] = NOT_GIVEN,
+        sample_rate: NotGivenOr[int] = NOT_GIVEN,
+        api_key: NotGivenOr[str] = NOT_GIVEN,
+        api_secret: NotGivenOr[str] = NOT_GIVEN,
+        http_session: aiohttp.ClientSession | None = None,
+        extra_kwargs: NotGivenOr[ElevenlabsOptions] = NOT_GIVEN,
+        fallback: NotGivenOr[list[FallbackModelType] | FallbackModelType] = NOT_GIVEN,
+        conn_options: NotGivenOr[APIConnectOptions] = NOT_GIVEN,
+    ) -> None: ...
+
     @overload
     def __init__(
         self,
@@ -221,7 +252,11 @@ def __init__(
         api_secret: NotGivenOr[str] = NOT_GIVEN,
         http_session: aiohttp.ClientSession | None = None,
         extra_kwargs: NotGivenOr[
-            dict[str, Any] | CartesiaOptions | DeepgramOptions | AssemblyaiOptions
+            dict[str, Any]
+            | CartesiaOptions
+            | DeepgramOptions
+            | AssemblyaiOptions
+            | ElevenlabsOptions
         ] = NOT_GIVEN,
         fallback: NotGivenOr[list[FallbackModelType] | FallbackModelType] = NOT_GIVEN,
         conn_options: NotGivenOr[APIConnectOptions] = NOT_GIVEN,

diff --git a/livekit-agents/livekit/agents/inference/tts.py b/livekit-agents/livekit/agents/inference/tts.py
@@ -20,9 +20,15 @@
 
 CartesiaModels = Literal[
     "cartesia",
-    "cartesia/sonic",
+    "cartesia/sonic-3",
     "cartesia/sonic-2",
     "cartesia/sonic-turbo",
+    "cartesia/sonic",
+]
+DeepgramModels = Literal[
+    "deepgram",
+    "deepgram/aura",
+    "deepgram/aura-2",
 ]
 ElevenlabsModels = Literal[
     "elevenlabs",
@@ -34,16 +40,18 @@
 ]
 RimeModels = Literal[
     "rime",
-    "rime/mist",
-    "rime/mistv2",
     "rime/arcana",
+    "rime/mistv2",
 ]
 InworldModels = Literal[
     "inworld",
+    "inworld/inworld-tts-1.5-max",
+    "inworld/inworld-tts-1.5-mini",
+    "inworld/inworld-tts-1-max",
     "inworld/inworld-tts-1",
 ]
 
-TTSModels = Union[CartesiaModels, ElevenlabsModels, RimeModels, InworldModels]
+TTSModels = Union[CartesiaModels, DeepgramModels, ElevenlabsModels, RimeModels, InworldModels]
 
 
 def _parse_model_string(model: str) -> tuple[str, str | None]:
@@ -98,8 +106,13 @@ def _make_fallback(model: FallbackModelType) -> FallbackModel:
 
 
 class CartesiaOptions(TypedDict, total=False):
-    duration: float  # max duration of audio in seconds
-    speed: Literal["slow", "normal", "fast"]  # default: not specified
+    emotion: str
+    speed: Literal["slow", "normal", "fast"]
+    volume: float
+
+
+class DeepgramOptions(TypedDict, total=False):
+    pass
 
 
 class ElevenlabsOptions(TypedDict, total=False):
@@ -157,6 +170,25 @@ def __init__(
     ) -> None:
         pass
 
+    @overload
+    def __init__(
+        self,
+        model: DeepgramModels,
+        *,
+        voice: NotGivenOr[str] = NOT_GIVEN,
+        language: NotGivenOr[str] = NOT_GIVEN,
+        encoding: NotGivenOr[TTSEncoding] = NOT_GIVEN,
+        sample_rate: NotGivenOr[int] = NOT_GIVEN,
+        base_url: NotGivenOr[str] = NOT_GIVEN,
+        api_key: NotGivenOr[str] = NOT_GIVEN,
+        api_secret: NotGivenOr[str] = NOT_GIVEN,
+        http_session: aiohttp.ClientSession | None = None,
+        extra_kwargs: NotGivenOr[DeepgramOptions] = NOT_GIVEN,
+        fallback: NotGivenOr[list[FallbackModelType] | FallbackModelType] = NOT_GIVEN,
+        conn_options: NotGivenOr[APIConnectOptions] = NOT_GIVEN,
+    ) -> None:
+        pass
+
     @overload
     def __init__(
         self,
@@ -246,7 +278,12 @@ def __init__(
         api_secret: NotGivenOr[str] = NOT_GIVEN,
         http_session: aiohttp.ClientSession | None = None,
         extra_kwargs: NotGivenOr[
-            dict[str, Any] | CartesiaOptions | ElevenlabsOptions | RimeOptions | InworldOptions
+            dict[str, Any]
+            | CartesiaOptions
+            | DeepgramOptions
+            | ElevenlabsOptions
+            | RimeOptions
+            | InworldOptions
         ] = NOT_GIVEN,
         fallback: NotGivenOr[list[FallbackModelType] | FallbackModelType] = NOT_GIVEN,
         conn_options: NotGivenOr[APIConnectOptions] = NOT_GIVEN,

diff --git a/tests/test_inference_tts_fallback.py b/tests/test_inference_tts_fallback.py
@@ -50,7 +50,7 @@ def test_provider_model_format_with_voice(self):
         [
             ("elevenlabs/eleven_flash_v2:voice123", "elevenlabs/eleven_flash_v2", "voice123"),
             ("rime:speaker-a", "rime", "speaker-a"),
-            ("rime/mist:narrator", "rime/mist", "narrator"),
+            ("rime/mistv2:narrator", "rime/mistv2", "narrator"),
             ("inworld/inworld-tts-1:character", "inworld/inworld-tts-1", "character"),
             ("cartesia/sonic-turbo:deep-voice", "cartesia/sonic-turbo", "deep-voice"),
         ],