JonathanFly · vaughansharman · May 25, 2023 · May 25, 2023 · May 25, 2023
diff --git a/bark_infinity/generation.py b/bark_infinity/generation.py
@@ -356,6 +356,8 @@ def generate_text_semantic(
     tokenizer = model_container["tokenizer"]
     encoded_text = np.array(_tokenize(tokenizer, text)) + TEXT_ENCODING_OFFSET
     if OFFLOAD_CPU:
+        device = _grab_best_device(use_gpu=False)
+        models_devices["text"] = device
         model.to(models_devices["text"])
     device = next(model.parameters()).device
     if len(encoded_text) > 256:
@@ -551,6 +553,8 @@ def generate_coarse(
         preload_models()
     model = models["coarse"]
     if OFFLOAD_CPU:
+        device = _grab_best_device(use_gpu=False)
+        models_devices["coarse"] = device
         model.to(models_devices["coarse"])
     device = next(model.parameters()).device
     # start loop
@@ -692,6 +696,8 @@ def generate_fine(
         preload_models()
     model = models["fine"]
     if OFFLOAD_CPU:
+        device = _grab_best_device(use_gpu=False)
+        models_devices["fine"] = device
         model.to(models_devices["fine"])
     device = next(model.parameters()).device
     # make input arr
@@ -797,6 +803,8 @@ def codec_decode(fine_tokens):
         preload_models()
     model = models["codec"]
     if OFFLOAD_CPU:
+        device = _grab_best_device(use_gpu=False)
+        models_devices["codec"] = device
         model.to(models_devices["codec"])
     device = next(model.parameters()).device
     arr = torch.from_numpy(fine_tokens)[None]

diff --git a/bark_webui.py b/bark_webui.py
@@ -449,7 +449,44 @@ def generate_audio_long_gradio_clones(input, audio_prompt_input, bark_speaker_as
 
     output_dir = f"cloned_voices/{output_voice}_samples"
 
-    return generate_audio_long_gradio(input, audio_prompt_input, bark_speaker_as_the_prompt, npz_dropdown, generated_voices, cloned_voices, bark_infinity_voices, confused_travolta_mode, stable_mode_interval, seperate_prompts, seperate_prompts_flipper, split_character_goal_length, split_character_max_length, process_text_by_each, in_groups_of_size, group_text_by_counting, split_type_string, prompt_text_prefix, seed, text_splits_only,output_iterations,hoarder_mode, text_temp, waveform_temp, semantic_min_eos_p, output_dir, output_filename, output_format, add_silence_between_segments, semantic_top_k, semantic_top_p, coarse_top_k, coarse_top_p, specific_npz_file, specific_npz_folder, split_character_jitter, extra_args_str, progress=gr.Progress(track_tqdm=True))
+    return generate_audio_long_gradio(
+        input, 
+        audio_prompt_input, 
+        bark_speaker_as_the_prompt, 
+        npz_dropdown, 
+        generated_voices, 
+        cloned_voices, 
+        bark_infinity_voices, 
+        confused_travolta_mode, 
+        stable_mode_interval, 
+        seperate_prompts, 
+        seperate_prompts_flipper, 
+        split_character_goal_length, 
+        split_character_max_length, 
+        process_text_by_each, 
+        in_groups_of_size, 
+        group_text_by_counting, 
+        split_type_string, 
+        prompt_text_prefix, 
+        seed, 
+        text_splits_only,
+        output_iterations,hoarder_mode, 
+        text_temp, 
+        waveform_temp, 
+        semantic_min_eos_p, 
+        output_dir, 
+        output_filename, 
+        output_format, 
+        add_silence_between_segments, 
+        semantic_top_k, 
+        semantic_top_p, 
+        coarse_top_k, 
+        coarse_top_p, 
+        specific_npz_file, 
+        specific_npz_folder, 
+        split_character_jitter, 
+        extra_args_str, 
+        progress=gr.Progress(track_tqdm=True))
 
 def create_npz_dropdown_dir(directories, label):
     npz_files_by_subfolder = defaultdict(list)
@@ -1213,7 +1250,7 @@ def clear_logs():
 
 
 
-    clone_voice_button.click(clone_voice_gradio, inputs=[input_audio_filename, input_audio_filename_secondary, semantic_step_interval, output_voice, create_samples_for_clones, even_more_clones], outputs=dummy).success(generate_audio_long_gradio_clones,inputs=[input, audio_prompt_input, bark_speaker_as_the_prompt, npz_dropdown, generated_voices, cloned_voices, bark_infinity_voices, confused_travolta_mode,stable_mode_interval,seperate_prompts, seperate_prompts_flipper, split_character_goal_length,split_character_max_length, process_text_by_each, in_groups_of_size, group_text_by_counting, split_type_string, prompt_text_prefix, seed, text_splits_only, output_iterations, hoarder_mode, text_temp, waveform_temp,semantic_min_eos_p, output_dir, output_filename, output_format, add_silence_between_segments, semantic_top_k, semantic_top_p, coarse_top_k, coarse_top_p, specific_npz_file, dummy, split_character_jitter, extra_args_input, output_voice], outputs=[audio_output])
+    clone_voice_button.click(clone_voice_gradio, inputs=[input_audio_filename, input_audio_filename_secondary, semantic_step_interval, output_voice, create_samples_for_clones, even_more_clones], outputs=dummy).success(generate_audio_long_gradio_clones,inputs=[input, audio_prompt_input, bark_speaker_as_the_prompt, npz_dropdown, generated_voices, cloned_voices, bark_infinity_voices, confused_travolta_mode,stable_mode_interval,seperate_prompts, seperate_prompts_flipper, split_character_goal_length,split_character_max_length, process_text_by_each, in_groups_of_size, group_text_by_counting, split_type_string, prompt_text_prefix, seed, text_splits_only, output_iterations, hoarder_mode, text_temp, waveform_temp,semantic_min_eos_p, output_dir, output_filename, output_format, add_silence_between_segments, semantic_top_k, semantic_top_p, coarse_top_k, coarse_top_p, specific_npz_file, specific_npz_folder, split_character_jitter, extra_args_input, output_voice], outputs=[audio_output])
 
 
     cancel_button.click(fn=try_to_cancel, inputs=model_checkboxes, outputs=None, cancels=[generate_event])