fix: correct qwen_tts API parameter issues

willgriffin · willgriffin · commit b4bb4565038f · 2026-01-26T10:09:54.000-07:00
Bug fixes:
1. Remove unsupported 'language' param from create_voice_clone_prompt
2. Normalize ref_text (strip whitespace, convert empty to None)
3. Add max_new_tokens=2048 to generate_voice_clone calls

The ref_text parameter must be properly normalized to avoid the model
misinterpreting the voice cloning request.
diff --git a/server.py b/server.py
@@ -75,15 +75,13 @@ def extract_voice_prompt(
         self,
         ref_audio: Tuple[Any, int],
         ref_text: Optional[str] = None,
-        language: str = "English",
     ) -> str:
         """
         Extract a reusable voice prompt from reference audio.
 
         Args:
             ref_audio: Tuple of (audio_data, sample_rate)
             ref_text: Optional transcript of reference audio
-            language: Language of the reference audio
 
         Returns:
             Base64-encoded voice prompt that can be reused
@@ -166,11 +164,15 @@ def synthesize(
 
         if ref_audio:
             # Voice cloning path - use Base model
+            # Normalize ref_text - strip whitespace, convert empty to None
+            normalized_ref_text = ref_text.strip() if ref_text else None
+
             wavs, sr = self.base_model.generate_voice_clone(
                 text=text,
                 language=language,
                 ref_audio=ref_audio,
-                ref_text=ref_text,
+                ref_text=normalized_ref_text,
+                max_new_tokens=2048,
             )
         else:
             # Basic TTS path - use CustomVoice model with preset speaker
@@ -213,17 +215,18 @@ def extract_voice_prompt(
         self,
         ref_audio: Tuple[Any, int],
         ref_text: Optional[str] = None,
-        language: str = "English",
     ) -> str:
         """Extract a reusable voice prompt from reference audio."""
         if self.base_model is None:
             raise RuntimeError("Base model not loaded")
 
+        # Normalize ref_text - strip whitespace, convert empty to None
+        normalized_ref_text = ref_text.strip() if ref_text else None
+
         # Use the Base model's create_voice_clone_prompt method
         voice_prompt = self.base_model.create_voice_clone_prompt(
             ref_audio=ref_audio,
-            ref_text=ref_text,
-            language=language,
+            ref_text=normalized_ref_text,
         )
 
         # Serialize to base64 - voice_prompt is typically tensor data
@@ -259,6 +262,7 @@ def synthesize_with_prompt(
             text=text,
             language=language,
             voice_clone_prompt=prompt_tensor,
+            max_new_tokens=2048,
         )
 
         # Convert to WAV bytes
@@ -309,7 +313,7 @@ async def lifespan(app: FastAPI):
 app = FastAPI(
     title="TTS Server",
     description="Multi-model text-to-speech API with voice cloning support",
-    version="0.3.0",
+    version="0.3.1",
     lifespan=lifespan,
 )
 
@@ -340,10 +344,9 @@ async def list_speakers():
 
 
 @app.post("/v1/voice/extract")
-async def extract_voice_prompt(
+async def extract_voice_prompt_endpoint(
     ref_audio: UploadFile = File(..., description="Reference audio for voice extraction"),
     ref_text: Optional[str] = Form(None, description="Transcript of reference audio"),
-    language: str = Form("English", description="Language of the reference audio"),
 ):
     """
     Extract a reusable voice prompt from reference audio.
@@ -369,14 +372,12 @@ async def extract_voice_prompt(
         voice_prompt = backend.extract_voice_prompt(
             ref_audio=ref_audio_data,
             ref_text=ref_text,
-            language=language,
         )
 
         return JSONResponse({
             "voice_prompt": voice_prompt,
             "format": "base64-numpy",
             "ref_text": ref_text,
-            "language": language,
         })
 
     except NotImplementedError as e:
diff --git a/tests/test_server.py b/tests/test_server.py
@@ -24,13 +24,13 @@ def mock_custom_voice(text, language, speaker):
         return [audio], sample_rate
 
     # Mock generate_voice_clone for voice cloning
-    def mock_voice_clone(text, language, ref_audio=None, ref_text=None, voice_clone_prompt=None):
+    def mock_voice_clone(text, language, ref_audio=None, ref_text=None, voice_clone_prompt=None, max_new_tokens=2048):
         sample_rate = 24000
         audio = np.zeros(sample_rate, dtype=np.float32)
         return [audio], sample_rate
 
     # Mock create_voice_clone_prompt for voice embedding extraction
-    def mock_create_prompt(ref_audio, ref_text=None, language="English"):
+    def mock_create_prompt(ref_audio, ref_text=None):
         # Return a mock tensor-like object
         return np.zeros((256,), dtype=np.float32)
 
@@ -194,7 +194,6 @@ def test_extract_voice_prompt(self, client, mock_qwen3_model):
             "/v1/voice/extract",
             data={
                 "ref_text": "This is a reference transcript",
-                "language": "English"
             },
             files={"ref_audio": ("ref.wav", wav_buffer, "audio/wav")}
         )