fix: 修复原唱回音导致翻唱卡顿异响

mason369 · mason369 · commit fd40a3748c95 · 2026-03-21T14:57:05.000+08:00
- DeEcho质量好时(sep&gt;30dB,corr&gt;0.9)跳过blend直接使用deecho输出,
  避免45%原始回音被混回
- 增强blend系数: global_echo驱动自适应, 重回音时deecho权重可达0.90
- 修复_prepare_vocals_for_vc双重覆盖bug: mono_resolved标志防止
  advanced_dereverb结果被行1132覆盖
- uvr_deecho缺模型时回退到advanced_dereverb而非direct
- 源约束排除direct模式, auto模式加入advanced_dereverb
- 默认配置: index_rate 0.70→0.50, protect 0.50→0.33,
  vc_preprocess_mode→auto, source_constraint_mode→auto
- 同步3个preset和check_deecho_config.py期望值
- UI/i18n文案: "直接进入RVC"→"算法去混响"
diff --git a/check_deecho_config.py b/check_deecho_config.py
@@ -63,11 +63,11 @@ def check_config():
 
     # 检查关键配置
     checks = [
-        ("VC 预处理模式", "vc_preprocess_mode", "uvr_deecho", cover_config.get("vc_preprocess_mode")),
-        ("源约束模式", "source_constraint_mode", "on", cover_config.get("source_constraint_mode")),
+        ("VC 预处理模式", "vc_preprocess_mode", "auto", cover_config.get("vc_preprocess_mode")),
+        ("源约束模式", "source_constraint_mode", "auto", cover_config.get("source_constraint_mode")),
         ("Karaoke 分离", "karaoke_separation", True, cover_config.get("karaoke_separation")),
-        ("索引率", "index_rate", 0.30, cover_config.get("index_rate")),
-        ("保护系数", "protect", 0.30, cover_config.get("protect")),
+        ("索引率", "index_rate", 0.50, cover_config.get("index_rate")),
+        ("保护系数", "protect", 0.33, cover_config.get("protect")),
     ]
 
     all_correct = True
@@ -93,25 +93,22 @@ def print_recommendations():
     print("=" * 60)
 
     print("""
-1. 当前配置已启用激进去回声模式：
-   - 强制使用 UVR DeEcho 模型
-   - 总是启用源约束后处理
+1. 当前配置使用自动模式：
+   - 优先使用 UVR DeEcho 模型，缺模型时回退到算法去混响
+   - DeEcho 质量好时跳过 blend 直接使用，避免混回原始回音
+   - 源约束仅在去过回音的预处理下自动启用
 
 2. 如果回声仍然明显，可以尝试：
-   - 在 UI 中调整"索引率"（降低到 0.1-0.2）
+   - 在 UI 中调整"索引率"（降低到 0.2-0.3）
    - 在 UI 中调整"保护系数"（降低到 0.2-0.25）
    - 使用更高质量的输入音频
 
 3. 处理流程：
-   原始音频 → Karaoke 分离 → UVR DeEcho → RVC 转换 → 源约束 → 输出
+   原始音频 → Karaoke 分离 → UVR DeEcho(或算法去混响) → RVC 转换 → 输出
 
-4. 如果需要更激进的处理，可以修改代码中的参数：
-   - infer/cover_pipeline.py 第 1391 行：回声衰减系数 0.92 → 0.85
-   - infer/cover_pipeline.py 第 1402 行：软掩码系数 0.7 → 0.5
-
-5. 测试建议：
+4. 测试建议：
    - 选择一首有明显回声的歌曲
-   - 处理后使用 Audacity 查看频谱图
+   - 查看日志中 DeEcho quality 指标
    - 对比处理前后的回声强度
 """)
 
diff --git a/configs/config.json b/configs/config.json
@@ -42,10 +42,10 @@
         "demucs_split": true,
         "f0_method": "hybrid",
         "disable_chunking": false,
-        "index_rate": 0.70,
+        "index_rate": 0.50,
         "filter_radius": 3,
         "rms_mix_rate": 0.0,
-        "protect": 0.50,
+        "protect": 0.33,
         "speaker_id": 0,
         "hubert_layer": 12,
         "silence_gate": false,
@@ -70,8 +70,8 @@
         "f0_stabilize_octave": true,
         "f0_rate_limit": false,
         "f0_rate_limit_semitones": 12.0,
-        "vc_preprocess_mode": "uvr_deecho",
-        "source_constraint_mode": "on",
+        "vc_preprocess_mode": "auto",
+        "source_constraint_mode": "auto",
         "vc_pipeline_mode": "current",
         "singing_repair": false,
         "reverb_reapply": true,
diff --git a/configs/presets/balanced.json b/configs/presets/balanced.json
@@ -13,8 +13,8 @@
     "f0_stabilize": true,
     "f0_stabilize_window": 3,
     "f0_stabilize_max_semitones": 3.0,
-    "vc_preprocess_mode": "uvr_deecho",
-    "source_constraint_mode": "on",
+    "vc_preprocess_mode": "auto",
+    "source_constraint_mode": "auto",
     "uvr5_agg": 10
   }
 }
diff --git a/configs/presets/clarity_priority.json b/configs/presets/clarity_priority.json
@@ -13,8 +13,8 @@
     "f0_stabilize": false,
     "f0_stabilize_window": 2,
     "f0_stabilize_max_semitones": 2.0,
-    "vc_preprocess_mode": "uvr_deecho",
-    "source_constraint_mode": "on",
+    "vc_preprocess_mode": "auto",
+    "source_constraint_mode": "auto",
     "uvr5_agg": 8
   }
 }
diff --git a/configs/presets/timbre_priority.json b/configs/presets/timbre_priority.json
@@ -13,8 +13,8 @@
     "f0_stabilize": true,
     "f0_stabilize_window": 5,
     "f0_stabilize_max_semitones": 4.0,
-    "vc_preprocess_mode": "uvr_deecho",
-    "source_constraint_mode": "on",
+    "vc_preprocess_mode": "auto",
+    "source_constraint_mode": "auto",
     "uvr5_agg": 12
   }
 }
diff --git a/i18n/zh_CN.json b/i18n/zh_CN.json
@@ -75,13 +75,13 @@
     "select_to_download": "选择要下载的角色",
     "download": "下载",
     "vc_preprocess_mode": "VC预处理策略",
-    "vc_preprocess_mode_info": "参考成熟项目：优先学习型 DeEcho/DeReverb，否则主唱直通 RVC",
+    "vc_preprocess_mode_info": "优先学习型 DeEcho/DeReverb，缺模型时回退到算法去混响",
     "vc_preprocess_auto": "自动(推荐)",
     "vc_preprocess_direct": "主唱直通",
     "vc_preprocess_uvr_deecho": "官方DeEcho优先",
     "vc_preprocess_legacy": "旧版手工链",
     "source_constraint_mode": "源约束策略",
-    "source_constraint_mode_info": "自动(推荐)下仅旧版手工链启用；学习型 DeEcho 或主唱直通默认不再追加自定义源约束",
+    "source_constraint_mode_info": "自动(推荐)下仅去过回音的预处理启用；主唱直通模式不追加源约束以避免放大回音",
     "source_constraint_auto": "自动(推荐)",
     "source_constraint_off": "关闭",
     "source_constraint_on": "始终开启",
@@ -103,7 +103,7 @@
     "voice_models": "语音模型",
     "voice_models_desc": "将 .pth 模型文件放入 assets/weights/ 目录，然后刷新模型列表。",
     "mature_deecho_models": "成熟 DeEcho 模型",
-    "mature_deecho_models_desc": "用于成熟项目常见的学习型去回声/去混响流程。未下载时，翻唱页的自动模式会回退为主唱直通 RVC。",
+    "mature_deecho_models_desc": "用于成熟项目常见的学习型去回声/去混响流程。未下载时，翻唱页会回退到算法去混响（效果略弱于学习型模型）。",
     "download_mature_deecho": "下载成熟 DeEcho 模型",
     "mature_deecho_status": "成熟 DeEcho 状态",
     "mature_deecho_check": "检查成熟 DeEcho 状态"
diff --git a/infer/cover_pipeline.py b/infer/cover_pipeline.py
@@ -225,6 +225,7 @@ def _select_best_uvr_deecho_output(self, reference_path: str, candidate_files: L
         """Pick the UVR DeEcho branch best suited for VC input."""
         best_path = None
         best_score = None
+        best_metrics = None
 
         for candidate_path in candidate_files:
             scored = self._score_uvr_deecho_candidate(reference_path, candidate_path)
@@ -241,7 +242,10 @@ def _select_best_uvr_deecho_output(self, reference_path: str, candidate_files: L
             if best_score is None or score > best_score:
                 best_score = score
                 best_path = candidate_path
+                best_metrics = metrics
 
+        # 保存最佳候选的质量指标，供 blend 决策使用
+        self._uvr_deecho_metrics = best_metrics
         return best_path
 
     def _init_separator(
@@ -902,9 +906,12 @@ def _should_apply_source_constraint(
         """Decide whether to run source-guided post constraint."""
         normalized_mode = str(source_constraint_mode or "auto").strip().lower()
         if normalized_mode == "on":
+            if self._last_vc_preprocess_mode == "direct":
+                log.detail("源约束跳过: direct 模式下源未去回音，强制约束会放大回音伪影")
+                return False
             return vc_preprocessed
         if normalized_mode == "auto":
-            return vc_preprocessed and self._last_vc_preprocess_mode in {"uvr_deecho", "legacy"}
+            return vc_preprocessed and self._last_vc_preprocess_mode in {"uvr_deecho", "legacy", "advanced_dereverb"}
         return False
 
     def _refine_source_constrained_output(
@@ -1022,14 +1029,17 @@ def _blend_direct_with_deecho(
         echo_ratio = echo_ratio[:n_blend]
 
         # --- Blending weight ---
-        # Base: original low-activity weight (for silent gaps)
-        base_weight = 0.65 * np.square(1.0 - activity[:n_blend])
-        # Echo boost: even during active singing, apply DeEcho proportional
-        # to detected echo. Max additional contribution capped at 0.55.
-        echo_boost = 0.55 * echo_ratio * activity[:n_blend]
+        # 全局回音水平驱动系数自适应
+        global_echo = float(np.mean(echo_ratio))
+        # 沉默段基权: 轻回音0.65, 重回音0.85
+        base_coef = 0.65 + 0.20 * global_echo
+        base_weight = base_coef * np.square(1.0 - activity[:n_blend])
+        # 活跃唱段 echo_boost: 轻回音0.55, 重回音0.90
+        echo_boost_coef = 0.55 + 0.35 * global_echo
+        echo_boost = echo_boost_coef * echo_ratio * activity[:n_blend]
         deecho_weight = base_weight + echo_boost
         deecho_weight = np.convolve(deecho_weight, smooth_kernel, mode="same")
-        deecho_weight = np.clip(deecho_weight, 0.0, 0.80)
+        deecho_weight = np.clip(deecho_weight, 0.0, 0.95)
         deecho_weight = CoverPipeline._frame_curve_to_sample_gain(
             deecho_weight,
             aligned_len,
@@ -1066,6 +1076,7 @@ def _prepare_vocals_for_vc(
 
         # 保存原始混响用于后处理
         self._original_reverb_path = None
+        self._uvr_deecho_metrics = None
 
         if preprocess_mode == "advanced_dereverb":
             # 使用高级去混响：分离干声和混响
@@ -1096,17 +1107,20 @@ def _prepare_vocals_for_vc(
             log.detail("VC preprocess: legacy dereverb chain -> mono select")
         else:
             preprocess_input = vocals_path
+            mono_resolved = False
+
             if preprocess_mode in {"auto", "uvr_deecho"}:
                 preprocess_input = self._apply_uvr_deecho_for_vc(vocals_path, session_dir) or vocals_path
 
             if preprocess_input == vocals_path:
-                # 如果UVR DeEcho不可用，在auto模式下使用advanced dereverb
-                if preprocess_mode == "auto":
+                if preprocess_mode in {"auto", "uvr_deecho"}:
+                    # auto / uvr_deecho 模式在 UVR 模型缺失时都回退到 advanced_dereverb
                     audio, sr = librosa.load(vocals_path, sr=None, mono=False)
                     audio = self._ensure_2d(audio).astype(np.float32)
                     mono = self._select_mono_for_vc(audio, sr)
 
-                    log.detail("VC preprocess: UVR DeEcho not available, using advanced dereverb")
+                    fallback_name = "auto" if preprocess_mode == "auto" else "uvr_deecho"
+                    log.detail(f"VC preprocess ({fallback_name}): UVR DeEcho not available, using advanced dereverb")
                     dry_signal, reverb_tail = advanced_dereverb(mono, sr)
 
                     # 保存混响用于后处理
@@ -1116,38 +1130,55 @@ def _prepare_vocals_for_vc(
 
                     mono = dry_signal
                     self._last_vc_preprocess_mode = "advanced_dereverb"
+                    mono_resolved = True
                     log.detail(f"Dry/Wet separation: dry RMS={np.sqrt(np.mean(dry_signal**2)):.4f}, reverb RMS={np.sqrt(np.mean(reverb_tail**2)):.4f}")
                 else:
+                    # direct 模式
                     self._last_vc_preprocess_mode = "direct"
-                    if preprocess_mode == "uvr_deecho":
-                        log.warning("Official DeEcho model not found, falling back to direct lead input")
                     log.detail("VC preprocess: direct lead -> mono select")
-                    audio, sr = librosa.load(preprocess_input, sr=None, mono=False)
-                    audio = self._ensure_2d(audio).astype(np.float32)
-                    mono = self._select_mono_for_vc(audio, sr)
             else:
                 self._last_vc_preprocess_mode = "uvr_deecho"
                 log.detail("VC preprocess: UVR learned DeEcho/DeReverb -> mono select")
 
-            if preprocess_input == vocals_path:
-                audio, sr = librosa.load(preprocess_input, sr=None, mono=False)
-                audio = self._ensure_2d(audio).astype(np.float32)
-                mono = self._select_mono_for_vc(audio, sr)
-            else:
-                direct_audio, sr = librosa.load(vocals_path, sr=None, mono=False)
-                deecho_audio, deecho_sr = librosa.load(preprocess_input, sr=None, mono=False)
-                direct_audio = self._ensure_2d(direct_audio).astype(np.float32)
-                deecho_audio = self._ensure_2d(deecho_audio).astype(np.float32)
-                direct_mono = self._select_mono_for_vc(direct_audio, sr)
-                deecho_mono = self._select_mono_for_vc(deecho_audio, deecho_sr)
-                if deecho_sr != sr:
-                    deecho_mono = librosa.resample(
-                        deecho_mono,
-                        orig_sr=deecho_sr,
-                        target_sr=sr,
-                    ).astype(np.float32)
-                mono = self._blend_direct_with_deecho(direct_mono, deecho_mono, sr)
-                log.detail("VC preprocess: blended direct lead with UVR DeEcho")
+            # 最终 mono 确定（仅在 mono 未被上面解决时执行）
+            if not mono_resolved:
+                if preprocess_input == vocals_path:
+                    audio, sr = librosa.load(preprocess_input, sr=None, mono=False)
+                    audio = self._ensure_2d(audio).astype(np.float32)
+                    mono = self._select_mono_for_vc(audio, sr)
+                else:
+                    direct_audio, sr = librosa.load(vocals_path, sr=None, mono=False)
+                    deecho_audio, deecho_sr = librosa.load(preprocess_input, sr=None, mono=False)
+                    direct_audio = self._ensure_2d(direct_audio).astype(np.float32)
+                    deecho_audio = self._ensure_2d(deecho_audio).astype(np.float32)
+                    direct_mono = self._select_mono_for_vc(direct_audio, sr)
+                    deecho_mono = self._select_mono_for_vc(deecho_audio, deecho_sr)
+                    if deecho_sr != sr:
+                        deecho_mono = librosa.resample(
+                            deecho_mono,
+                            orig_sr=deecho_sr,
+                            target_sr=sr,
+                        ).astype(np.float32)
+
+                    # DeEcho 质量检测：用 UVR 候选打分指标判断是否跳过 blend
+                    uvr_metrics = getattr(self, '_uvr_deecho_metrics', None)
+                    skip_blend = False
+                    if uvr_metrics:
+                        sep_db = uvr_metrics.get('separation_db', 0.0)
+                        corr = uvr_metrics.get('corr', 0.0)
+                        log.detail(
+                            f"DeEcho quality: sep={sep_db:.2f}dB, corr={corr:.3f}"
+                        )
+                        # sep > 30dB 且 corr > 0.9 说明 DeEcho 质量好
+                        if sep_db > 30.0 and corr > 0.9:
+                            skip_blend = True
+
+                    if skip_blend:
+                        mono = deecho_mono
+                        log.detail("VC preprocess: UVR DeEcho quality sufficient, using deecho directly (skip blend)")
+                    else:
+                        mono = CoverPipeline._blend_direct_with_deecho(direct_mono, deecho_mono, sr)
+                        log.detail("VC preprocess: blended direct lead with UVR DeEcho (enhanced)")
 
         mono = soft_clip(mono, threshold=0.9, ceiling=0.99)
 
diff --git a/ui/app.py b/ui/app.py
@@ -646,8 +646,8 @@ def get_cover_vc_route_status(
             ])
         return newline.join([
             "⚠️ 当前设为官方 DeEcho 优先，但本地缺少模型",
-            "当前将回退流程: 主唱分离 → 直接进入 RVC → 混音",
-            "建议: 先在模型管理页下载成熟 DeEcho 模型",
+            "当前将回退流程: 主唱分离 → 算法去混响 → RVC → 混音",
+            "建议: 下载成熟 DeEcho 模型可获得更好效果",
         ])
 
     if preferred:
@@ -657,9 +657,9 @@ def get_cover_vc_route_status(
             "流程: 主唱分离 → UVR DeEcho/DeReverb → RVC → 混音",
         ])
     return newline.join([
-        "ℹ️ 自动模式当前会回退为主唱直通 RVC",
-        "原因: 本地未检测到成熟 DeEcho / DeReverb 模型",
-        "流程: 主唱分离 → 直接进入 RVC → 混音",
+        "ℹ️ 自动模式当前使用算法去混响",
+        "原因: 本地未检测到成熟 DeEcho / DeReverb 模型，已回退到 advanced dereverb",
+        "流程: 主唱分离 → 算法去混响 → RVC → 混音",
     ])
 
 

Original file line number	Diff line number	Diff line change
`@@ -13,8 +13,8 @@`
`13`	`13`	`"f0_stabilize": true,`
`14`	`14`	`"f0_stabilize_window": 3,`
`15`	`15`	`"f0_stabilize_max_semitones": 3.0,`
`16`		`- "vc_preprocess_mode": "uvr_deecho",`
`17`		`- "source_constraint_mode": "on",`
	`16`	`+ "vc_preprocess_mode": "auto",`
	`17`	`+ "source_constraint_mode": "auto",`
`18`	`18`	`"uvr5_agg": 10`
`19`	`19`	`}`
`20`	`20`	`}`