MoonshotAI · rsxdalv · Apr 27, 2025 · Apr 27, 2025 · Apr 27, 2025 · Apr 27, 2025
diff --git a/.gitmodules b/.gitmodules
@@ -1,3 +1,4 @@
 [submodule "kimia_infer/models/tokenizer/glm4"]
 	path = kimia_infer/models/tokenizer/glm4
-	url = https://github.com/THUDM/GLM-4-Voice.git
+	url = https://github.com/rsxdalv/GLM-4-Voice.git
+	branch = speech_tokenizer
diff --git a/kimia_infer/models/detokenizer/flow_matching/__init__.py b/kimia_infer/models/detokenizer/flow_matching/__init__.py
diff --git a/kimia_infer/models/detokenizer/vocoder/__init__.py b/kimia_infer/models/detokenizer/vocoder/__init__.py
diff --git a/kimia_infer/models/tokenizer/glm4 b/kimia_infer/models/tokenizer/glm4
diff --git a/kimia_infer/models/tokenizer/whisper_Lv3/__init__.py b/kimia_infer/models/tokenizer/whisper_Lv3/__init__.py
diff --git a/setup.py b/setup.py
@@ -0,0 +1,60 @@
+from setuptools import setup, find_packages
+
+setup(
+    name="kimia_infer",
+    version="0.1.6",
+    description="Kimi-Audio inference and toolkit package.",
+    author="Moonshot AI",
+    packages=find_packages(),
+    install_requires=[
+        "torch>=2.4.1",
+        "torchaudio>=2.4.1",
+        "packaging",
+        "jinja2",
+        "openai-whisper",
+        "jsonlines",
+        "pandas",
+        "validators",
+        "sty",
+        "transformers",
+        "librosa",
+        "accelerate",
+        "aiohttp",
+        "colorama",
+        "omegaconf>=2.3.0",
+        "sox",
+        "six>=1.16.0",
+        "hyperpyyaml",
+        "conformer>=0.3.2",
+        "diffusers",
+        "pillow",
+        "sentencepiece",
+        "easydict",
+        "fire",
+        "ujson",
+        "cairosvg",
+        "immutabledict",
+        "rich",
+        "wget",
+        "gdown",
+        "datasets",
+        "torchdyn>=1.0.6",
+        "huggingface_hub",
+        "loguru",
+        "decord",
+        "blobfile",
+        "timm",
+        "sacrebleu>=1.5.1",
+        "soundfile",
+        "tqdm"
+    ],
+    include_package_data=True,
+    package_data={
+        'kimia_infer.models.detokenizer.vocoder.alias_free_activation': [
+            'cuda/*.h',
+            'cuda/*.cu',
+            'cuda/*.cpp'
+        ]
+    },
+    python_requires=">=3.8",
+)
+0 −4		.gitignore
+0 −3		.gitmodules
+0 −0		__init__.py
+0 −93		audio_process.py
+0 −114		cosyvoice/bin/inference.py
+0 −140		cosyvoice/bin/train.py
+0 −0		cosyvoice/cli/__init__.py
+0 −83		cosyvoice/cli/cosyvoice.py
+0 −168		cosyvoice/cli/frontend.py
+0 −95		cosyvoice/cli/model.py
+0 −0		cosyvoice/dataset/__init__.py
+0 −160		cosyvoice/dataset/dataset.py
+0 −965		cosyvoice/dataset/processor.py
+0 −222		cosyvoice/flow/decoder.py
+0 −144		cosyvoice/flow/flow.py
+0 −142		cosyvoice/flow/flow_gradtts.py
+0 −142		cosyvoice/flow/flow_matching.py
+0 −180		cosyvoice/flow/flow_matching_dit.py
+0 −49		cosyvoice/flow/length_regulator.py
+0 −1,591		cosyvoice/flow/stable/adp.py
+0 −339		cosyvoice/flow/stable/blocks.py
+0 −415		cosyvoice/flow/stable/dit.py
+0 −307		cosyvoice/flow/stable/dit_v2.py
+0 −232		cosyvoice/flow/stable/sampling.py
+0 −109		cosyvoice/flow/stable/stable_diffusion.py
+0 −104		cosyvoice/flow/stable/stable_diffusion_test.py
+0 −816		cosyvoice/flow/stable/transformer.py
+0 −845		cosyvoice/flow/stable/transformer_use_mask.py
+0 −55		cosyvoice/hifigan/f0_predictor.py
+0 −398		cosyvoice/hifigan/generator.py
+0 −206		cosyvoice/llm/llm.py
+0 −0		cosyvoice/transformer/__init__.py
+0 −84		cosyvoice/transformer/activation.py
+0 −612		cosyvoice/transformer/attention.py
+0 −145		cosyvoice/transformer/convolution.py
+0 −396		cosyvoice/transformer/decoder.py
+0 −132		cosyvoice/transformer/decoder_layer.py
+0 −293		cosyvoice/transformer/embedding.py
+0 −567		cosyvoice/transformer/encoder.py
+0 −236		cosyvoice/transformer/encoder_layer.py
+0 −96		cosyvoice/transformer/label_smoothing_loss.py
+0 −115		cosyvoice/transformer/positionwise_feed_forward.py
+0 −383		cosyvoice/transformer/subsampling.py
+0 −0		cosyvoice/utils/__init__.py
+0 −34		cosyvoice/utils/block_mask_util.py
+0 −72		cosyvoice/utils/class_utils.py
+0 −103		cosyvoice/utils/common.py
+0 −132		cosyvoice/utils/executor.py
+0 −53		cosyvoice/utils/file_utils.py
+0 −125		cosyvoice/utils/frontend_utils.py
+0 −227		cosyvoice/utils/mask.py
+0 −739		cosyvoice/utils/scheduler.py
+0 −289		cosyvoice/utils/train_utils.py
+0 −142		flow_inference.py
+0 −144		model_server.py
+ −		resources/architecture.jpeg
+ −		resources/web_demo.png
+0 −1		third_party/Matcha-TTS
+0 −267		web_demo.py