π€ Reddit
r/LocalLLaMA
Best Audio Models - Feb 2026
π AI Summary
2026λ
2μ κΈ°μ€ μ΅κ³ μ μ€λμ€ λͺ¨λΈμ λν λ
Όμκ° μ§ν μ€μ΄λ©°, νΉν Qwen3 TTSμ κ°μ μ΅μ λͺ¨λΈλ€μ΄ μ£Όλͺ©λ°κ³ μμ΅λλ€. μ¬μ©μλ€μ ASR, TTS, STT, Text to Music λͺ¨λΈμ λν μ νΈλμ μ¬μ© κ²½νμ 곡μ νλ©°, μ€ν μμ€ λͺ¨λΈκ³Ό μμ© λͺ¨λΈ κ°μ λΉκ΅ λ° λ€μν λꡬμ νλ μμν¬ νμ© μ¬λ‘λ₯Ό μ μνκ³ μμ΅λλ€.
π Key Discussion Points
- β’ μ¬μ©μλ€μ Marblenet (speech detection), Parakeet (ASR), Chatterbox (TTS), Ace-step (TTM) λ±μ λͺ¨λΈμ μ νΈνλ©°, νΉν Chatterboxλ₯Ό ν¬ν¨ν TTS μννΈμ¨μ΄ μ€μνΈ (TTS-Audio-Suite)μ λν κ΄μ¬μ΄ λμ΅λλ€. ComfyUI μ€μΉ ν μ¬μ© κ°λ₯ν©λλ€.
- β’ Qwen3-TTS μΈμλ MOSS-TTSκ° μ£Όλͺ©λ°κ³ μμΌλ©°, ν μ€νΈ ν둬ννΈλ₯Ό κΈ°λ°μΌλ‘ μν₯ ν¨κ³Όλ₯Ό μμ±νλ κΈ°λ₯κ³Ό κ°μ μΆκ° κΈ°λ₯μ΄ κ°μ‘°λκ³ μμ΅λλ€. μ€ν μμ€ TTS λͺ¨λΈμ λν κ΄μ¬κ³Ό ν¨κ», μ¬μ© νΈμμ±μ λμ΄λ μ μ₯μμ λν μꡬλ μμ΅λλ€.