Fish Speech S2 Pro: el TTS que desafía al software de voz cerrado
La síntesis de voz vive uno de sus momentos más competitivos. En apenas unos meses han aparecido modelos capaces de sonar más naturales, clonar voces con menos segundos de referencia y leer guiones largos con una expresividad que hasta hace poco parecía reservada a plataformas comerciales muy cerradas. En ese contexto, 2 Pro se ha convertido en uno de los nombres que más ruido está haciendo dentro del sector. Su b lo presenta como un sistema TTS puntero y su informe técnico sostiene que compite de tú a tú con modelos propietarios en varios benchmarks públicos.
La propuesta ha llamado la atención por una combinación poco habitual: clonación rápida de voz con muestras cortas, control emocional mediante etiquetas escritas en lenguaje natural, soporte multilingüe amplio y generación de diálogos con varios hablantes dentro de una misma salida. No es poca cosa. El salto no está solo en que “suene bien”, sino en que ofrece más control sobre cómo suena una voz, cuándo cambia de tono y cómo se comporta en conversaciones más realistas. Esa es precisamente una de las razones por las que muchos desarrolladores, creadores de contenido y estudios pequeños lo están siguiendo de cerca.
Fish Audio lanzó S2 Pro en marzo de 2026 como su modelo de referencia. Según su ficha oficial en Hugging Face, está entrenado con más de 10 millones de horas de audio y trabaja con más de 80 idiomas. El proyecto se apoya en una arquitectura Dual-Autoregressive, con un bloque principal de 4.000 millones de parámetros y otro más ligero para reconstruir detalle acústico, además de un motor de inferencia pensado para streaming con SGLang. En el informe técnico, sus autores afirman que el sistema puede alcanzar un tiempo hasta el primer audio por debajo de 100 milisegundos y un factor de tiempo real de 0,195 en una NVIDIA H200.
Lo que hace diferente a Fish Speech S2 Pro
Uno de los puntos que más interés despierta es el control fino de prosodia y emoción. En lugar de limitarse a unos cuantos modos predefinidos, Fish Speech S2 Pro permite insertar instrucciones dentro del propio texto con etiquetas del tipo [whisper], [angry], [laughing] o descripciones abiertas más largas. La idea, según su documentación, es que la voz no solo lea el contenido, sino que interprete mejor la intención. Para doblaje, podcast, vídeo corto, narración o asistentes conversacionales, ese detalle cambia bastante el resultado final.
También destaca la clonación de voz con muestras breves. Fish Audio asegura que bastan entre 10 y 30 segundos para capturar timbre, estilo y tendencia emocional del hablante sin necesidad de un ajuste adicional. En la práctica, eso facilita mucho el trabajo de pruebas rápidas, prototipado y personalización. Ahora bien, conviene rebajar un poco el tono promocional: una cosa es lograr una clonación convincente en demos y otra mantener consistencia perfecta en todos los idiomas, registros y duraciones. El propio sector lleva tiempo comprobando que la calidad final depende mucho del audio de referencia, del guion y del contexto de uso.
Otro aspecto interesante es la generación nativa de varios hablantes. El sistema permite trabajar con varios speakers en una misma generación y soporta conversaciones por turnos, algo muy útil para escenas dialogadas, dramatizaciones o productos conversacionales más elaborados. Ese enfoque lo aleja del TTS clásico pensado para una sola voz recitando texto plano y lo acerca a un terreno donde la voz sintética empieza a comportarse más como un actor que como un simple lector.
Benchmarks muy fuertes, pero con matices
La gran baza del proyecto está en sus resultados publicados. En el repositorio oficial y en el informe técnico, Fish Audio asegura que S2 logra el mejor WER del conjunto evaluado en Seed-TTS Eval, con un 0,54% en chino y un 0,99% en inglés. También reporta un 0,515 en Audio Turing Test con instrucción, una tasa de victoria del 81,88% en EmergentTTS-Eval y un 93,3% de activación de etiquetas en su propio Fish Instruction Benchmark. Sobre el papel, son cifras muy serias.
Pero hay un matiz importante que no conviene pasar por alto. Buena parte de estas comparativas proceden de documentación y pruebas publicadas por el propio equipo de Fish Audio. Eso no invalida los resultados, pero sí obliga a leerlos con algo de prudencia. En inteligencia artificial, los benchmarks sirven para medir, pero no siempre trasladan toda la experiencia de uso real. La voz que gana en una prueba concreta no siempre es la que mejor funciona en doblaje comercial, audiolibros, atención al cliente o contenido largo. Aun así, sí hay señales externas de que el modelo está ganando tracción: plataformas de análisis como Artificial Analysis ya lo siguen como uno de los TTS relevantes del mercado, y comparativas del ecosistema open source lo sitúan entre los lanzamientos más fuertes de 2026.
Además, hay un detalle jurídico que merece atención. Aunque Fish Speech se presenta muchas veces como “open source”, su código y sus pesos se distribuyen bajo la Fish Audio Research License, una licencia propia de investigación. Eso significa que no encaja sin más en la idea clásica de software libre u open source en sentido estricto. Para desarrolladores, empresas y creadores que quieran integrarlo en productos comerciales, este punto no es menor: antes de adoptarlo, toca revisar bien las condiciones de uso.
Por qué importa esta noticia
Fish Speech S2 Pro importa por una razón sencilla: muestra hasta qué punto el TTS está dejando de ser una tecnología de nicho para convertirse en una capa básica de creación digital. Ya no se trata solo de “poner voz” a un texto. Se trata de dirigir emociones, mantener una identidad vocal, trabajar en varios idiomas y construir experiencias conversacionales más naturales. Si un modelo con este nivel de control y calidad se vuelve más accesible, el impacto puede notarse en podcast, doblaje, formación, videojuegos, herramientas para creadores y asistentes de voz.
La pregunta de fondo no es si Fish Speech S2 Pro es, sin discusión, “el mejor TTS del mundo”. Esa afirmación sería demasiado tajante. La pregunta más útil es otra: si estamos ante uno de los modelos de voz sintética más ambiciosos y competitivos del momento. Con los datos públicos disponibles, la respuesta parece claramente afirmativa. Y eso, en un mercado dominado durante años por plataformas cerradas, ya es bastante noticia.
Preguntas frecuentes
¿Fish Speech S2 Pro es realmente open source?
Tiene repositorio público, pesos accesibles y código disponible, pero se distribuye bajo la Fish Audio Research License, una licencia propia. Por eso conviene no equipararlo automáticamente con software libre u open source en sentido estricto.
¿Cuántos idiomas soporta Fish Speech S2 Pro?
La ficha del modelo y el repositorio hablan de más de 80 idiomas, con especial foco en chino, inglés y japonés, además de soporte para español, portugués, árabe, francés, alemán y muchos más.
¿Cuánto audio hace falta para clonar una voz con Fish Speech?
Según su documentación oficial, suele bastar con entre 10 y 30 segundos de audio de referencia para lograr una clonación rápida de timbre, estilo y tendencia emocional.
¿Es mejor que ElevenLabs o que otros TTS cerrados?
Sus benchmarks publicados lo colocan en una posición muy competitiva frente a varios modelos cerrados, pero esa comparación depende del caso de uso y de cómo se evalúe. Hoy puede considerarse uno de los TTS más fuertes del momento, aunque no existe una prueba universal que cierre el debate para todos los escenarios.
Lascia un commento