Text-to-Speech Home Assistant 2026: Guía Completa para que tu Casa Hable

Era un martes por la noche. Javier había configurado una automatización para que las luces se apagaran si no había movimiento durante 20 minutos. Todo perfecto… excepto que su hija seguía en el baño leyendo sin moverse. Las luces se apagaron. Silencio. Oscuridad total. Un grito.

Al día siguiente, añadió un aviso de voz dos minutos antes: “Oye, en dos minutos se apagan las luces del baño.” Desde entonces, cero sustos. Eso es exactamente lo que hace el Text-to-Speech en Home Assistant: convierte tu casa en algo que te habla antes de actuar.

Respuesta rápida: El Text-to-Speech (TTS) en Home Assistant es una función que permite convertir texto en voz y reproducirlo en altavoces dentro de automatizaciones. Se configura desde Integraciones y puede funcionar con motores locales (como Piper) o en la nube (Google, Nabu Casa).

Qué es el Text-to-Speech y por qué importa en domótica

Text-to-Speech (TTS) es la tecnología que convierte texto escrito en audio hablado. En Home Assistant, esto significa que puedes programar que un altavoz diga exactamente lo que tú quieras, en el momento que tú decidas, sin necesidad de grabar audios manualmente.

¿Por qué importa? Porque los avisos visuales (notificaciones en el móvil) fallan cuando el móvil está en silencio, boca abajo o en otra habitación. La voz llega siempre.

Lucía lo aprendió a las duras: llevaba meses recibiendo notificaciones push de que la lavadora había terminado, pero siempre se le olvidaba. Desde que configuró un aviso de voz en el altavoz de la cocina, la ropa lleva meses sin quedarse húmeda dentro. Si quieres replicar su sistema, revisa nuestra una guía específica sobre avisar cuando termina la lavadora.

Qué necesitas antes de usar TTS en Home Assistant

Para que esta tecnología funcione, necesitas cumplir unos requisitos básicos:

Home Assistant funcionando: Tu servidor (ya sea en Raspberry Pi, Mini PC o NAS) debe estar operativo.
Un media_player: Un altavoz inteligente (Google, Echo, Sonos) ya integrado y visible en tu red.
Red local accesible: Que tu Home Assistant y tu altavoz estén en la misma red y puedan “verse”.
(Opcional): Cuenta de Nabu Casa o una API Key si vas a usar motores en la nube avanzados.

Motores TTS disponibles en Home Assistant (2026)

Un motor TTS es el servicio o programa que genera el audio a partir del texto. Home Assistant soporta varios, y elegir el correcto marca la diferencia en calidad y privacidad.

Motor TTS	Calidad de voz	Requiere internet	Coste	Idioma español
Google Translate TTS	⭐⭐⭐⭐ Muy buena	Sí	Gratuito (Integración por defecto)	✅ Sí
Nabu Casa Cloud TTS	⭐⭐⭐⭐ Muy buena	Sí	Incluido en suscripción	✅ Sí
OpenAI / ElevenLabs	⭐⭐⭐⭐⭐ Hiperrealista	Sí	Pago por uso (API)	✅ Sí
Piper (local)	⭐⭐⭐ Buena	No	Gratuito	✅ Sí
Microsoft Edge TTS (vía HACS)	⭐⭐⭐⭐ Muy buena	Sí	Gratuito	✅ Sí*
Google Cloud TTS	⭐⭐⭐⭐⭐ Excelente	Sí	Gratuito (límite mensual API)	✅ Sí

🔒 Piper: el motor local para mayor privacidad (español)

Javier tardó tiempo en convencerse de probar Piper, el motor TTS local de Home Assistant. “Pensaba que iba a sonar como un robot de los años 90.” Error. Las voces actuales de Piper en español son sorprendentemente naturales, y lo más importante: funcionan sin internet.

Piper es el motor recomendado si quieres privacidad total. Puedes instalarlo de forma muy sencilla como un add-on independiente desde la tienda de complementos de Home Assistant o, si ya usas Wyoming Protocol para tus asistentes de voz, integrarlo dentro de ese ecosistema.. Ideal para quien ya usa Assist local en Home Assistant.

🎙️ Google Translate vs Cloud: la mejor calidad de voz

Para empezar rápido, Google Translate TTS es la opción más usada porque viene integrada por defecto y no requiere configuración previa. Nota importante: Aunque viene integrado en tu servidor local, necesita conexión a internet para funcionar, ya que llama a la API pública y gratuita de Google Translate. Sin embargo, si quieres ir un paso más allá, Google Cloud TTS ofrece voces WaveNet premium que suenan casi humanas. El límite gratuito de Cloud es de 1 millón de caracteres al mes (sobrado para domótica), aunque requiere crear una API key en la consola de Google.

✔️ Nabu Casa: la opción más rápida para empezar

Si ya tienes suscripción a Nabu Casa, el TTS en la nube viene incluido sin configuración adicional. Es la ruta más rápida para empezar.

Motores Premium: OpenAI y ElevenLabs

Si buscas el máximo hiperrealismo y que tu casa suene literalmente como una persona real, las integraciones de OpenAI TTS o ElevenLabs son la tendencia en 2026. Funcionan mediante API y son de pago por uso (cobran por caracteres), pero el coste es de apenas unos céntimos al mes para un uso domótico normal. Son ideales para mensajes largos o respuestas generadas por Inteligencia Artificial.

Cómo hacer que Home Assistant hable con TTS (guía completa)

Configuración TTS en Home Assistant UI

Configurar Text-to-Speech en Home Assistant

Activa TTS en Home Assistant y prueba que tu altavoz reproduce mensajes de voz en menos de 10 minutos.

Accede a Configuración > Integraciones

En tu panel de Home Assistant, ve a Configuración (el engranaje) y luego a 'Integraciones'. Busca 'Text-to-Speech' o el motor específico que quieras usar: 'Google Cloud TTS', 'Piper' o 'Nabu Casa'.

Instala y configura el motor elegido

Para Piper: instala el add-on 'Piper' desde la tienda de complementos y actívalo. Para Google Cloud TTS: añade la integración e introduce tu API key. Para Nabu Casa: si tienes suscripción activa, ya aparece disponible automáticamente.

Selecciona el idioma y la voz

Una vez activo el motor, ve a sus opciones y selecciona el idioma 'es-ES' o 'es-419' (español latinoamericano). Te recomendamos probar 'es_ES-davefx-medium' o 'es_AR-mls-medium' (argentino) para un sonido natural, ya que Piper ofrece múltiples modelos de voz gratuitos en diferentes acentos (es-ES, es-419) cuya calidad varía según el que elijas.

Prueba el servicio desde Herramientas del Desarrollador

Ve a Herramientas del Desarrollador > Servicios. Busca el servicio 'tts.speak' o 'tts.google_cloud_say'. En 'entity_id' escribe el media_player de tu altavoz y en 'message' escribe cualquier texto. Pulsa 'Llamar al servicio' y escucha.

Crea tu primera automatización con voz

Ve a Automatizaciones > Nueva automatización. Define un disparador (por ejemplo, que alguien abra la puerta). En las acciones, añade 'Llamar a servicio' > 'tts.speak' y escribe el mensaje que quieras reproducir.

Como novedad destacada en este 2026, Piper ya soporta streaming de audio. Esto significa que el altavoz empieza a hablar casi al instante mientras el texto aún se está procesando, reduciendo la latencia a milisegundos.

Altavoces compatibles con Home Assistant TTS

No todos los altavoces funcionan igual. Home Assistant puede enviar audio a cualquier dispositivo que esté integrado como media_player.

Altavoces compatibles probados por nuestro equipo:

Google Nest / Google Home: integración oficial, excelente compatibilidad. Ojo: a veces interrumpe música en reproducción.
Amazon Echo (Alexa): requiere integración externa o Alexa Media Player via HACS. Funciona bien, pero ten en cuenta que esta integración no es oficial, depende de cookies de Amazon y requiere que vuelvas a autenticarte periódicamente para que no se rompa.
Sonos: integración nativa. Pausa la música, habla y reanuda. El comportamiento más elegante de todos.
Altavoces Bluetooth / AirPlay: compatibles vía integración AirPlay o Bluetooth. Latencia variable.
VLC en Raspberry Pi / servidor: el más flexible. Puedes enviar audio a cualquier dispositivo conectado al servidor.

Si tienes un Google Nest y notas que el volumen del TTS es muy bajo o muy alto, es un problema conocido. Se soluciona añadiendo volume_level: 0.7 en la acción antes del TTS, y restaurando el volumen anterior después.

Para quien quiera un sistema de audio distribuido completo, vale la pena leer la guía de hilo musical WiFi con Sonos y Echo Multiroom.

Mejores altavoces para TTS en Home Assistant (rápido)

👉 Si no tienes altavoces compatibles, este es el punto de entrada más fácil:

🥇 Google Nest Mini → fácil, directo y muy barato.
🥈 Echo Dot → la mejor opción si ya usas Alexa en casa.
🥉 Sonos → la mejor experiencia premium (pero de mayor coste).

Google Nest Mini (2ª Gen) - Altavoz Inteligente

El altavoz más popular para TTS en Home Assistant. Integración nativa, precio accesible y calidad de audio suficiente para avisos de voz en cualquier habitación.

69,99 € aproximado.

★★★★★ 4.2 (Valoración editorial)

Ver en Amazon

Ejemplos reales de voz en Home Assistant automatizaciones

Aquí es donde el TTS pasa de ser un juguete a ser útil de verdad. Estos son los casos de uso que más valor aportan en el día a día:

Avisos de seguridad y detección

Cuando Frigate detecta una persona en la puerta, en lugar de solo enviar una notificación al móvil, el altavoz de la entrada puede decir: “Hay alguien en la puerta principal.” Si nadie está mirando el móvil, la voz llega igualmente.

Lo mismo con detectores de humo o agua: un aviso de voz urgente en todos los altavoces de la casa es mucho más efectivo que una vibración en el bolsillo.

Recordatorios contextuales

María tiene configurado que a las 8:45, si detecta presencia en la cocina y hay lluvia prevista, el altavoz diga: “Hoy llueve por la tarde, recuerda el paraguas.” No es un push genérico al móvil. Es un aviso en el contexto exacto donde ella está. Esto es domótica real.

Avisos de fin de ciclo

Este es el más popular. Con un enchufe inteligente con medidor de consumo puedes detectar cuando la lavadora baja de cierto wattage (señal de que ha terminado) y lanzar un mensaje de voz. Funciona de maravilla.

Modo “no molestes”

Un detalle que marca la diferencia: condicionar el TTS al estado de la casa. Si alguien está durmiendo (sensor de presencia en el dormitorio + hora nocturna), los mensajes de voz se silencian o se envían solo al móvil. Esto evita despertar a la familia con avisos inoportunos.

# Ejemplo de automatización con TTS condicional y multi-altavoz
alias: "Aviso fin lavadora con TTS"
trigger:
  - platform: numeric_state
    entity_id: sensor.lavadora_potencia
    below: 5
    for: "00:02:00"
condition:
  - condition: time
    after: "08:00:00"
    before: "22:00:00"
action:
  - service: tts.speak
    target:
      entity_id: 
        - media_player.cocina_google_home
        - media_player.salon_google_home
    data:
      message: "La lavadora ha terminado. No olvides sacar la ropa."
      # cache: false evita que HA reutilice audios antiguos. 
      # Es vital si usas variables que cambian (ej. temperatura), 
      # aunque para este mensaje fijo podrías ponerlo en true.
      cache: false
      options:
        voice: "es_ES-davefx-medium"

Automatización TTS Home Assistant YAML

Latencia en TTS: por qué a veces tarda en hablar

Un detalle de nivel experto: a veces el altavoz tarda unos segundos en hablar desde que ocurre la acción. ¿Por qué pasa?

Motores Cloud: Dependen de tu conexión a internet para enviar el texto y descargar el audio generado.
Motores Locales: Dependen de la CPU de tu servidor (una Raspberry Pi procesará el audio más lento que un Intel N100).
La solución PRO: Usa la opción cache: true en el YAML para mensajes que se repiten siempre igual (como el de la lavadora), o utiliza motores como Piper que soporten streaming para reducir la latencia al mínimo.

Errores comunes al configurar TTS en Home Assistant

Sergio lo dice siempre en nuestras sesiones internas: “La mitad de los problemas con TTS son de red, no de configuración.” Tiene razón.

❌ Error 1: El altavoz no reproduce nada (sin error visible)

Causa más frecuente: el servidor Home Assistant y el altavoz no están en la misma subred, o el firewall bloquea el tráfico. Home Assistant necesita que el altavoz pueda acceder a su URL interna para descargar el audio.

Solución: asegúrate de que external_url e internal_url están bien configurados en /config/configuration.yaml. Si tienes VLANs para IoT, verifica que el tráfico entre VLANs está permitido para este caso.

❌ Error 2: El volumen del TTS es inconsistente

Algunos altavoces (especialmente Google) reciben el TTS a un volumen diferente al que tenían. La solución es usar el servicio media_player.volume_set antes y después del TTS, o usar el servicio tts.speak con announce: true en dispositivos que lo soporten.

❌ Error 3: Voces en inglés aunque configuré español

Ocurre cuando el language no está correctamente especificado en el servicio. En el YAML, siempre especifica explícitamente:

data:
  message: "La cena está lista"
  language: "es"

❌ Error 4: El TTS interrumpe la música y no la reanuda

Este es el clásico dolor de cabeza, especialmente con altavoces antiguos. La solución moderna en Home Assistant es usar la variable announce: true dentro de tu servicio tts.speak. En dispositivos compatibles (Sonos, Google Cast recientes y algunos reproductores DLNA) esto activa el “ducking” nativo: baja el volumen de la música, reproduce el mensaje y restaura la reproducción automáticamente.

Comprueba en la documentación de tu integración si announce: true está soportado. Si tu altavoz (como algunos Google Home antiguos) no lo soporta, la solución alternativa es usar scripts o blueprints de la comunidad que guarden el estado del media_player, lancen el TTS y luego restauren la reproducción anterior.

❌ Error 5: Usar TTS para mensajes muy largos

El TTS no está pensado para mensajes de más de 2-3 frases. Si el texto es largo, la síntesis tarda más, puede cortarse y la experiencia es mala. Mantén los mensajes cortos y directos. “Puerta del garaje abierta” es mejor que “Se ha detectado que la puerta del garaje lleva más de 10 minutos en estado abierto, por favor comprueba si quieres cerrarla.”

TTS local vs TTS en la nube: ¿cuál elegir?

Esta es la pregunta que más nos hacen. Y la respuesta honesta es: depende de lo que values más.

Elige TTS local (Piper) si:

La privacidad es prioritaria para ti
Tu internet es inestable o tienes cortes frecuentes
Usas muchos mensajes de voz al día y no quieres depender de cuotas
Ya tienes una instalación avanzada de HA con Wyoming Protocol

Elige TTS en la nube si:

Quieres la mejor calidad de voz posible
Tienes pocos mensajes al día (límites gratuitos son suficientes)
Prefieres simplicidad en la configuración
Ya tienes Nabu Casa activo

En nuestro caso, Javier usa Piper para el 90% de los avisos cotidianos (lavadora, puertas, recordatorios) y reserva Google Cloud TTS para los mensajes más importantes o cuando hay visitas. “No quiero que mi suegra oiga una voz robótica anunciando que alguien ha abierto el armario de las medicinas.”

TTS avanzado: variables dinámicas en los mensajes

Una de las funcionalidades más potentes y menos conocidas: puedes usar templates Jinja2 para que los mensajes incluyan datos en tiempo real.

message: >
  La temperatura exterior es de {{ states('sensor.temperatura_exterior') }} grados.
  {% if states('sensor.temperatura_exterior') | float < 5 %}
  Cuidado, puede haber hielo en la calzada.
  {% endif %}

Esto abre un mundo de posibilidades: mensajes que incluyen la temperatura, el consumo actual, el nombre de quien ha llegado a casa (si tienes detección de presencia) o incluso el precio de la luz en ese momento.

Si combinas esto con notificaciones accionables por Telegram, tienes un sistema de comunicación domótica realmente completo.

Mejor opción según tu caso

Mejor opción si empiezas desde cero

Nabu Casa + Google Nest Mini. La configuración es de 5 minutos, la calidad es excelente y no necesitas tocar YAML. Cuando quieras profundizar, tienes todo el ecosistema disponible.

Mejor opción si priorizas privacidad

Piper (local) + cualquier altavoz con integración media_player. Cero dependencia de servidores externos. Todo ocurre en tu red.

Mejor opción si ya tienes Alexa en casa

Integración Alexa Media Player (HACS) + TTS de Nabu Casa o Google. Aunque la integración es más compleja que con Google Home, funciona bien para la mayoría de casos de uso. Consulta qué Alexa comprar si aún no tienes.

Mejor opción para calidad de voz máxima

Microsoft Edge TTS (via HACS). Voces neurales de alta calidad, gratuitas y en español. Requiere instalación manual pero el resultado es impresionante.

Amazon Echo Dot - Altavoz Inteligente con Alexa

Perfecto para TTS en Home Assistant con la integración Alexa Media Player. Sonido mejorado respecto a generaciones anteriores y precio muy competitivo.

64,99 € aproximado.

★★★★★ 4.7 (Valoración editorial)

Ver en Amazon

FAQ

¿Puedo usar Text-to-Speech en Home Assistant sin internet?

Sí. El motor Piper funciona completamente de forma local, sin necesidad de conexión a internet. Necesitas instalarlo como add-on y configurar Wyoming Protocol. La calidad es buena (especialmente con los modelos “medium”) y no tienes límites de uso ni dependencia de terceros.

¿Qué diferencia hay entre tts.speak y tts.google_say?

tts.speak es el servicio unificado moderno de Home Assistant (HA 2023.8+) que funciona con cualquier motor TTS instalado. tts.google_say y similares son servicios específicos de cada integración, de la generación anterior. Se recomienda usar tts.speak por su mayor compatibilidad y mantenimiento futuro.

¿Cómo evito que el TTS interrumpa la música que está sonando?

La mejor solución es usar un blueprint o script que: 1) guarde el estado actual del media_player (qué está sonando, a qué volumen), 2) pause la reproducción, 3) lance el TTS, 4) espere a que termine, y 5) reanude la reproducción anterior. En la comunidad oficial de Home Assistant hay blueprints listos para esto.

¿Puedo enviar el mismo mensaje a varios altavoces a la vez?

Sí. Puedes especificar múltiples entity_id en el campo target del servicio tts.speak, o crear un grupo de media players. También puedes duplicar la acción TTS para cada altavoz en la misma automatización. Si usas Sonos, tiene soporte nativo para grupos de altavoces.

¿El TTS funciona con Home Assistant instalado en Docker o Proxmox?

Sí, funciona en todas las instalaciones. La única consideración es que para Piper necesitas que el add-on Wyoming esté accesible. En instalaciones Docker o Proxmox con virtualización avanzada, Wyoming puede correr como contenedor separado conectado al resto del stack.

¿Cuántos mensajes de voz puedo enviar al día sin coste?

Con Piper (local): ilimitados. Con Google Cloud TTS: el tier gratuito cubre 1 millón de caracteres al mes, lo que equivale aproximadamente a 500.000 mensajes cortos. Para uso domótico normal (10-50 mensajes al día), no llegarás al límite. Con Nabu Casa: incluido en la suscripción mensual sin límite adicional publicado.

Conclusión: tu casa ya puede hablar, solo falta configurarlo

El Text-to-Speech en Home Assistant es una de esas funcionalidades que, una vez que la tienes, no entiendes cómo viviste sin ella. No es magia técnica ni requiere hardware caro. Es pura domótica bien hecha: si tu casa sabe que algo ha pasado, ¿por qué no puede decírtelo en voz alta?

Lo que hemos aprendido tras meses usando esto en diferentes configuraciones es que el motor importa menos que los mensajes. Un mensaje bien diseñado, en el momento correcto, con el contexto adecuado, vale más que la voz más realista del mundo lanzada en el momento equivocado.

Si ya tienes automatizaciones básicas funcionando y un altavoz compatible, estás a 10 minutos de tener TTS activo.

Tu misión esta semana: Configura un solo aviso de voz que resuelva un problema real en tu casa. El fin de la lavadora, la puerta del garaje abierta, o simplemente un “buenos días” con la temperatura exterior cuando detectas movimiento en la cocina por las mañanas. Un caso de uso real es suficiente para entender el potencial de esta tecnología.

Y si quieres ir un paso más allá con el control por voz, no te pierdas la guía de Assist con voz local en Home Assistant o cómo integrar IA conversacional con Ollama para llevar las interacciones por voz al siguiente nivel.

👉 ¿Aún no tienes un altavoz compatible? Recomendación nº1

Google Nest Mini (2ª Gen) - Altavoz Inteligente

El altavoz más popular para TTS en Home Assistant. Integración nativa, precio accesible y calidad de audio suficiente para avisos de voz en cualquier habitación.

69,99 € aproximado.

★★★★★ 4.2 (Valoración editorial)

Ver en Amazon