Saltar al contenido principal

Documentación de Visemas y SSML

Este documento describe los conceptos clave de visemas y SSML (Speech Synthesis Markup Language), así como el alfabeto fonético utilizado en SSML, ejemplos de tablas de vocales y consonantes, enlaces a recursos y detalles de facturación de caracteres.


1. Visemas

1.1. Definición

Un visema es la representación visual de un fonema en el lenguaje hablado: la forma y posición de los labios, dientes y mandíbula cuando se articula un sonido. Son fundamentales para la animación de labios (“lip-sync”) y la síntesis de vídeo facial.

1.2. Relación con Fonemas

  • Fonema: unidad mínima de sonido que distingue significado en una lengua.
  • Un visema puede corresponder a varios fonemas similares (por ejemplo, /p/, /b/, /m/ suelen compartir un mismo visema bilabial).
  • La asignación de fonemas a visemas varía según cada idioma y dialecto.

2. SSML (Speech Synthesis Markup Language)

2.1. ¿Qué es SSML?

SSML es un lenguaje basado en XML diseñado para controlar y ajustar la síntesis de voz. Permite especificar:

  • Tono (<prosody pitch="...">)
  • Velocidad (<prosody rate="...">)
  • Volumen (<prosody volume="...">)
  • Pronunciación (<phoneme alphabet="ipa" ph="...">…</phoneme>)
  • Pausas (<break time="..."/>)

2.2. Estructura básica

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis">
<voice name="Microsoft Server Speech Text to Speech Voice (es-MX, LauraNeural)">
Bienvenido a SSML.
</voice>
</speak>

3. Alfabeto Fonético en SSML

SSML soporta alfabetos fonéticos como IPA (International Phonetic Alphabet) para controlar la pronunciación exacta de palabras.

3.1. Vocales (Español)

LetraVisema IDEjemplo 1Ejemplo 2Ejemplo 3
a2amenazamaroestá
ɔ3odreofertomicro
ò1estanseréaigua
e4éxitoperfetaseré
ɛ4ecosistemaincrectohaver
i6itinerantesitinantezombio
u7universitariocandidaturescrono

Nota: Los IDs de visema son arbitrarios y pueden variar según la herramienta o el estándar de animación facial.

3.2. Consonantes

LetraVisema IDEjemplo 1Ejemplo 2Ejemplo 3
b21babadoblavoβ
t͡ʃ19,16matchatxucsgraffiti
ð17conduiannavidadThe Sun
f18facilidadefectografo
g20graciaalugaciónaigua
ʒ16gebrabrasilalianza
ɣ20aiguapargalaugar
d19dadodirectoducción
k20comportarcarrocorazón
l14laberintologroleacción
ʎ14callimellomilora
m21macarónmesamicro
n19necesariosanitarioalgar
ŋ20alongartrangioinglés
ɲ19cañadaespañamuñeca
ɾ19perucarobarra
r13perrotorrertir
θ19zaparotiquetaecos

Tip: Usa <phoneme alphabet="ipa" ph="…">…</phoneme> para forzar pronunciaciones específicas en SSML.


5. Listado Típico de 12 Visemas

A continuación se muestra un ejemplo de 12 visemas comunes, con su correspondiente agrupación de fonemas en notación ARPABET:

VisemaFonemas (ARPABET)
AI / AYAI, AY
EY / E / EHEY, E, EH
IY / O / OWIY, O, OW
AO / U / UWAO, U, UW
UH / M / B / PUH, M, B, P
F / VF, V
T / DT, D, TD
TH / CHTH, CH
SH / ZHSH, ZH
JH / L / R / WJH, L, R, W
SS
ZZ

Nota:

  • La agrupación exacta de fonemas por visema puede variar según el estándar o la herramienta de animación facial.
  • Cada visema representa una forma de boca/es cara que agrupa varios fonemas con movimientos articulatorios similares.

6. Recursos

  • Galería de voces de Microsoft https://speech.microsoft.com/portal/voicegallery
  • Documentación y precios de Azure TTS Consulta la documentación oficial de Azure Cognitive Services Text-to-Speech para detalles de facturación y características.

7. Facturación de Caracteres en Text-to-Speech

Cuando utilices la característica de texto a voz, se facturará por cada carácter convertido, incluyendo:

  1. El texto dentro del cuerpo SSML de la solicitud.
  2. Las marcas SSML en el cuerpo de la solicitud (excepto <speak> y <voice>).
  3. Letras, puntuación, espacios, tabulaciones, marcas y cualquier carácter de espacio en blanco.
  4. Cada punto de código definido en Unicode.

Ejemplo de cálculo: Un documento SSML con 1 000 caracteres de texto y 200 caracteres de etiquetas SSML se facturará como 1 200 caracteres.