Documentación de Visemas y SSML

Este documento describe los conceptos clave de visemas y SSML (Speech Synthesis Markup Language), así como el alfabeto fonético utilizado en SSML, ejemplos de tablas de vocales y consonantes, enlaces a recursos y detalles de facturación de caracteres.

1. Visemas

1.1. Definición

Un visema es la representación visual de un fonema en el lenguaje hablado: la forma y posición de los labios, dientes y mandíbula cuando se articula un sonido. Son fundamentales para la animación de labios (“lip-sync”) y la síntesis de vídeo facial.

1.2. Relación con Fonemas

Fonema: unidad mínima de sonido que distingue significado en una lengua.
Un visema puede corresponder a varios fonemas similares (por ejemplo, /p/, /b/, /m/ suelen compartir un mismo visema bilabial).
La asignación de fonemas a visemas varía según cada idioma y dialecto.

2. SSML (Speech Synthesis Markup Language)

2.1. ¿Qué es SSML?

SSML es un lenguaje basado en XML diseñado para controlar y ajustar la síntesis de voz. Permite especificar:

Tono (<prosody pitch="...">)
Velocidad (<prosody rate="...">)
Volumen (<prosody volume="...">)
Pronunciación (<phoneme alphabet="ipa" ph="...">…</phoneme>)
Pausas (<break time="..."/>)

2.2. Estructura básica

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis">
  <voice name="Microsoft Server Speech Text to Speech Voice (es-MX, LauraNeural)">
    Bienvenido a SSML.
  </voice>
</speak>

3. Alfabeto Fonético en SSML

SSML soporta alfabetos fonéticos como IPA (International Phonetic Alphabet) para controlar la pronunciación exacta de palabras.

3.1. Vocales (Español)

Letra	Visema ID	Ejemplo 1	Ejemplo 2	Ejemplo 3
a	2	amenaza	maro	está
ɔ	3	odre	oferto	micro
ò	1	estan	seré	aigua
e	4	éxito	perfeta	seré
ɛ	4	ecosistema	increcto	haver
i	6	itinerante	sitinante	zombio
u	7	universitario	candidatures	crono

Nota: Los IDs de visema son arbitrarios y pueden variar según la herramienta o el estándar de animación facial.

3.2. Consonantes

Letra	Visema ID	Ejemplo 1	Ejemplo 2	Ejemplo 3
b	21	babado	blavo	β
t͡ʃ	19,16	matcha	txucs	graffiti
ð	17	conduian	navidad	The Sun
f	18	facilidad	efecto	grafo
g	20	gracia	alugación	aigua
ʒ	16	gebra	brasil	alianza
ɣ	20	aigua	parga	laugar
d	19	dado	directo	ducción
k	20	comportar	carro	corazón
l	14	laberinto	logro	leacción
ʎ	14	calli	mello	milora
m	21	macarón	mesa	micro
n	19	necesario	sanitario	algar
ŋ	20	alongar	trangio	inglés
ɲ	19	cañada	españa	muñeca
ɾ	19	peru	caro	barra
r	13	perro	torre	mártir
θ	19	zaparo	tiqueta	ecos

Tip: Usa <phoneme alphabet="ipa" ph="…">…</phoneme> para forzar pronunciaciones específicas en SSML.

5. Listado Típico de 12 Visemas

A continuación se muestra un ejemplo de 12 visemas comunes, con su correspondiente agrupación de fonemas en notación ARPABET:

Visema	Fonemas (ARPABET)
AI / AY	AI, AY
EY / E / EH	EY, E, EH
IY / O / OW	IY, O, OW
AO / U / UW	AO, U, UW
UH / M / B / P	UH, M, B, P
F / V	F, V
T / D	T, D, TD
TH / CH	TH, CH
SH / ZH	SH, ZH
JH / L / R / W	JH, L, R, W
S	S
Z	Z

Nota:

La agrupación exacta de fonemas por visema puede variar según el estándar o la herramienta de animación facial.

Cada visema representa una forma de boca/es cara que agrupa varios fonemas con movimientos articulatorios similares.

6. Recursos

Galería de voces de Microsoft https://speech.microsoft.com/portal/voicegallery
Documentación y precios de Azure TTS Consulta la documentación oficial de Azure Cognitive Services Text-to-Speech para detalles de facturación y características.

7. Facturación de Caracteres en Text-to-Speech

Cuando utilices la característica de texto a voz, se facturará por cada carácter convertido, incluyendo:

El texto dentro del cuerpo SSML de la solicitud.
Las marcas SSML en el cuerpo de la solicitud (excepto <speak> y <voice>).
Letras, puntuación, espacios, tabulaciones, marcas y cualquier carácter de espacio en blanco.
Cada punto de código definido en Unicode.

Ejemplo de cálculo: Un documento SSML con 1 000 caracteres de texto y 200 caracteres de etiquetas SSML se facturará como 1 200 caracteres.

1. Visemas​

1.1. Definición​

1.2. Relación con Fonemas​

2. SSML (Speech Synthesis Markup Language)​

2.1. ¿Qué es SSML?​

2.2. Estructura básica​

3. Alfabeto Fonético en SSML​

3.1. Vocales (Español)​

3.2. Consonantes​

5. Listado Típico de 12 Visemas​

6. Recursos​

7. Facturación de Caracteres en Text-to-Speech​