Skip to main content

Reporte Gemini

¿Qué es Gemini?

Gemini es, en esencia, un modelo de lenguaje de gran tamaño (LLM). Sin embargo, lo que lo distingue es su capacidad multimodal: puede entender y generar diferentes tipos de información, no solo texto. Esta característica lo convierte en una herramienta extremadamente versátil con un amplio rango de aplicaciones.

¿Qué hace especial a Gemini?

  • Multimodalidad: Trabaja con varios tipos de datos, permitiéndole realizar tareas más complejas.
  • Capacidad: Es el modelo más avanzado de Google, capaz de traducir idiomas, escribir código y generar contenido creativo.
  • Flexibilidad: Funciona tanto en centros de datos como en dispositivos móviles.

Aplicaciones

  • Creación de contenido: Genera textos, guiones, música, etc.
  • Resolución de problemas: Proporciona soluciones creativas.
  • Asistencia virtual: Programa citas, responde preguntas y da recomendaciones.

¿Qué lo diferencia de otros modelos como GPT-4?

Ventajas

  • Análisis de archivos: Puedes enviar cualquier archivo (audio, texto, video, CSV), y puede analizar su contenido para darte una respuesta.
  • Velocidad: La respuesta es el doble de rápida.
  • Costo: La facturación es por uso. Para más información, consulta Modelos y Precios.

Desventajas

  • No existe una función de asistente propiamente dicha, solo chat y generación de contenido, pero se podría configurar un chat como asistente para que funcione de esa manera.
  • TTS (text-to-speech) es un servicio aparte, propio de Google, que se paga de manera independiente.

Modelos y Precios

Consulta los modelos y precios actualizados al 9 de agosto de 2024.

Para revisar tu facturación, accede a Google Cloud Facturación.

Nota: El acceso solo está disponible si has generado una API key.

Claves de API

Si aún no tienes un proyecto, puedes crear uno nuevo o agregar claves de API a un proyecto existente. Todos los proyectos están sujetos a las Condiciones del Servicio de Google Cloud Platform, las cuales aceptas al crear un proyecto. El uso de la API de Gemini y Google AI Studio se rige por las Condiciones del Servicio de la API de Gemini.

Recomendación: Usa tus claves de API de manera segura. No las compartas ni las publiques en código visible al público.

Si usas la API de Gemini en un proyecto con facturación habilitada, el uso se calculará bajo un esquema de precios por uso.

Modelos Gratuitos

FuncionalidadesText Embedding 004Gemini 1.0 Pro (Gratis)Gemini 1.5 Pro (Gratis)Gemini 1.5 Flash (Gratis)
Solicitudes por minuto (RPM)1,500 RPM15 RPM2 RPM15 RPM
Tokens por minuto (TPM)N/A32,000 TPM32,000 TPM1 millón TPM
Solicitudes por día (RPD)N/A1,500 RPD50 RPD1,500 RPD
Precios de entrada (Tokens)GratisGratisGratisGratis
Precios de salida (Tokens)GratisGratisGratisGratis
Context cachingNo aplicableNo aplicableNo aplicableGratis
Tuning priceNo aplicableNo disponibleNo disponibleGratis
Usado para mejorar productos

Modelos de Pago por Uso

FuncionalidadesGemini 1.0 Pro (Pago)Gemini 1.5 Pro (Pago)Gemini 1.5 Flash (Pago)
Solicitudes por minuto (RPM)360 RPM360 RPM1,000 RPM
Tokens por minuto (TPM)120,000 TPM4 millones TPM4 millones TPM
Solicitudes por día (RPD)30,000 RPDN/AN/A
Prompts hasta 128k tokensNo disponibleDisponibleDisponible
Precios de entrada (Tokens)$0.50 por 1 millón$3.50 por 1 millón$0.075 por 1 millón
Precios de salida (Tokens)$1.50 por 1 millón$10.50 por 1 millón$0.30 por 1 millón
Context caching (Tokens)No disponible$0.875 por 1 millón$0.01875 por 1 millón
Context caching (Prompts más largos que 128k)N/A$1.75 por 1 millón$0.0375 por 1 millón
Context caching (Almacenamiento)N/A$4.50 por 1 millón/hora$1.00 por 1 millón/hora
Tuning priceNo disponibleNo disponibleEl tuning es gratis
Usado para mejorar productosNoNoNo

Aplicaciones Comunes

FuncionalidadDescripción
Búsqueda semánticaEncontrar documentos o frases que sean semánticamente similares a una consulta.
Traducción automáticaAlinear o traducir palabras y frases en diferentes idiomas con alta precisión.
Resumen de textoIdentificar y condensar las partes más importantes de un texto en resúmenes concisos.
Generación de textoCrear contenido nuevo, como poemas, artículos, correos electrónicos, ensayos, guiones o código.
Respuesta a preguntasProporcionar respuestas informativas y detalladas a una amplia gama de preguntas.
Creatividad mejoradaGenerar contenido más creativo y original, como poemas, guiones o código.
Aplicaciones a gran escalaAdecuado para procesar grandes cantidades de datos, como análisis de sentimientos o generación de resúmenes.
Chatbots y asistentes virtualesIdeal para mantener conversaciones coherentes y rápidas en aplicaciones de chat.
Creación de imágenesA partir de una descripción textual, generar imágenes realistas y coherentes.
Mayor comprensiónDemuestra una mejor comprensión de los matices del lenguaje y contexto para tareas más sofisticadas.
Aplicaciones más diversasVersatilidad para una amplia gama de aplicaciones, desde la atención al cliente hasta la investigación científica.

Tiempos de integración en código

Google Gemini ofrece una API con sus datos y métodos que puedes usar. A diferencia de OpenAI, no llamas un ID de modelo, sino que configuras un modelo interno.

const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);

const getModal1 = () => {
return genAI.getGenerativeModel({
model: "gemini-1.5-flash",
systemInstruction: "Responde en español, en respuesta agrega la contestación de la IA, en puntaje_general dame un puntaje de contestación de 1 a 10 verificando ortografía, en Evalua, en tu_mensaje agrega el mensaje que te envíe, en comentarios_mejora solo agrega un mensaje donde podría mejorar con un máximo de 20 caracteres.",
});
}

const GetGenerationConfig = () => {
return {
temperature: 1,
topP: 0.95,
topK: 64,
maxOutputTokens: 8192,
responseMimeType: "application/json",
responseSchema: {
type: "object",
properties: {
respuesta: {
type: "string"
},
puntaje_general: {
type: "number"
},
Evalua: {
type: "object",
properties: {
tu_mensaje: {
type: "string"
},
comentarios_mejora: {
type: "string"
}
},
required: [
"tu_mensaje",
"comentarios_mejora"
]
}
},
required: [
"respuesta",
"puntaje_general",
"Evalua"
]
},
}
}

Puedes realizar las pruebas desde el entorno de entrenamiento y luego pasarlas al código que tienes.

Consulta la documentación de la API para más detalles.

También puedes crear tu API key desde Google AI Studio, pero recuerda que esto entra en la política de Google Cloud. Para revisar tu facturación, visita Google Cloud Facturación.

ModeloTiempo de entrenamiento
Texto, Chat25 horas
Archivos30 horas

Tiempos de entrenamiento

ModeloTiempo de entrenamiento
Texto (Gemini 1.5 Pro / 1.5 Flash)5 a 30 Horas

Gemini vs ChatGPT
A diferencia de ChatGPT, Gemini permite obtener código directamente basado en tu configuración a través de Google API Studio.

Ejemplo 1

Además, ofrece la posibilidad de configurar un archivo JSON o funciones específicas para personalizar los resultados.

Ejemplo 2

Versiones de Gemini

Gemini 1.0 Pro

  • No permite agregar instrucciones ni realizar configuraciones personalizadas.
  • Funciona como un chat general.
  • Límite de tokens: 30,720.

Gemini 1.5 Pro

  • Permite agregar instrucciones y configurar un archivo JSON según sea necesario.
  • Se pueden agregar funciones adicionales.
  • Es más rápido que la versión 1.0.
  • Límite de tokens: 2,097,152.

Gemini 1.5 Flash

  • Incluye soporte para instrucciones y configuración de archivos JSON cuando sea necesario.
  • Permite agregar funciones personalizadas.
  • Velocidad de procesamiento mejorada.
  • Límite de tokens: 1,048,576.

Demo

Conclusion