Reporte Gemini

¿Qué es Gemini?

Gemini es, en esencia, un modelo de lenguaje de gran tamaño (LLM). Sin embargo, lo que lo distingue es su capacidad multimodal: puede entender y generar diferentes tipos de información, no solo texto. Esta característica lo convierte en una herramienta extremadamente versátil con un amplio rango de aplicaciones.

¿Qué hace especial a Gemini?

Multimodalidad: Trabaja con varios tipos de datos, permitiéndole realizar tareas más complejas.
Capacidad: Es el modelo más avanzado de Google, capaz de traducir idiomas, escribir código y generar contenido creativo.
Flexibilidad: Funciona tanto en centros de datos como en dispositivos móviles.

Aplicaciones

Creación de contenido: Genera textos, guiones, música, etc.
Resolución de problemas: Proporciona soluciones creativas.
Asistencia virtual: Programa citas, responde preguntas y da recomendaciones.

¿Qué lo diferencia de otros modelos como GPT-4?

Ventajas

Análisis de archivos: Puedes enviar cualquier archivo (audio, texto, video, CSV), y puede analizar su contenido para darte una respuesta.
Velocidad: La respuesta es el doble de rápida.
Costo: La facturación es por uso. Para más información, consulta Modelos y Precios.

Desventajas

No existe una función de asistente propiamente dicha, solo chat y generación de contenido, pero se podría configurar un chat como asistente para que funcione de esa manera.
TTS (text-to-speech) es un servicio aparte, propio de Google, que se paga de manera independiente.

Modelos y Precios

Consulta los modelos y precios actualizados al 9 de agosto de 2024.

Para revisar tu facturación, accede a Google Cloud Facturación.

Nota: El acceso solo está disponible si has generado una API key.

Claves de API

Si aún no tienes un proyecto, puedes crear uno nuevo o agregar claves de API a un proyecto existente. Todos los proyectos están sujetos a las Condiciones del Servicio de Google Cloud Platform, las cuales aceptas al crear un proyecto. El uso de la API de Gemini y Google AI Studio se rige por las Condiciones del Servicio de la API de Gemini.

Recomendación: Usa tus claves de API de manera segura. No las compartas ni las publiques en código visible al público.

Si usas la API de Gemini en un proyecto con facturación habilitada, el uso se calculará bajo un esquema de precios por uso.

Modelos Gratuitos

Funcionalidades	Text Embedding 004	Gemini 1.0 Pro (Gratis)	Gemini 1.5 Pro (Gratis)	Gemini 1.5 Flash (Gratis)
Solicitudes por minuto (RPM)	1,500 RPM	15 RPM	2 RPM	15 RPM
Tokens por minuto (TPM)	N/A	32,000 TPM	32,000 TPM	1 millón TPM
Solicitudes por día (RPD)	N/A	1,500 RPD	50 RPD	1,500 RPD
Precios de entrada (Tokens)	Gratis	Gratis	Gratis	Gratis
Precios de salida (Tokens)	Gratis	Gratis	Gratis	Gratis
Context caching	No aplicable	No aplicable	No aplicable	Gratis
Tuning price	No aplicable	No disponible	No disponible	Gratis
Usado para mejorar productos	Sí	Sí	Sí	Sí

Modelos de Pago por Uso

Funcionalidades	Gemini 1.0 Pro (Pago)	Gemini 1.5 Pro (Pago)	Gemini 1.5 Flash (Pago)
Solicitudes por minuto (RPM)	360 RPM	360 RPM	1,000 RPM
Tokens por minuto (TPM)	120,000 TPM	4 millones TPM	4 millones TPM
Solicitudes por día (RPD)	30,000 RPD	N/A	N/A
Prompts hasta 128k tokens	No disponible	Disponible	Disponible
Precios de entrada (Tokens)	$0.50 por 1 millón	$3.50 por 1 millón	$0.075 por 1 millón
Precios de salida (Tokens)	$1.50 por 1 millón	$10.50 por 1 millón	$0.30 por 1 millón
Context caching (Tokens)	No disponible	$0.875 por 1 millón	$0.01875 por 1 millón
Context caching (Prompts más largos que 128k)	N/A	$1.75 por 1 millón	$0.0375 por 1 millón
Context caching (Almacenamiento)	N/A	$4.50 por 1 millón/hora	$1.00 por 1 millón/hora
Tuning price	No disponible	No disponible	El tuning es gratis
Usado para mejorar productos	No	No	No

Aplicaciones Comunes

Funcionalidad	Descripción
Búsqueda semántica	Encontrar documentos o frases que sean semánticamente similares a una consulta.
Traducción automática	Alinear o traducir palabras y frases en diferentes idiomas con alta precisión.
Resumen de texto	Identificar y condensar las partes más importantes de un texto en resúmenes concisos.
Generación de texto	Crear contenido nuevo, como poemas, artículos, correos electrónicos, ensayos, guiones o código.
Respuesta a preguntas	Proporcionar respuestas informativas y detalladas a una amplia gama de preguntas.
Creatividad mejorada	Generar contenido más creativo y original, como poemas, guiones o código.
Aplicaciones a gran escala	Adecuado para procesar grandes cantidades de datos, como análisis de sentimientos o generación de resúmenes.
Chatbots y asistentes virtuales	Ideal para mantener conversaciones coherentes y rápidas en aplicaciones de chat.
Creación de imágenes	A partir de una descripción textual, generar imágenes realistas y coherentes.
Mayor comprensión	Demuestra una mejor comprensión de los matices del lenguaje y contexto para tareas más sofisticadas.
Aplicaciones más diversas	Versatilidad para una amplia gama de aplicaciones, desde la atención al cliente hasta la investigación científica.

Tiempos de integración en código

Google Gemini ofrece una API con sus datos y métodos que puedes usar. A diferencia de OpenAI, no llamas un ID de modelo, sino que configuras un modelo interno.

const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);

const getModal1 = () => {
    return genAI.getGenerativeModel({
        model: "gemini-1.5-flash",
        systemInstruction: "Responde en español, en respuesta agrega la contestación de la IA, en puntaje_general dame un puntaje de contestación de 1 a 10 verificando ortografía, en Evalua, en tu_mensaje agrega el mensaje que te envíe, en comentarios_mejora solo agrega un mensaje donde podría mejorar con un máximo de 20 caracteres.",
    });
}

const GetGenerationConfig = () => {
    return {
        temperature: 1,
        topP: 0.95,
        topK: 64,
        maxOutputTokens: 8192,
        responseMimeType: "application/json",
        responseSchema: {
            type: "object",
            properties: {
                respuesta: {
                    type: "string"
                },
                puntaje_general: {
                    type: "number"
                },
                Evalua: {
                    type: "object",
                    properties: {
                        tu_mensaje: {
                            type: "string"
                        },
                        comentarios_mejora: {
                            type: "string"
                        }
                    },
                    required: [
                        "tu_mensaje",
                        "comentarios_mejora"
                    ]
                }
            },
            required: [
                "respuesta",
                "puntaje_general",
                "Evalua"
            ]
        },
    }
}

Puedes realizar las pruebas desde el entorno de entrenamiento y luego pasarlas al código que tienes.

Consulta la documentación de la API para más detalles.

También puedes crear tu API key desde Google AI Studio, pero recuerda que esto entra en la política de Google Cloud. Para revisar tu facturación, visita Google Cloud Facturación.

Modelo	Tiempo de entrenamiento
Texto, Chat	25 horas
Archivos	30 horas

Tiempos de entrenamiento

Modelo	Tiempo de entrenamiento
Texto (Gemini 1.5 Pro / 1.5 Flash)	5 a 30 Horas

Gemini vs ChatGPT
A diferencia de ChatGPT, Gemini permite obtener código directamente basado en tu configuración a través de Google API Studio.

Ejemplo 1

Además, ofrece la posibilidad de configurar un archivo JSON o funciones específicas para personalizar los resultados.

Ejemplo 2

Versiones de Gemini

Gemini 1.0 Pro

No permite agregar instrucciones ni realizar configuraciones personalizadas.
Funciona como un chat general.
Límite de tokens: 30,720.

Gemini 1.5 Pro

Permite agregar instrucciones y configurar un archivo JSON según sea necesario.
Se pueden agregar funciones adicionales.
Es más rápido que la versión 1.0.
Límite de tokens: 2,097,152.

Gemini 1.5 Flash

Incluye soporte para instrucciones y configuración de archivos JSON cuando sea necesario.
Permite agregar funciones personalizadas.
Velocidad de procesamiento mejorada.
Límite de tokens: 1,048,576.

Reporte Gemini

¿Qué es Gemini?

¿Qué hace especial a Gemini?

Aplicaciones

¿Qué lo diferencia de otros modelos como GPT-4?

Modelos y Precios

Claves de API

Modelos Gratuitos

Modelos de Pago por Uso

Aplicaciones Comunes

Tiempos de integración en código

Tiempos de entrenamiento

Versiones de Gemini

Demo

Conclusion

¿Qué es Gemini?​

¿Qué hace especial a Gemini?​

Aplicaciones​

¿Qué lo diferencia de otros modelos como GPT-4?​

Modelos y Precios​

Claves de API​

Modelos Gratuitos​

Modelos de Pago por Uso​

Aplicaciones Comunes​

Tiempos de integración en código​

Tiempos de entrenamiento​

Versiones de Gemini​

Demo​

Conclusion​

¿Qué es Gemini?

¿Qué hace especial a Gemini?

Aplicaciones

¿Qué lo diferencia de otros modelos como GPT-4?

Modelos y Precios

Claves de API

Modelos Gratuitos

Modelos de Pago por Uso

Aplicaciones Comunes

Tiempos de integración en código

Tiempos de entrenamiento

Versiones de Gemini

Demo

Conclusion