Reporte Gemini
¿Qué es Gemini?
Gemini es, en esencia, un modelo de lenguaje de gran tamaño (LLM). Sin embargo, lo que lo distingue es su capacidad multimodal: puede entender y generar diferentes tipos de información, no solo texto. Esta característica lo convierte en una herramienta extremadamente versátil con un amplio rango de aplicaciones.
¿Qué hace especial a Gemini?
- Multimodalidad: Trabaja con varios tipos de datos, permitiéndole realizar tareas más complejas.
- Capacidad: Es el modelo más avanzado de Google, capaz de traducir idiomas, escribir código y generar contenido creativo.
- Flexibilidad: Funciona tanto en centros de datos como en dispositivos móviles.
Aplicaciones
- Creación de contenido: Genera textos, guiones, música, etc.
- Resolución de problemas: Proporciona soluciones creativas.
- Asistencia virtual: Programa citas, responde preguntas y da recomendaciones.
¿Qué lo diferencia de otros modelos como GPT-4?
Ventajas
- Análisis de archivos: Puedes enviar cualquier archivo (audio, texto, video, CSV), y puede analizar su contenido para darte una respuesta.
- Velocidad: La respuesta es el doble de rápida.
- Costo: La facturación es por uso. Para más información, consulta Modelos y Precios.
Desventajas
- No existe una función de asistente propiamente dicha, solo chat y generación de contenido, pero se podría configurar un chat como asistente para que funcione de esa manera.
- TTS (text-to-speech) es un servicio aparte, propio de Google, que se paga de manera independiente.
Modelos y Precios
Consulta los modelos y precios actualizados al 9 de agosto de 2024.
Para revisar tu facturación, accede a Google Cloud Facturación.
Nota: El acceso solo está disponible si has generado una API key.
Claves de API
Si aún no tienes un proyecto, puedes crear uno nuevo o agregar claves de API a un proyecto existente. Todos los proyectos están sujetos a las Condiciones del Servicio de Google Cloud Platform, las cuales aceptas al crear un proyecto. El uso de la API de Gemini y Google AI Studio se rige por las Condiciones del Servicio de la API de Gemini.
Recomendación: Usa tus claves de API de manera segura. No las compartas ni las publiques en código visible al público.
Si usas la API de Gemini en un proyecto con facturación habilitada, el uso se calculará bajo un esquema de precios por uso.
Modelos Gratuitos
Funcionalidades | Text Embedding 004 | Gemini 1.0 Pro (Gratis) | Gemini 1.5 Pro (Gratis) | Gemini 1.5 Flash (Gratis) |
---|---|---|---|---|
Solicitudes por minuto (RPM) | 1,500 RPM | 15 RPM | 2 RPM | 15 RPM |
Tokens por minuto (TPM) | N/A | 32,000 TPM | 32,000 TPM | 1 millón TPM |
Solicitudes por día (RPD) | N/A | 1,500 RPD | 50 RPD | 1,500 RPD |
Precios de entrada (Tokens) | Gratis | Gratis | Gratis | Gratis |
Precios de salida (Tokens) | Gratis | Gratis | Gratis | Gratis |
Context caching | No aplicable | No aplicable | No aplicable | Gratis |
Tuning price | No aplicable | No disponible | No disponible | Gratis |
Usado para mejorar productos | Sí | Sí | Sí | Sí |
Modelos de Pago por Uso
Funcionalidades | Gemini 1.0 Pro (Pago) | Gemini 1.5 Pro (Pago) | Gemini 1.5 Flash (Pago) |
---|---|---|---|
Solicitudes por minuto (RPM) | 360 RPM | 360 RPM | 1,000 RPM |
Tokens por minuto (TPM) | 120,000 TPM | 4 millones TPM | 4 millones TPM |
Solicitudes por día (RPD) | 30,000 RPD | N/A | N/A |
Prompts hasta 128k tokens | No disponible | Disponible | Disponible |
Precios de entrada (Tokens) | $0.50 por 1 millón | $3.50 por 1 millón | $0.075 por 1 millón |
Precios de salida (Tokens) | $1.50 por 1 millón | $10.50 por 1 millón | $0.30 por 1 millón |
Context caching (Tokens) | No disponible | $0.875 por 1 millón | $0.01875 por 1 millón |
Context caching (Prompts más largos que 128k) | N/A | $1.75 por 1 millón | $0.0375 por 1 millón |
Context caching (Almacenamiento) | N/A | $4.50 por 1 millón/hora | $1.00 por 1 millón/hora |
Tuning price | No disponible | No disponible | El tuning es gratis |
Usado para mejorar productos | No | No | No |
Aplicaciones Comunes
Funcionalidad | Descripción |
---|---|
Búsqueda semántica | Encontrar documentos o frases que sean semánticamente similares a una consulta. |
Traducción automática | Alinear o traducir palabras y frases en diferentes idiomas con alta precisión. |
Resumen de texto | Identificar y condensar las partes más importantes de un texto en resúmenes concisos. |
Generación de texto | Crear contenido nuevo, como poemas, artículos, correos electrónicos, ensayos, guiones o código. |
Respuesta a preguntas | Proporcionar respuestas informativas y detalladas a una amplia gama de preguntas. |
Creatividad mejorada | Generar contenido más creativo y original, como poemas, guiones o código. |
Aplicaciones a gran escala | Adecuado para procesar grandes cantidades de datos, como análisis de sentimientos o generación de resúmenes. |
Chatbots y asistentes virtuales | Ideal para mantener conversaciones coherentes y rápidas en aplicaciones de chat. |
Creación de imágenes | A partir de una descripción textual, generar imágenes realistas y coherentes. |
Mayor comprensión | Demuestra una mejor comprensión de los matices del lenguaje y contexto para tareas más sofisticadas. |
Aplicaciones más diversas | Versatilidad para una amplia gama de aplicaciones, desde la atención al cliente hasta la investigación científica. |
Tiempos de integración en código
Google Gemini ofrece una API con sus datos y métodos que puedes usar. A diferencia de OpenAI, no llamas un ID de modelo, sino que configuras un modelo interno.
const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
const getModal1 = () => {
return genAI.getGenerativeModel({
model: "gemini-1.5-flash",
systemInstruction: "Responde en español, en respuesta agrega la contestación de la IA, en puntaje_general dame un puntaje de contestación de 1 a 10 verificando ortografía, en Evalua, en tu_mensaje agrega el mensaje que te envíe, en comentarios_mejora solo agrega un mensaje donde podría mejorar con un máximo de 20 caracteres.",
});
}
const GetGenerationConfig = () => {
return {
temperature: 1,
topP: 0.95,
topK: 64,
maxOutputTokens: 8192,
responseMimeType: "application/json",
responseSchema: {
type: "object",
properties: {
respuesta: {
type: "string"
},
puntaje_general: {
type: "number"
},
Evalua: {
type: "object",
properties: {
tu_mensaje: {
type: "string"
},
comentarios_mejora: {
type: "string"
}
},
required: [
"tu_mensaje",
"comentarios_mejora"
]
}
},
required: [
"respuesta",
"puntaje_general",
"Evalua"
]
},
}
}
Puedes realizar las pruebas desde el entorno de entrenamiento y luego pasarlas al código que tienes.
Consulta la documentación de la API para más detalles.
También puedes crear tu API key desde Google AI Studio, pero recuerda que esto entra en la política de Google Cloud. Para revisar tu facturación, visita Google Cloud Facturación.
Modelo | Tiempo de entrenamiento |
---|---|
Texto, Chat | 25 horas |
Archivos | 30 horas |
Tiempos de entrenamiento
Modelo | Tiempo de entrenamiento |
---|---|
Texto (Gemini 1.5 Pro / 1.5 Flash) | 5 a 30 Horas |
Gemini vs ChatGPT
A diferencia de ChatGPT, Gemini permite obtener código directamente basado en tu configuración a través de Google API Studio.
Además, ofrece la posibilidad de configurar un archivo JSON o funciones específicas para personalizar los resultados.
Versiones de Gemini
Gemini 1.0 Pro
- No permite agregar instrucciones ni realizar configuraciones personalizadas.
- Funciona como un chat general.
- Límite de tokens: 30,720.
Gemini 1.5 Pro
- Permite agregar instrucciones y configurar un archivo JSON según sea necesario.
- Se pueden agregar funciones adicionales.
- Es más rápido que la versión 1.0.
- Límite de tokens: 2,097,152.
Gemini 1.5 Flash
- Incluye soporte para instrucciones y configuración de archivos JSON cuando sea necesario.
- Permite agregar funciones personalizadas.
- Velocidad de procesamiento mejorada.
- Límite de tokens: 1,048,576.