Dominando la Indexación en MongoDB para un Rendimiento Óptimo de Consultas

La indexación en MongoDB se vuelve interesante cuando la base de datos ya no es lo suficientemente pequeña para conjeturas afortunadas. Una consulta que se sentía instantánea en desarrollo puede volverse dolorosa en producción una vez que una colección tiene millones de documentos, un tablero agrega ordenamiento, o un endpoint de API comienza a filtrar por varios campos a la vez.

El objetivo no es indexar todos los campos. Eso generalmente hace que las escrituras sean más lentas, consume memoria y disco, y aún así deja consultas importantes sin cubrir. El objetivo es entender el puñado de formas de consulta de las que realmente depende tu aplicación, y luego construir índices que coincidan con esas formas.

Entendiendo los Índices de MongoDB

En esencia, un índice es como un índice en un libro. En lugar de leer el libro completo para encontrar un tema, consultas una referencia ordenada y saltas cerca de la página correcta. Los índices de MongoDB ayudan al planificador de consultas a localizar documentos coincidentes sin escanear toda la colección. Sin un índice útil, MongoDB puede realizar un escaneo de colección, examinando documentos uno por uno hasta encontrar las coincidencias.

Los escaneos de colección no siempre son malos. Escanear una colección pequeña puede estar bien. Ejecutar un informe administrativo una vez al mes puede estar bien. Pero un escaneo de colección dentro de una ruta de solicitud de alto tráfico es diferente. Compite con lecturas y escrituras normales, empeora a medida que los datos crecen y a menudo se manifiesta como latencia impredecible.

Cómo Funcionan los Índices

MongoDB comúnmente usa índices de tipo B-tree para índices de campo normales. El detalle práctico importante es que los valores indexados se almacenan en orden. Ese orden ayuda a MongoDB con filtros de igualdad, filtros de rango y ordenamientos cuando la forma de la consulta se alinea con el índice.

Por ejemplo, un índice en { email: 1 } es perfecto para:

db.users.findOne({ email: "[email protected]" })

No es útil para:

db.users.find({ lastLoginAt: { $lt: ISODate("2025-01-01") } })

Esa segunda consulta necesita un índice que comience con lastLoginAt, o necesita escanear.

Cuándo Usar Índices

Los índices son más beneficiosos para campos que se usan frecuentemente en:

Criterios de consulta (find(), findOne()): Campos utilizados en el documento filter de tus consultas.
Criterios de ordenamiento (sort()): Campos utilizados para ordenar los resultados de tus consultas.
Campo _id: Por defecto, MongoDB crea un índice en el campo _id, asegurando unicidad y búsquedas rápidas por ID.

Sin embargo, los índices también tienen un costo:

Espacio de almacenamiento: Los índices consumen espacio en disco.
Rendimiento de escritura: Los índices deben actualizarse cada vez que se insertan, actualizan o eliminan documentos, lo que puede ralentizar las operaciones de escritura.
Presión de memoria: Las páginas de índice utilizadas con frecuencia compiten por el caché. Demasiados índices grandes pueden dificultar mantener el conjunto de trabajo en memoria.

Por lo tanto, es crucial crear índices estratégicamente, enfocándose en campos que generarán las ganancias de rendimiento más significativas para tus operaciones de lectura comunes.

Creación y Gestión de Índices

MongoDB proporciona el método createIndex() para crear índices y getIndexes() para ver los existentes. El método dropIndex() se utiliza para eliminarlos.

Creación Básica de Índices

Para crear un índice de campo único, especifica el nombre del campo y el tipo de índice (generalmente 1 para orden ascendente o -1 para descendente).

db.collection.createIndex( { fieldName: 1 } );

Ejemplo: Indexando un campo username en orden ascendente:

db.users.createIndex( { username: 1 } );

Visualización de Índices

Para ver los índices en una colección:

db.collection.getIndexes();

Ejemplo: Visualizando índices en la colección users:

db.users.getIndexes();

Esto devolverá un array de definiciones de índice, incluyendo el índice _id por defecto.

En una colección ocupada, crea índices deliberadamente. Las versiones modernas de MongoDB soportan construcciones de índice en línea en muchos casos comunes, pero las construcciones de índice aún consumen CPU, E/S de disco y memoria. En sistemas de producción, programa construcciones de índice grandes durante períodos más tranquilos y vigila el retraso de replicación si ejecutas un conjunto de réplicas.

Eliminación de Índices

Para eliminar un índice:

db.collection.dropIndex( "indexName" );

Puedes encontrar el indexName en la salida de getIndexes(). Alternativamente, puedes eliminar un índice especificando el/los campo(s) indexado(s) en el mismo formato que createIndex():

db.collection.dropIndex( { fieldName: 1 } );

Ejemplo: Eliminando el índice username:

db.users.dropIndex( "username_1" ); // Usando el nombre del índice
// O
db.users.dropIndex( { username: 1 } ); // Usando la definición del índice

Antes de eliminar un índice, verifica si algo todavía lo usa:

db.users.aggregate([{ $indexStats: {} }])

Esto muestra contadores de acceso desde que se inició el servidor. Un contador de cero es una pista, no una prueba absoluta. El servidor puede haberse reiniciado recientemente, o la consulta puede ejecutarse solo durante un trabajo semanal. Para sistemas importantes, combina $indexStats, búsqueda en el código de la aplicación, registros de consultas y un período de observación corto.

Índices Compuestos

Los índices compuestos involucran múltiples campos. El orden de los campos en un índice compuesto es crítico. MongoDB usa índices compuestos para consultas que involucran múltiples campos en las cláusulas filter o sort.

Cuándo Usar Índices Compuestos

Los índices compuestos son más efectivos cuando tus consultas frecuentemente filtran u ordenan por una combinación de campos. El índice puede satisfacer consultas que coinciden con los campos en el mismo orden en que se definen en el índice o un prefijo del índice.

Ejemplo: Considera una colección de orders con campos como userId, orderDate y status. Si consultas frecuentemente pedidos por un usuario específico y los ordenas por fecha, un índice compuesto en { userId: 1, orderDate: 1 } sería altamente beneficioso.

db.orders.createIndex( { userId: 1, orderDate: 1 } );

Este índice puede soportar eficientemente consultas como:

db.orders.find( { userId: "user123" } ).sort( { orderDate: -1 } )
db.orders.find( { userId: "user123", orderDate: { $lt: ISODate() } } )

Sin embargo, podría no ser tan efectivo para consultas que solo filtran por orderDate si userId no también se especifica, o si los campos están en un orden diferente.

El Orden de los Campos Importa

El orden de los campos en un índice compuesto determina qué patrones de consulta puede soportar bien. Una regla general útil es campos de igualdad primero, luego campos de ordenamiento, luego campos de rango. Esto a menudo se llama la guía ESR: igualdad, ordenamiento, rango. Es una guía, no una ley, pero previene muchos diseños de índice malos.

Supón que tu página de pedidos ejecuta esta consulta:

db.orders.find({
  tenantId: "t1",
  status: "paid",
  createdAt: { $gte: ISODate("2025-01-01") }
}).sort({ createdAt: -1 })

Un índice razonable podría ser:

db.orders.createIndex({ tenantId: 1, status: 1, createdAt: -1 })

tenantId y status son filtros de igualdad. createdAt soporta el ordenamiento y el rango. Si en su lugar creas { createdAt: -1, status: 1, tenantId: 1 }, MongoDB aún puede usarlo en algunos casos, pero generalmente está menos alineado con esta consulta.

Para consultas que ordenan resultados, el orden de los campos en el índice debe coincidir con el orden de los campos en la operación sort() para un rendimiento óptimo. Si una consulta incluye tanto un filtro como un ordenamiento, y el índice coincide con los campos del filtro, también se puede usar para ordenar sin un escaneo de colección separado para el ordenamiento.

Los índices compuestos también pueden servir consultas de prefijo. Un índice en { tenantId: 1, status: 1, createdAt: -1 } puede ayudar a una consulta solo en tenantId, o tenantId más status. Generalmente no puede ayudar mucho con una consulta solo en status porque status no es el campo principal.

Consultas Cubiertas

Una consulta cubierta es una consulta donde MongoDB puede satisfacer toda la consulta usando solo el índice. Esto significa que el índice contiene todos los campos que se están consultando y proyectando. Las consultas cubiertas evitan recuperar documentos de la colección en sí, lo que las hace extremadamente rápidas.

Cómo Lograr Consultas Cubiertas

Para lograr una consulta cubierta, asegúrate de que:

Tienes un índice que incluye todos los campos utilizados en el filtro de la consulta.
Incluyes solo esos campos indexados (o un subconjunto de ellos) en tu proyección.

Ejemplo: Considera una colección employees con campos name, age y city. Si tienes un índice { city: 1, age: 1 } y quieres recuperar los nombres y edades de empleados en una ciudad específica, puedes crear una consulta cubierta:

db.employees.find( { city: "New York" }, { name: 1, age: 1, _id: 0 } ).explain()

En esta consulta, city está en el índice, y name y age están incluidos en la proyección. Si el índice también contuviera name y age, sería una consulta cubierta.

Refinemos el índice y la consulta para una verdadera consulta cubierta:

// Crea un índice que incluya todos los campos necesarios para la consulta y proyección
db.employees.createIndex( { city: 1, age: 1, name: 1 } );

// Ahora, una consulta que filtra por ciudad y proyecta nombre y edad puede ser cubierta
db.employees.find( { city: "New York" }, { name: 1, age: 1, _id: 0 } )

Cuando ejecutas explain("executionStats") en esta consulta, un plan cubierto debería examinar claves de índice sin recuperar documentos completos de la colección. En muchos planes de explicación, eso significa que verás un IXSCAN sin una etapa FETCH, y totalDocsExamined debería ser 0. La salida de explain varía según la versión de MongoDB y la forma de la consulta, así que concéntrate en las etapas reales del plan y los contadores examinados en lugar de buscar una etiqueta exacta.

Las consultas cubiertas son útiles para rutas de lectura activas como autocompletado, vistas de lista pequeñas o verificaciones de permisos. Son menos útiles si la proyección incluye campos grandes, muchos campos o campos que cambian constantemente. Agregar demasiados campos a un índice solo para cubrir una consulta puede crear un índice voluminoso que perjudica el rendimiento de escritura.

Otros Tipos de Índices Importantes

MongoDB ofrece varios tipos de índices para casos de uso específicos:

Índices Multikey

Los índices multikey se crean automáticamente cuando indexas un campo de array. Te permiten consultar elementos dentro de arrays.

Ejemplo: Si tienes una colección products con un campo de array tags ["electronics", "gadgets"]:

db.products.createIndex( { tags: 1 } );

Este índice soportará consultas como db.products.find( { tags: "electronics" } ).

Los arrays requieren cuidado adicional en índices compuestos. Un índice multikey almacena entradas para elementos del array, lo que puede aumentar el tamaño del índice rápidamente. MongoDB también tiene restricciones en torno a índices compuestos multikey cuando más de un campo indexado puede contener arrays en el mismo documento. Si tu modelo de datos tiene varios arrays y filtros complejos, prueba la consulta exacta con datos representativos antes de asumir que un índice compuesto se comportará como lo hace un índice de campo escalar.

Índices de Texto

Los índices de texto soportan la búsqueda eficiente de contenido de cadenas en documentos. Se utilizan para consultas de búsqueda de texto usando el operador $text.

db.articles.createIndex( { content: "text" } );

Esto permite búsquedas como: db.articles.find( { $text: { $search: "rendimiento base de datos" } } ).

Los índices de texto son útiles para la búsqueda de texto básica, pero no son una plataforma de búsqueda completa. Si necesitas ajuste avanzado de relevancia, tolerancia a errores tipográficos, facetado, resaltado o comportamiento de búsqueda específico del idioma, MongoDB Atlas Search o un motor de búsqueda dedicado pueden ser una mejor opción.

Índices Geoespaciales

Los índices geoespaciales se utilizan para la consulta eficiente de datos geográficos usando los operadores $near, $geoWithin y $geoIntersects.

db.locations.createIndex( { loc: "2dsphere" } ); // Para índice 2dsphere

Índices Únicos

Los índices únicos imponen la unicidad para un campo o una combinación de campos. Si se inserta o actualiza un valor duplicado, MongoDB devolverá un error.

db.users.createIndex( { email: 1 }, { unique: true } );

Para tablas de usuarios en producción, normaliza antes de imponer la unicidad. Las direcciones de correo electrónico son un ejemplo común. Si tu aplicación trata [email protected] y [email protected] como el mismo usuario, almacena un campo normalizado como emailLower y pon el índice único allí. No confíes solo en el código de la aplicación para prevenir duplicados bajo concurrencia.

Índices Parciales

Los índices parciales indexan solo documentos que coinciden con una expresión de filtro. Son útiles cuando una consulta se enfoca en un subconjunto de una colección.

db.orders.createIndex(
  { tenantId: 1, createdAt: -1 },
  { partialFilterExpression: { status: "open" } }
)

Esto puede ayudar si tu aplicación lee frecuentemente pedidos abiertos y los pedidos cerrados constituyen la mayor parte de la colección. El índice es más pequeño porque excluye documentos que no coinciden con el filtro parcial. La consulta debe incluir una condición compatible para que MongoDB lo use.

Índices TTL

Los índices TTL eliminan automáticamente documentos después de un tiempo configurado. Se usan comúnmente para sesiones, tokens temporales o eventos de corta duración.

db.sessions.createIndex(
  { expiresAt: 1 },
  { expireAfterSeconds: 0 }
)

La eliminación TTL no es instantánea en el momento exacto de expiración. MongoDB elimina documentos expirados en segundo plano. Úsalo para limpieza, no para temporización de seguridad precisa donde un token debe volverse inválido inmediatamente. Tu aplicación aún debe verificar la expiración durante las lecturas.

Análisis de Rendimiento con `explain()`

Entender cómo MongoDB ejecuta tus consultas es crucial para optimizarlas. El método explain() proporciona información sobre el plan de ejecución de la consulta, incluyendo si se usó un índice y cómo.

db.collection.find( {...} ).explain( "executionStats" );

Campos clave a buscar en la salida de explain():

winningPlan.stage: Indica la etapa del plan de ejecución (por ejemplo, COLLSCAN para escaneo de colección, IXSCAN para escaneo de índice).
executionStats.totalKeysExamined: El número de claves de índice examinadas.
executionStats.totalDocsExamined: El número de documentos examinados.

Un buen plan de ejecución tendrá totalDocsExamined cercano o igual al número de documentos devueltos, y totalKeysExamined significativamente menor que el número total de documentos en la colección. Si totalDocsExamined es muy alto, o se usa COLLSCAN, sugiere que falta un índice o no se está usando de manera efectiva.

Aquí está la forma rápida en que leo un plan de explicación:

Busca COLLSCAN. Si esta es una ruta activa y la colección es grande, ese suele ser el primer problema.
Busca IXSCAN seguido de FETCH. Una recuperación es normal cuando la consulta necesita campos fuera del índice, pero el examen excesivo de documentos significa que el índice no es lo suficientemente selectivo.
Compara nReturned, totalKeysExamined y totalDocsExamined. Devolver 20 documentos después de examinar 25 claves es saludable. Devolver 20 documentos después de examinar 500,000 claves no lo es.
Vigila los ordenamientos en memoria. Si MongoDB tiene que ordenar un gran conjunto de resultados después del filtrado, un índice compuesto que soporte el ordenamiento puede ayudar.

Usa filtros realistas al probar. Un plan de explicación para tenantId: "demo" puede no coincidir con un gran inquilino con millones de documentos. La distribución de datos importa.

Un Recorrido Práctico de Diseño de Índices

Imagina una aplicación con una colección tickets. Los agentes de soporte usan una página de cola con estos filtros:

db.tickets.find({
  tenantId: "acme",
  status: "open",
  assigneeId: "u123"
}).sort({ updatedAt: -1 }).limit(50)

Comienza con la forma de la consulta, no con la lista de campos. La colección es multiinquilino, los agentes generalmente filtran por estado y asignado, y la interfaz de usuario ordena las actualizaciones más recientes primero. Un índice práctico es:

db.tickets.createIndex({
  tenantId: 1,
  status: 1,
  assigneeId: 1,
  updatedAt: -1
})

Ahora considera otra página: los gerentes ven todos los tickets abiertos, independientemente del asignado:

db.tickets.find({
  tenantId: "acme",
  status: "open"
}).sort({ updatedAt: -1 }).limit(100)

El índice anterior puede usar el prefijo { tenantId, status }, pero assigneeId está antes de updatedAt, por lo que puede no soportar el ordenamiento tan bien para esta consulta de gerente. Puede que necesites un segundo índice:

db.tickets.createIndex({
  tenantId: 1,
  status: 1,
  updatedAt: -1
})

Esa es una compensación normal. Un índice rara vez sirve perfectamente a cada pantalla. El trabajo es soportar las rutas importantes sin crear un montón de índices superpuestos que todos cuesten escrituras.

Mejores Prácticas para la Indexación en MongoDB

Indexa solo lo que necesitas: Evita crear índices en campos que rara vez se consultan u ordenan. Cada índice añade sobrecarga.
Usa índices compuestos sabiamente: Ordena los campos correctamente según los patrones de consulta. Considera los campos más selectivos primero.
Apunta a consultas cubiertas: Si el rendimiento de lectura es crítico, diseña índices para cubrir operaciones de lectura comunes.
Monitorea el uso de índices: Revisa regularmente el uso de índices usando explain() y db.collection.aggregate([{ $indexStats: {} }]) para identificar índices no utilizados o ineficientes.
Considera la selectividad del índice: Los índices en campos con baja cardinalidad (pocos valores distintos) pueden no ser tan efectivos como aquellos en campos con alta cardinalidad.
Mantén los índices pequeños: Evita incluir campos grandes o arrays en los índices a menos que sea absolutamente necesario para consultas cubiertas.
Prueba tus índices: Siempre prueba el impacto de los nuevos índices tanto en el rendimiento de lectura como de escritura bajo condiciones de carga realistas.
Elimina índices redundantes con cuidado: Si tienes { a: 1, b: 1 }, un índice separado { a: 1 } puede ser redundante para muchas cargas de trabajo. Confirma el uso antes de eliminar.
Diseña en torno a pantallas y trabajos reales: Los índices deben mapear al comportamiento de la aplicación: búsqueda de inicio de sesión, página de cola, filtro de informe, escaneo de trabajador en segundo plano.
Revisa después de cambios de esquema: Un nuevo campo, un nuevo orden de ordenamiento o un nuevo modelo de inquilino pueden hacer que un índice antiguo sea menos útil.

Cómo se Siente una Buena Indexación

Una buena indexación en MongoDB suele ser silenciosa. Las consultas importantes examinan aproximadamente la cantidad de datos que devuelven. Los ordenamientos no se desbordan en trabajo costoso. Las escrituras no se ven agobiadas por una docena de índices especulativos. Cuando una nueva característica agrega una nueva forma de consulta, la pruebas con explain("executionStats") antes de que se convierta en un incidente de producción.

El hábito práctico es simple: recopila la consulta real, diseña el índice útil más pequeño para esa forma de consulta, prueba con datos representativos y sigue verificando el uso del índice con el tiempo. Ese hábito hará más por el rendimiento de MongoDB que memorizar cada tipo de índice.