Saltar al contenido principal

MVP visión computacional Kanan

Revisando el estado actual de las tecnologías para lograr estos resultados, el área web es capaz de lograrlo, pero se tendrá que hacer una inversión importante de tiempo en la investigación y entendimiento de las tecnologías a aplicar. Entonces hay 3 posibles rutas para poder realizar el MVP.


1. Desarrollo interno

Para poder desarrollarlo internamente será necesario al menos 1 semana de investigación completa para poder tener los recursos necesarios y empezar a desarrollar el proyecto.

El impacto de la IA

Usando herramientas como Claude Code seguramente podremos hacer el MVP en tiempo récord, pero al no ser expertos en el tema que se está trabajando, hay posibilidad de que no veamos errores en el desarrollo que después nos impidan escalar o prever posibles complicaciones futuras.

Complicaciones técnicas reales que enfrentaría el equipo

Estas son las partes donde el perfil web choca de frente con lo que pide el proyecto:

Inferencia en tiempo real No es solo correr YOLO y ya. El reto es mantener el modelo corriendo frame por frame sin caídas, con latencia aceptable y optimizado para el hardware que haya en planta. Un web nunca ha tenido que pensar en rendimiento a nivel de milisegundos por frame, ese cambio de mentalidad toma tiempo.

Tracking de objetos entre frames Detectar "persona sin casco" en un frame es relativamente simple. El problema real es seguir a esa misma persona a través del tiempo, saber si ya fue contada o es nueva detección, y manejar oclusiones (cuando alguien desaparece detrás de algo). Esto requiere algoritmos que son un mundo completamente diferente al web.

Variabilidad del entorno industrial Los modelos preentrenados de YOLO funcionan bien en condiciones controladas. En planta hay reflejos, iluminación inconsistente y ángulos de cámara no ideales. Eso implica reentrenar o ajustar modelos, lo cual requiere conocimiento de datasets, anotación y fine-tuning. Es territorio de ML engineer.

Gestión del stream de video Manejar streams RTSP de cámaras industriales es distinto a cualquier cosa web: reconexión automática cuando se cae el stream, buffer management, sincronización de múltiples cámaras. Parece simple pero en producción es una fuente constante de problemas.

Lo que SÍ domina el equipo actual

  • Motor de reglas y lógica de negocio
  • APIs REST para comunicar edge con cloud
  • Dashboard y consola operativa
  • Base de datos de eventos
  • Integraciones con sistemas externos (SAP, LMS, EHS)

2. Externo

Alguien con la capacidad y conocimientos para realizar este proyecto sabe y tiene la capacidad de armar el MVP pensando hacia el futuro y la escalabilidad. Conoce los problemas que hay y cómo abordarlos incluso antes de empezar el código. No llegará a inventar la rueda ni a descubrir errores que ya conoce.


3. Híbrido ← la opción que más sentido tiene

El MVP se puede dividir en tres componentes:

ComponenteQuiénPor qué
Backend / APIs / CloudEquipo internoYa lo dominamos
CMS / Dashboard / ConsolaEquipo internoYa lo dominamos
Pipeline de visión computacionalExterno especialistaEs el cuello de botella real del proyecto

La ventaja de esto es que el especialista externo se enfoca únicamente en el componente más crítico y difícil, mientras el equipo interno avanza en paralelo con lo que ya sabe construir. Se reduce el riesgo y el tiempo total del MVP.

El especialista externo no tiene que ser alguien de planta, puede ser un freelance puntual que entregue el pipeline de detección como módulo independiente que el equipo interno conecta al resto del sistema.

Módulos para empezar

No todos los módulos del sistema tienen la misma complejidad técnica. Para el MVP tiene sentido atacar primero los que nos dan mayor valor con menor riesgo de implementación. Behavioural Safety (PPE Detection) Es el caso de uso más documentado en visión computacional industrial. Hay modelos preentrenados abundantes para detectar cascos, chalecos, guantes, etc. No hay que inventar nada desde cero.

Ergonomics MediaPipe ya resuelve la parte difícil: te entrega el skeleton humano completo. El trabajo es interpretar las poses, no construir el detector.

Zone & Access Control Técnicamente es de lo más simple. Defines un poligono en la imagen (zona restringida) y detectas si hay una persona dentro

Housekeeping / Order Detectar obstrucciones en pasillos u objetos fuera de lugar es detección de objetos estáticos, sin necesidad de tracking complejo.


Orden de ataque por complejidad

#MóduloComplejidadPor qué
1Zone & Access ControlMuy bajaGeometría básica, sin modelos especiales
2Behavioural Safety (PPE)BajaModelos preentrenados disponibles
3HousekeepingBajaDetección de objetos estáticos, sin tracking
4ErgonomicsMediaMediaPipe resuelve lo difícil, pero requiere interpretación

Lo que dejamos para después

Estos módulos quedan fuera del MVP no porque no sean importantes, sino porque su complejidad técnica los hace arriesgados para una primera versión:

  • Operación de vehículos industriales → requiere tracking robusto y confiable
  • Interacciones persona-montacargas → tracking multi-objeto en tiempo real
  • Cumplimiento de procedimientos específicos → necesita modelos entrenados a medida para cada cliente