La visión por computadora que convierte un teléfono en un coach que ve.
Para una startup de sports tech en EE.UU. estamos construyendo la capa de visión por machine learning de su app de entrenamiento: modelos que leen video en vivo del teléfono durante la práctica real, evalúan la técnica del atleta y el resultado de cada repetición en tiempo real, y alimentan el coaching y la competencia sobre los que se apoya todo el producto.
La mayoría de las apps te dicen qué pasó. Lo difícil es explicar por qué.
Un montón de apps de entrenamiento pueden decirte el resultado de una repetición. El producto que estamos construyendo va más allá: hace de coach. Y para coachear, la app tiene que leer <b>cómo se vio realmente el movimiento</b> —la técnica y la mecánica del atleta—, no solo si la repetición salió. Ese es un problema de ML genuinamente difícil, y es sobre el que se para todo el producto.
Más difícil todavía: esto tiene que andar con un teléfono apoyado en un trípode durante la práctica real, <b>no con un rig de laboratorio con luz controlada y cámaras fijas</b>. Distintos ángulos, distinta luz, distintos entornos, y feedback que tiene que llegar entre repeticiones, no minutos después. Leer el video así de bien, así de rápido, sobre hardware de consumo, era la capa que todavía no existía.
Una capa de visión que lee mecánica y resultado.
No un demo que anda en un rincón. Un sistema de visión por computadora en tiempo real —modelos más el pipeline que los rodea— hecho para correr en un teléfono en la cancha y alimentar todo lo que hace el producto.
Leer el movimiento
Estamos construyendo los modelos que siguen el cuerpo del atleta y el movimiento a lo largo de cada repetición: capturan cómo se vio la técnica, frame por frame, para que la app pueda evaluar la mecánica y no solo contar resultados.
Qué pasó, y cómo
La capa de visión detecta los dos lados de cada repetición: el resultado —qué pasó— y la mecánica —cómo se ejecutó el movimiento—. Leer ambos es lo que le permite al producto explicar por qué una repetición salió como salió.
Hecho para el teléfono, en la cancha
Los modelos corren sobre video en vivo de un teléfono en trípode —luz, ángulos y entornos variados— y devuelven su lectura lo bastante rápido para que el feedback llegue entre repeticiones, dentro de una sesión real, no después.
La capa sobre la que se para todo
La instrucción, el feedback de coaching con IA y la capa de competencia gamificada dependen todos de lo que la cámara entiende. Estamos construyendo la capa de visión como la base sobre la que se apoyan esas experiencias: si la hacés bien, el resto del producto se vuelve posible.
Integrados con los fundadores, construido para que sea suyo.
Definir qué hay que ver
Trabajamos con el equipo fundador para precisar qué tiene que leer realmente la capa de visión en cada repetición —la mecánica que importa y el resultado que cuenta— y qué significa suficientemente bueno en la cancha.
Construir los modelos
Estamos construyendo y entrenando los modelos de visión contra footage de práctica real —la luz, los ángulos y los entornos desprolijos que de verdad ve un teléfono en trípode—, no condiciones limpias de laboratorio.
Hacerlo en tiempo real
Afinamos los modelos y el pipeline que los rodea para que la lectura sea lo bastante rápida y confiable como para alimentar el feedback de coaching entre repeticiones, en vivo, sobre hardware de consumo.
Construir para transferir
Los modelos y el pipeline están construidos para que el equipo del cliente sea su dueño y los itere, de modo que puedan seguir mejorando la capa de visión junto con su propio roadmap de producto.
Una cámara que entiende la sesión entera.
A medida que avanza el trabajo, la capa de visión se vuelve aquello sobre lo que el producto puede apoyarse: un teléfono que no solo graba una sesión sino que la entiende —que lee la técnica del atleta y el resultado de cada repetición lo bastante bien como para que la app pueda explicar por qué, y no solo reportar qué—. Esa lectura es lo que convierte la instrucción, el feedback y la competencia de features en un coach.
Estamos integrados con el equipo fundador y construyendo junto con su roadmap, y estamos construyendo los modelos y el pipeline para que sean suyos. La capa de visión se está construyendo para que el equipo del cliente pueda ser dueño y seguir iterándola a medida que el producto crece. Nosotros construimos la capa; ellos quedan listos para correrla.
Si tu producto depende de leer bien el video, hablemos.
Agendá una llamada de 30 minutos. Mapeamos qué necesita ver tu app, qué llevaría construir visión por computadora en tiempo real sobre hardware de consumo, y cómo dejar a tu equipo listo para ser dueño.