Sports-tech · EUA — Caso de implementação

A visão computacional que transforma um celular em um coach que enxerga.

Para uma startup de sports-tech dos EUA, estamos construindo a camada de visão de machine learning do app de treino voltado ao consumidor — modelos que leem o vídeo ao vivo do celular durante o treino real, avaliam a forma do atleta e o resultado de cada repetição em tempo real, e alimentam o coaching e a competição em torno dos quais todo o produto é construído.

Agende uma conversa Ler o caso ↓

O ponto de partida

A maioria dos apps diz o que aconteceu. A parte difícil é explicar por quê.

A lacuna

Muitos apps de treino conseguem dizer o resultado de uma repetição. O produto que estamos construindo vai além: ele faz coaching. Para fazer coaching, o app precisa ler como o movimento realmente foi — a forma e a mecânica do atleta — não apenas se a repetição funcionou. Esse é um problema de ML genuinamente difícil, e é o problema sobre o qual todo o produto se apoia.

Mais difícil ainda: isso precisa funcionar em um celular apoiado num tripé durante o treino real — não em uma bancada de laboratório com iluminação controlada e câmeras fixas. Ângulos diferentes, luz diferente, ambientes diferentes, e um feedback que precisa chegar entre as repetições, não minutos depois. Ler vídeo tão bem, tão rápido, em hardware de consumo, era a camada que ainda não existia.

O que construímos

Uma camada de visão que lê mecânica e resultados.

Não uma demo que funciona em um cantinho. Um sistema de visão computacional em tempo real — modelos mais o pipeline ao redor deles — feito para rodar em um celular em campo e alimentar tudo o que o produto faz.

Modelos de visão

Lendo o movimento

Estamos construindo os modelos que rastreiam o corpo do atleta e o movimento ao longo de cada repetição — capturando como a forma foi, quadro a quadro, para que o app possa avaliar a mecânica e não apenas contar resultados.

Mecânica + resultados

O que aconteceu, e como

A camada de visão detecta os dois lados de cada repetição: o resultado — qual foi o desfecho — e a mecânica — como o movimento foi executado. Ler os dois é o que permite ao produto explicar por que uma repetição saiu do jeito que saiu.

Pipeline em tempo real

Feito para o celular, em campo

Os modelos rodam sobre o vídeo ao vivo de um celular num tripé — iluminação, ângulos e ambientes variados — e devolvem sua leitura rápido o suficiente para que o feedback chegue entre as repetições, dentro de uma sessão de treino real, e não depois dela.

Base do produto

A camada sobre a qual tudo se apoia

A instrução, o feedback de coaching com IA e a camada de competição gamificada dependem todos do que a câmera entende. Estamos construindo a camada de visão como a base sobre a qual essas experiências são construídas — acerte essa parte e o resto do produto se torna possível.

Como funcionou

Integrados aos fundadores, construindo para ser deles.

Definir o que enxergar

Trabalhamos com o time fundador para definir o que a camada de visão de fato precisa ler em cada repetição — a mecânica que importa e os resultados que contam — e o que significa bom o suficiente em campo.

Construir os modelos

Estamos construindo e treinando os modelos de visão com imagens de treino real — a iluminação, os ângulos e os ambientes bagunçados que um celular num tripé realmente enxerga — não condições limpas de laboratório.

Torná-lo em tempo real

Ajustamos os modelos e o pipeline ao redor deles para que a leitura seja rápida e confiável o suficiente para alimentar o feedback de coaching entre as repetições, ao vivo, em hardware de consumo.

Construir para transferir

Os modelos e o pipeline são construídos para serem do time do cliente e iterados por ele — para que possam continuar melhorando a camada de visão junto com o próprio roadmap do produto.

Resultados

Uma câmera que entende a sessão inteira.

À medida que o trabalho continua, a camada de visão está se tornando aquilo em que o produto pode se apoiar: um celular que não apenas grava uma sessão, mas a entende — lendo a forma do atleta e o resultado de cada repetição bem o suficiente para que o app possa explicar por quê, e não apenas relatar o quê. Essa leitura é o que transforma instrução, feedback e competição de recursos em um coach.

Estamos integrados ao time fundador e construindo junto com o roadmap deles — e estamos construindo os modelos e o pipeline para serem deles. A camada de visão está sendo construída para que o time do cliente possa tê-la e continuar iterando sobre ela à medida que o produto cresce. Nós construímos a camada; eles ficam prontos para operá-la.

Nome do cliente omitido por acordo. Teremos prazer em detalhar numa conversa.

Se o seu produto depende de ler vídeo bem, vamos conversar.

Agende uma conversa de 30 minutos. Vamos mapear o que seu app precisa enxergar, o que seria necessário para construir visão computacional em tempo real em hardware de consumo — e como preparar seu time para tê-la.

Agende uma conversa hello@ataraxydigital.com →