A visão computacional que transforma um celular em um coach que enxerga.
Para uma startup de sports-tech dos EUA, estamos construindo a camada de visão de machine learning do app de treino voltado ao consumidor — modelos que leem o vídeo ao vivo do celular durante o treino real, avaliam a forma do atleta e o resultado de cada repetição em tempo real, e alimentam o coaching e a competição em torno dos quais todo o produto é construído.
A maioria dos apps diz o que aconteceu. A parte difícil é explicar por quê.
Muitos apps de treino conseguem dizer o resultado de uma repetição. O produto que estamos construindo vai além: ele faz coaching. Para fazer coaching, o app precisa ler como o movimento realmente foi — a forma e a mecânica do atleta — não apenas se a repetição funcionou. Esse é um problema de ML genuinamente difícil, e é o problema sobre o qual todo o produto se apoia.
Mais difícil ainda: isso precisa funcionar em um celular apoiado num tripé durante o treino real — não em uma bancada de laboratório com iluminação controlada e câmeras fixas. Ângulos diferentes, luz diferente, ambientes diferentes, e um feedback que precisa chegar entre as repetições, não minutos depois. Ler vídeo tão bem, tão rápido, em hardware de consumo, era a camada que ainda não existia.
Uma camada de visão que lê mecânica e resultados.
Não uma demo que funciona em um cantinho. Um sistema de visão computacional em tempo real — modelos mais o pipeline ao redor deles — feito para rodar em um celular em campo e alimentar tudo o que o produto faz.
Lendo o movimento
Estamos construindo os modelos que rastreiam o corpo do atleta e o movimento ao longo de cada repetição — capturando como a forma foi, quadro a quadro, para que o app possa avaliar a mecânica e não apenas contar resultados.
O que aconteceu, e como
A camada de visão detecta os dois lados de cada repetição: o resultado — qual foi o desfecho — e a mecânica — como o movimento foi executado. Ler os dois é o que permite ao produto explicar por que uma repetição saiu do jeito que saiu.
Feito para o celular, em campo
Os modelos rodam sobre o vídeo ao vivo de um celular num tripé — iluminação, ângulos e ambientes variados — e devolvem sua leitura rápido o suficiente para que o feedback chegue entre as repetições, dentro de uma sessão de treino real, e não depois dela.
A camada sobre a qual tudo se apoia
A instrução, o feedback de coaching com IA e a camada de competição gamificada dependem todos do que a câmera entende. Estamos construindo a camada de visão como a base sobre a qual essas experiências são construídas — acerte essa parte e o resto do produto se torna possível.
Integrados aos fundadores, construindo para ser deles.
Definir o que enxergar
Trabalhamos com o time fundador para definir o que a camada de visão de fato precisa ler em cada repetição — a mecânica que importa e os resultados que contam — e o que significa bom o suficiente em campo.
Construir os modelos
Estamos construindo e treinando os modelos de visão com imagens de treino real — a iluminação, os ângulos e os ambientes bagunçados que um celular num tripé realmente enxerga — não condições limpas de laboratório.
Torná-lo em tempo real
Ajustamos os modelos e o pipeline ao redor deles para que a leitura seja rápida e confiável o suficiente para alimentar o feedback de coaching entre as repetições, ao vivo, em hardware de consumo.
Construir para transferir
Os modelos e o pipeline são construídos para serem do time do cliente e iterados por ele — para que possam continuar melhorando a camada de visão junto com o próprio roadmap do produto.
Uma câmera que entende a sessão inteira.
À medida que o trabalho continua, a camada de visão está se tornando aquilo em que o produto pode se apoiar: um celular que não apenas grava uma sessão, mas a entende — lendo a forma do atleta e o resultado de cada repetição bem o suficiente para que o app possa explicar por quê, e não apenas relatar o quê. Essa leitura é o que transforma instrução, feedback e competição de recursos em um coach.
Estamos integrados ao time fundador e construindo junto com o roadmap deles — e estamos construindo os modelos e o pipeline para serem deles. A camada de visão está sendo construída para que o time do cliente possa tê-la e continuar iterando sobre ela à medida que o produto cresce. Nós construímos a camada; eles ficam prontos para operá-la.
Se o seu produto depende de ler vídeo bem, vamos conversar.
Agende uma conversa de 30 minutos. Vamos mapear o que seu app precisa enxergar, o que seria necessário para construir visão computacional em tempo real em hardware de consumo — e como preparar seu time para tê-la.