← 全部落地案例
体育科技 · 美国 — 落地案例

这套计算机视觉,把一部手机变成一位会看的教练

我们正为一家美国体育科技初创公司构建其消费级训练 App 的机器学习视觉层——这些模型会读取真实训练中手机拍摄的实时视频,实时判断运动员的动作姿态以及每一组动作的结果,并为整个产品所依托的 AI 教练与游戏化竞赛提供支撑。

01
起点

大多数 App 告诉你发生了什么。难的部分在于解释为什么

差距

很多训练 App 都能告诉你一组动作的结果。我们正在共建的这款产品更进一步:它能做教练。要做教练,App 就必须读懂动作真实呈现的样子——运动员的姿态与发力机制——而不只是判断这组动作是否成功。这是一个真正困难的机器学习难题,也是整个产品赖以成立的根基。

更难的是:这一切必须在真实训练中、在架于三脚架上的手机上运行——而不是在灯光受控、相机固定的实验室设备上。角度各异、光线各异、环境各异,而且反馈必须在两组动作之间送达,不能延迟数分钟。要在消费级硬件上如此精准、如此快速地读懂视频,正是此前尚不存在的那一层。

02
我们构建了什么

一个能同时读懂动作机制与结果的视觉层。

这不是只能在某个角落跑通的演示。而是一套实时计算机视觉系统——模型加上围绕它们的整条流水线——专为在现场的手机上运行、并支撑产品的全部功能而构建。

视觉模型

读懂动作

我们正在构建用于追踪运动员身体与每组动作全程运动轨迹的模型——逐帧捕捉姿态的呈现方式,让 App 能够评判动作机制,而不只是统计结果。

动作机制 + 结果

发生了什么,以及如何发生

视觉层会检测每组动作的两个层面:结果——做出了怎样的成绩——以及机制——动作是如何完成的。同时读懂二者,才能让产品解释清楚一组动作为何会是那样的结果。

实时流水线

为现场的手机而生

这些模型运行在三脚架上手机拍摄的实时视频上——光线、角度、环境各不相同——并能足够快地给出判读结果,让反馈在两组动作之间、在真实训练过程之中送达,而非事后才到。

产品基石

万物所依托的那一层

教学、AI 教练反馈以及游戏化竞赛层,全都取决于相机能理解什么。我们把视觉层构建为这些体验赖以建立的基石——把它做对,产品的其余部分才成为可能。

03
如何运转

嵌入创始团队,为归你所有而构建

01

定义要看什么

我们与创始团队一起,明确视觉层在每组动作中究竟必须读懂什么——关键的动作机制与重要的结果——以及在现场达到怎样的程度才算足够好。

02

构建模型

我们正基于真实训练影像构建并训练视觉模型——三脚架上的手机实际看到的杂乱光线、角度与环境——而非干净的实验室条件。

03

做到实时

我们调优模型以及围绕它们的流水线,让判读足够快、足够可靠,足以在消费级硬件上、在两组动作之间实时支撑起教练反馈。

04

为交接而构建

模型与流水线在构建时就着眼于由客户团队拥有并持续迭代——这样他们就能在推进自身产品路线图的同时,不断改进视觉层。

04
成果

一部能理解整场训练的相机。

随着合作的推进,视觉层正在成为产品可以倚靠的支柱:一部手机不再只是录下一次训练,而是真正理解它——足够好地读懂运动员的姿态与每组动作的结果,让 App 能够解释为何,而不只是报告发生了什么。正是这种判读,让教学、反馈与竞赛从功能升级为一位教练。

我们深度嵌入创始团队,与他们的路线图并肩构建——并且我们在打造的模型与流水线,归他们所有。视觉层在构建之初就是为了让客户团队能够拥有它,并随产品成长持续迭代。我们构建这一层;他们则已就绪去运转它。

应客户保密协议要求,隐去客户名称。很乐意在通话中详谈。

如果你的产品取决于把视频读懂,我们聊聊。

预约一次 30 分钟的通话。我们会一起梳理你的 App 需要看懂什么,在消费级硬件上构建实时计算机视觉需要付出什么——以及如何让你的团队具备拥有它的能力。