大多数 App 告诉你发生了什么。难的部分在于解释为什么。
很多训练 App 都能告诉你一组动作的结果。我们正在共建的这款产品更进一步:它能做教练。要做教练,App 就必须读懂动作真实呈现的样子——运动员的姿态与发力机制——而不只是判断这组动作是否成功。这是一个真正困难的机器学习难题,也是整个产品赖以成立的根基。
更难的是:这一切必须在真实训练中、在架于三脚架上的手机上运行——而不是在灯光受控、相机固定的实验室设备上。角度各异、光线各异、环境各异,而且反馈必须在两组动作之间送达,不能延迟数分钟。要在消费级硬件上如此精准、如此快速地读懂视频,正是此前尚不存在的那一层。
一个能同时读懂动作机制与结果的视觉层。
这不是只能在某个角落跑通的演示。而是一套实时计算机视觉系统——模型加上围绕它们的整条流水线——专为在现场的手机上运行、并支撑产品的全部功能而构建。
读懂动作
我们正在构建用于追踪运动员身体与每组动作全程运动轨迹的模型——逐帧捕捉姿态的呈现方式,让 App 能够评判动作机制,而不只是统计结果。
发生了什么,以及如何发生
视觉层会检测每组动作的两个层面:结果——做出了怎样的成绩——以及机制——动作是如何完成的。同时读懂二者,才能让产品解释清楚一组动作为何会是那样的结果。
为现场的手机而生
这些模型运行在三脚架上手机拍摄的实时视频上——光线、角度、环境各不相同——并能足够快地给出判读结果,让反馈在两组动作之间、在真实训练过程之中送达,而非事后才到。
万物所依托的那一层
教学、AI 教练反馈以及游戏化竞赛层,全都取决于相机能理解什么。我们把视觉层构建为这些体验赖以建立的基石——把它做对,产品的其余部分才成为可能。
嵌入创始团队,为归你所有而构建。
定义要看什么
我们与创始团队一起,明确视觉层在每组动作中究竟必须读懂什么——关键的动作机制与重要的结果——以及在现场达到怎样的程度才算足够好。
构建模型
我们正基于真实训练影像构建并训练视觉模型——三脚架上的手机实际看到的杂乱光线、角度与环境——而非干净的实验室条件。
做到实时
我们调优模型以及围绕它们的流水线,让判读足够快、足够可靠,足以在消费级硬件上、在两组动作之间实时支撑起教练反馈。
为交接而构建
模型与流水线在构建时就着眼于由客户团队拥有并持续迭代——这样他们就能在推进自身产品路线图的同时,不断改进视觉层。
一部能理解整场训练的相机。
随着合作的推进,视觉层正在成为产品可以倚靠的支柱:一部手机不再只是录下一次训练,而是真正理解它——足够好地读懂运动员的姿态与每组动作的结果,让 App 能够解释为何,而不只是报告发生了什么。正是这种判读,让教学、反馈与竞赛从功能升级为一位教练。
我们深度嵌入创始团队,与他们的路线图并肩构建——并且我们在打造的模型与流水线,归他们所有。视觉层在构建之初就是为了让客户团队能够拥有它,并随产品成长持续迭代。我们构建这一层;他们则已就绪去运转它。
如果你的产品取决于把视频读懂,我们聊聊。
预约一次 30 分钟的通话。我们会一起梳理你的 App 需要看懂什么,在消费级硬件上构建实时计算机视觉需要付出什么——以及如何让你的团队具备拥有它的能力。