体育科技 · 美国 — 落地案例

这套计算机视觉，把一部手机变成一位会看的教练。

我们正为一家美国体育科技初创公司构建其消费级训练 App 的机器学习视觉层——这些模型会读取真实训练中手机拍摄的实时视频，实时判断运动员的动作姿态以及每一组动作的结果，并为整个产品所依托的 AI 教练与游戏化竞赛提供支撑。

起点

大多数 App 告诉你发生了什么。难的部分在于解释为什么。

差距

很多训练 App 都能告诉你一组动作的结果。我们正在共建的这款产品更进一步：它能做教练。要做教练，App 就必须读懂动作真实呈现的样子——运动员的姿态与发力机制——而不只是判断这组动作是否成功。这是一个真正困难的机器学习难题，也是整个产品赖以成立的根基。

更难的是：这一切必须在真实训练中、在架于三脚架上的手机上运行——而不是在灯光受控、相机固定的实验室设备上。角度各异、光线各异、环境各异，而且反馈必须在两组动作之间送达，不能延迟数分钟。要在消费级硬件上如此精准、如此快速地读懂视频，正是此前尚不存在的那一层。

我们构建了什么

这不是只能在某个角落跑通的演示。而是一套实时计算机视觉系统——模型加上围绕它们的整条流水线——专为在现场的手机上运行、并支撑产品的全部功能而构建。

视觉模型

我们正在构建用于追踪运动员身体与每组动作全程运动轨迹的模型——逐帧捕捉姿态的呈现方式，让 App 能够评判动作机制，而不只是统计结果。

动作机制 + 结果

视觉层会检测每组动作的两个层面：结果——做出了怎样的成绩——以及机制——动作是如何完成的。同时读懂二者，才能让产品解释清楚一组动作为何会是那样的结果。

实时流水线

这些模型运行在三脚架上手机拍摄的实时视频上——光线、角度、环境各不相同——并能足够快地给出判读结果，让反馈在两组动作之间、在真实训练过程之中送达，而非事后才到。

产品基石

教学、AI 教练反馈以及游戏化竞赛层，全都取决于相机能理解什么。我们把视觉层构建为这些体验赖以建立的基石——把它做对，产品的其余部分才成为可能。

如何运转

我们与创始团队一起，明确视觉层在每组动作中究竟必须读懂什么——关键的动作机制与重要的结果——以及在现场达到怎样的程度才算足够好。

我们正基于真实训练影像构建并训练视觉模型——三脚架上的手机实际看到的杂乱光线、角度与环境——而非干净的实验室条件。

我们调优模型以及围绕它们的流水线，让判读足够快、足够可靠，足以在消费级硬件上、在两组动作之间实时支撑起教练反馈。

模型与流水线在构建时就着眼于由客户团队拥有并持续迭代——这样他们就能在推进自身产品路线图的同时，不断改进视觉层。

成果

随着合作的推进，视觉层正在成为产品可以倚靠的支柱：一部手机不再只是录下一次训练，而是真正理解它——足够好地读懂运动员的姿态与每组动作的结果，让 App 能够解释为何，而不只是报告发生了什么。正是这种判读，让教学、反馈与竞赛从功能升级为一位教练。

我们深度嵌入创始团队，与他们的路线图并肩构建——并且我们在打造的模型与流水线，归他们所有。视觉层在构建之初就是为了让客户团队能够拥有它，并随产品成长持续迭代。我们构建这一层；他们则已就绪去运转它。

应客户保密协议要求，隐去客户名称。很乐意在通话中详谈。

预约一次 30 分钟的通话。我们会一起梳理你的 App 需要看懂什么，在消费级硬件上构建实时计算机视觉需要付出什么——以及如何让你的团队具备拥有它的能力。