8.6 它是如何飞的,为什么飞的?排球运动轨迹的分割与分类
<p>How it Flies and Why it Flies? Volleyball
Trajectory Segmentation and Classification
它是如何飞的,为什么飞的?排球运动轨迹的分割与分类</p>
<p>1 引言
OBJECT检测和跟踪已经被广泛研究以促进视频分析。对于像排球和羽毛球这样的体育视频,球如何在三维(3D)空间中飞行在评估球员或球队的表现时非常重要。
在排球比赛的每个点中,球被来回击球,并且构建的3D球轨迹将是相当混乱的:
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=a9b9252476bc353c5ba43dfab266742d&amp;file=file.png" alt="" />
因此,本文章的目标集中在分析球的时空特征,并实现自动轨迹分割和分类:
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=fdb5f0f1f954b2d7167ddeebdedefd1d&amp;file=file.png" alt="" />
浅蓝色段是发球,深蓝色段是接球,绿色色段是二传。
系统流程图:
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=f4b3c8c315afe89c4a7e04963cb3d7a8&amp;file=file.png" alt="" />
输入是两个时间同步的原始视频,从两个不同的角度捕捉相同的排球比赛。通过从两个视点联合考虑球的位置,构建了三维球轨迹。给出了一个长的来回飞行轨迹,我们提出了一种基于BERT的方法,联合完成了轨迹分割和分类。
2 相关工作
作者简要回顾了排球视频分析的最新研究。Chen等人检测到了2D球轨迹,然后近似其3D对应的单视图排球序列。Chakraborty和Meher提出利用卡尔曼滤波器来寻找单视角排球视频的2D球轨迹。Takahashi等人利用四台摄像机同时拍摄了一场排球比赛,并开发了一种基于多视角视频的跟踪系统。Cheng et al.基于粒子滤波方法估计球的物理状态(3D坐标和速度)和概念状态(发球、传球或扣球)。
3 如何飞行:球体检测和轨迹构建
A.球体检测
球体检测和轨迹构造已经被广泛研究。构建球轨迹的一种方式是在第一帧检测球,然后在连续帧跟踪球。然而,排球通常移动得太快,变得模糊不清。球在被球员击中时会突然改变运动方向,通常会被球员或网挡住。因此,我们将球检测器应用到每个视频帧,而不是跟踪球。采用的对象检测器是YOLOv4。
微调过程可分为两个阶段。首先,我们在240个视频帧中手动注释球区域,并微调基础YOLOv4以获得第一个模型,称为M1。结合原始标记数据,M1的检测结果和真阴性样本,我们有更多的训练数据,可以微调M1到更强的检测器M2,这成为一个高精度排球检测器。
B.轨迹构造
为了将视频帧中的坐标映射到现实世界的坐标,我们可以估计单应矩阵,该矩阵示出视频帧上的球场与预定义的模板球场之间的平面到平面映射。但单应矩阵只能应用于地平面上的物体,不适用于空中飞行的排球。为了解决这个问题,我们从两个不同的角度同时捕捉一场排球比赛。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=d30468a1ae3f25f43ffced6c8c30475c&amp;file=file.png" alt="" />
通常我们建议设置摄像机,使两个视图之间的夹角大于30 °。如果没有进一步的分割和处理,这些3D轨迹看起来就像是杂乱点的集合。
4 为什么飞行:轨迹分类
给定一个长的3D轨迹,我们试图将它们分割成轨迹段,使得每个段都是短轨迹,而无需玩家的干预。换句话说,轨迹段从一个玩家击球开始,并且在另一个玩家击球处结束。分割轨迹具有挑战性。
核心组件是联合考虑空间信息(球的3D坐标)和时间演变(在时间上连续的帧处的3D坐标的变化)的分类器。同一个词在不同的句子中,由于语境的差异,可能会产生不同的意义。类似地,相似移动模式的轨迹段可以根据上下文具有不同的含义。</p>
<p><img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=7e7d73989bc6b9e36f33ca9635a6acd9&amp;file=file.png" alt="" />
图中所示为基于BERT模型的架构。
5 实验
A.评价数据
根据排球运动规则,排球运动的轨迹包括发球、接发球、二传、进攻、拦网和防守。本研究收集了大学生半职业排球比赛的评价数据。每场截击比赛都由两台摄像机从两个不同的视角拍摄。采用四重交叉验证方案来评估所提出的方法。在每个折叠中,模型被训练40个时期。
B.分类性能
(1)总体准确度:
我们将一个点的整个轨迹(通常包含多个轨迹段)作为输入。基于BERT的分类器的输出是每个帧属于每个类的概率。我们可以看到二传和攻击与防御混淆,并且块的分类准确率相当低。我们可以将错误检测部分归因于球和球员之间的复杂相互作用。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=b86a0ddfb2557b7745a9ad1d987ca28d&amp;file=file.png" alt="" />
(2)消融研究:
几个参数定义了基于BERT的模型,包括时空嵌入的维度(表示为#em)、自注意模块内部的前馈层的维度(#ff)、堆叠的自注意模块的数量(#samodule)以及自注意模块的头的数量(#heads)。
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=8e51759499ae7f306482895a1d90c825&amp;file=file.png" alt="" />
C.分割性能
总的来说,RMSE为32.47帧。在120 fps的视频中,分割误差仅为0.27秒左右。</p>
<p>讨论:
<img src="https://www.showdoc.com.cn/server/api/attachment/visitFile?sign=b57b715fdac23f190d6a27328c4451f3&amp;file=file.png" alt="" />
上图揭示了利用这些结果来理解比赛或战术设计的潜力。左面为3D,右面为2D。在(a)中,我们看到第一段示出了A队的球员发球(青色);第二段显示B队的球员接球(深蓝色);第三段显示另一队B的球员设置球(绿色);第四段表示B队的球员发起进攻(红色);第五段显示A队的球员防守进攻(紫色);第六段为对方A队球员持球(绿色);最后第七段显示A队的球员发起进攻(红色)。事实上,A队通过攻击绿色区域的球员来赢得积分。对于实际应用,将需要实时的球检测和轨迹分割/分类。
6 结论
基于两个摄像头从两个视点拍摄的视频,我们检测球的2D位置,然后构建3D球轨迹。出于语言模型,我们制定轨迹分类作为一个顺序分类问题。基于分类结果,分割问题也得到了解决。评估结果表明,即使在训练数据量仍然有限的情况下,也可以获得令人满意的性能。采用BERT技术可以方便战术分析和设计。</p>