基于多目标跟踪的智能运行定时评分系统,方法和过程

日期: 2025-04-06 13:02:12|浏览: 15|编号: 99558

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

基于多目标跟踪的智能运行定时评分系统,方法和过程

[0001]

本发明涉及人工智能自动识别技术的领域,尤其是基于多目标跟踪的智能运行正时评分系统。

背景艺术:

[0002]

当前的体育赛事,例如在操场上跑步的长距离跑步,因为完整的跑步者需要在游乐场赛道上圈出多圈,并且有多个跑步者。这样,如果要获得准确的统计数据,每个跑步者都需要有一个特殊的主管来跟踪圈量计数和计时,这是非常效率的。手动圈量计数也将导致作弊或圈计数和计时错误。如果可以使用摄像机技术和计算机技术来实现每个跑步者的实时跟踪,则将大大提高效率和准确性。

技术实施元素:

[0003]

为了解决上述技术问题,本发明提供了基于多对象跟踪的智能运行正时评分系统,以及基于多对象跟踪的智能运行定时评分方法。

[0004]

一个基于多目标跟踪的智能运行定时评分系统,包括:两个超分辨率全景无线摄像机:第一个超分辨率全景无线摄像头和第二台超级分辨率全景无线相机;第一台摄像头和第二个相机设置在操场跑道两个弯道外部的对角线位置。两个摄像机之间的垂直距离距离相应的游乐场曲线的切线10米,两个相机的高度均为1.85米。

[0005]

边缘在一侧覆盖了操场跑道的外围外围,第一摄像头的边缘径向渗透到操场跑道环的中间。第二摄像头的边缘径向覆盖了第二摄像头的外围外围,径向覆盖了游乐场跑道的外围外围,第二摄像头的另一侧的边缘径向渗透到操场跑道环的中间;第一摄像头的视野和第二摄像头的视野径向渗透到操场跑道环的中间。第一摄像头的视野和第二摄像头的视野在操场跑道环的中间有重叠的区域。

[0006]

第一台摄像头和第二个相机通过无线通信网络分别将图像信息发送到无线路由器。无线路由器通过有线通信线连接到计算机,视频图像信息以及分析和处理结果通过计算机显示;第一台摄像头和第二摄像头连续收集跑步者的视频信息,并实时将其发送到无线路由器,而无线路由器接收到它并将其发送到计算机进行处理;在实时视频信息中,跑步者使用目标跟踪来识别,并实现了边界框Bbox的跟踪。

[0007]

一个基于多目标跟踪的智能运行定时评分系统,特定工作流如下:

[0008]

1)当跑步者处于起跑线时,系统启动了处理第一个相机的线程,以下简称第一个线程。第一个线程使用第一个摄像头收集视频,调用正规化的面部识别模型计算处理,并通过将其与存储在数据库中的跑步者的个人信息进行比较来确定跑步者的ID信息,同时调用多目标跟踪模型来跟踪跑步者;

[0009]

2)指定第一个相机的视野是靠近第一台相机的操场轨道曲线的起点。跑步者沿着赛道逆时针跑。当跑步者越过第一个相机的视野时,系统将启动第二个线程,并同时将跑步者的ID发送到第二个线程。第二个线程使用第二个摄像头收集视频,调用正规化的面部识别模型计算处理,并确定将跑步者的个人信息与存储在数据库中的跑步者进行比较。

同时调用跑步者的ID信息以跟踪跑步者;之后,只要跑步者越过第一相机的视场,系统就会将跑步者的ID信息发送到第二个线程。同时,第一个线程仍将运行,直到最后一个跑步者越过第一个相机的视野,第一个线程将悬挂。

[0010]

3)类似地,当跑步者越过第二摄像头的视场时,规定第二摄像头的视场是接近第二摄像机的场曲线的起点:如果第一个线程处于悬挂状态,则将唤醒第一个线程;否则,跑步者的ID将直接发送到第一个线程,并且第一个线程负责继续跟踪目标;

[0011]

4)当跑步者越过终点线时,系统会自动记录跑步者的时间,并将运行时间存储到数据库中的个人信息文件中;

[0012]

正规化的面部识别模型网络结构,其骨干网络采用残留网络,其中conv3*3@x表示3*3的卷积层,输出为x特征映射; 112

×

96

×

3的特征映射是输入到卷积层Conv3*3@64以计算的,卷积层Conv3*3@64使用3*3卷积内核,64个频道和64个输出功能映射;卷积层的特征映射输出conv3*3@64发送到卷积层conv3*3@128以计算,卷积层conv3*3@128使用3*3卷积内核,每个通道中有128个特征地图输出;从卷积层conv3*3@64和卷积层的特征映射conv3*3@128输出的功能映射输出,并将其发送到卷积层Conv3*3@256进行计算。卷积层Conv3*3@256使用3*3卷积内核,带有256个通道,并具有256个功能地图输出;来自卷积层的特征映射输出Conv3*3@128和卷积层Conv3*3@2@2@2@2@2@56的特征映射输出被添加到卷积层Conv3*3@512,然后发送到卷积层Conv3*3@512进行计算。卷积层Conv3*3@512使用3*3卷积内核,具有512个通道和512个输出特征图;从卷积层conv3*3@256中的特征映射输出添加到来自卷积层conv3*3@512的特征映射输出中以进行计算,然后发送到FCI层,即卷积层@512进行计算。 FC1是第一个完全连接的层,在整个卷积神经网络中扮演“分类器”的角色。完全连接的层FC2扮演着映射上述网络学到的“分布式特征表示”到样品标记空间的作用;完全连接的层FC2的核心操作是矩阵向量乘积y = wx:

[0013]

FC1层的输出是一个512维的特征图,FC1层的输出特征图被发送到FC2层以进行计算。 W是一个矩阵,它实现了从提取的面部特征到输出类别的转化率的可能性。 FC2层实现了从512维特征映射到模型所需的输出类别的转换。

[0014]

W矩阵的计算方法如下:

[0015] [0016]

其中LR(W)表示类之间的正规损失函数,其中C是类别总数,即要识别的类别数量,即参与3000米运行的跑步者的总数; i,j代表不同的类别,主要目的是最大程度地减少每个类别W

最近的类别W

余弦之间的距离

所有标记为I-The类别的输入图像均由骨干网络提取,并输出特征向量的群集中心;最近的类别W

它要计算所有其他类别与I类别集群中心之间的欧元风格距离,然后选择最小的距离

[0017] [0018]

(θ,w)是分类特征的空间角损失函数l

(θ,w)意味着损耗函数与类别的网络参数θ和类的聚类中心有关;其中n表示每个类的样本总数,x

指示第三

样品的特征向量,代表x

该类别的聚类中心W之间的角度; φ

我,j

代表第i-th样品的特征向量与J-th样品的特征向量之间的角度;

[0019]

假设输入图像是i

,然后通过不包含最后一个FC2的网络,获得了特征向量X

,可以使用公式表示为X

= g

θ

(我

),g

θ

代表网络模型,θ是网络模型的特定参数;

[0020]

然后,总损耗函数为:l(θ,w)= l

(θ,W)+λl

(W)

(3)

[0021]

λ是一个超参数,可调节分类特征的空间角损失函数与类之间的正则损耗函数之间的比率; λ设置为0.5;

[0022]

在计算反向传播时,使用了投影梯度优化:

[0023] [0024]

其中l是公式(3)的总损耗函数l(θ,w),α是网络模型的学习率,t代表模型的第t训练。 W是一个矩阵,可实现从提取的面部特征到输出类别概率的转换,即FC2层;

[0025]

优化的计算方法如下:

[0026]

初始图像是通过编码器二十字网络输出的,两个任务是:对象检测和REID特征提取;

[0027]

对象检测:输出候选目标中心点加热图,目标封闭框尺寸以及目标中心相对于原始图像的实际位置的偏移;

[0028]

REID特征提取是生成可以区分不同对象的功能。理想情况下,不同对象之间的距离应大于同一对象之间的距离。 REID特征提取部分是在所有候选目标的中心点输出128维的REID特征。

[0029]

REID模块的结构:该模块的输入是一张图片,并且通过骨干网络(即编码编码的网络)后,输出了272*152*256的特征映射。输出特征图按通道分为4个部分,每个部分为272*152*64,对应于P

1_0

,p

2_0

,p

3_0

,p

4_0

,然后通过自我发项机制模块,即SA模块自我,相应的输出是具有不变尺寸的特征映射P

1_1

,p

2_1

,p

3_1

,p

4_1

,然后在卷积和最大汇总操作后,提取了特征信息,输出为P

1_2

,p

2_2

,p

3_2

,p

4_2

,最后,在特征剪接操作之后,输出是特征向量P

出去

[0030]

转换后的骨干网络:输入原始图像大小为1088*608*3,其骨干网络首先被击倒4次,也就是说,最大池操作用于获得L

第272*152*3层的特征图是在另一个下采样后获得的。

8次下采样的层对应于136*76*3的特征图。一次上采样后,获得了272*152*32的特征图; l

272*152*3的特征映射通过保持分辨率的卷积操作获得了4次的倒数。 272*152*32的特征图是通过两个图的特征缝合操作获得的。

图层下示例272*152*64特征映射,依此类推,

272*152*128的4次下采样的特征图与该层相对应

该层对应于4次下采样的特征图272*152*256,

与该层相对应的272*152*512的4次下采样的特征图; l

再次对该层的8倍降采样特征图再次采样,以获得16倍的下采样特征图,为68*38*3。同样,获得了39*19*3的32倍采样特征图,并获得了19*9*3的64倍采样特征图;计算了64倍的下采样图片,并使用3*3*32卷积内核来获得39*19*32特征图。计算了32倍的下采样图片,并使用3*3*32卷积内核获得39*19*3图片。这两个39*19*32

该功能图的操作以获取39*19*64的功能图;等等;上图中的保持操作是使用3*3卷积内核来保持特征映射的大小并执行卷积操作;

[0031]

网络

The layer maps are: 4 times to 272*152*512 map, 8 times to 136*76*256 map, 16 times to 68*38*128 map, 32 times to 39*19*64 map, and then the maps are fused.融合方法是:4次下采样对应于272*152*512特征图是卷积,卷积内核为1*1*256,以获得272*152*256特征图,并且通过上采样操作获得了8次功能映射。这两个272*152*256特征图是通过操作获得的。 272*152*512的新功能映射,然后用1*1*128的卷积内核进行了272*152*512的新功能图,并获得了272*152*128的特征映射;类似地,对16倍的特征图进行了更采样,以获得272*152*128的特征图,并执行相同的操作,然后获得272*152*256的特征映射;依此类推,当使用64倍特征图执行最后一个操作时,获得的特征映射为272*152*64,最终获得的272*152*64特征图用3*3卷积内核进行了卷积,保持尺寸不变,并且输出为272*152*64;

[0032]

通过骨干网络处理后,实现了图像输入:图像输入为1088*608*3,图像输出通过骨干网络为272*152*256,输出图像为272*152*256;输出特征图按通道分为4个部分,每个部分为272*152*64;

[0033]

然后,将四个部分除以通道,将分为通道,以通过自我注意的机制来改善每个部分的特征分辨率,以便模型可以更准确地将每个跑步者与跑步者的头部,肩膀,身体躯干和4肢的相对特征区分开。

[0034]

SA模块的输入是272*152*64的功能图,分为两种方式:一个通过3*3*64的卷积内核,卷积步骤为1,在操作后,将其转换为功能映射u,其他通过5*5*5*5*5*5*5*5*64的卷积台阶,该卷积为1,并在操作中,该功能是一个特征。特征映射U和V的大小与输入的大小一致; the of the map u and map v are to form a map f, and the map f the layer to a of 1*1*64, which is added with the 1*1*64 by the layer, and a of 1*1*64, which is the 1*1*64 by the layer, and a 1*1*64的向量,即1*1*64。 1*1*32卷积内核的特征向量被卷积以实现压缩操作。压缩特征向量分别用两个1*1*32卷积内核进行卷积,并获得两个1*1*64特征向量;这两个1*1*64特征向量分别用特征u和V卷积,并相应地获得了特征地图u

'

,v

'

,特征地图u

'

和特征地图V

'

执行元素添加操作以获得最终的输出功能图。输出特征映射的大小与输入一致,即272*152*64。

[0035]

本发明提供了一个基于多目标跟踪的智能运行正时评分系统,以及基于多目标跟踪的智能运行定时评分方法。操场轨道完全包含在带有两个摄像机的相机范围中,并且两个相机无缝连接到实时摄像机。使用计算机技术计算和处理了两个摄像机输入的图片:调用正规化的面部识别模型,并通过比较存储在数据库中的跑步者的个人信息,确定了跑步者的ID信息,并在同一时间称呼跑步者,以跟踪跑步者,从而实现每个跑步者的实时跟踪和时间。

图纸的附加描述

[0036]

图1是基于本发明的多目标跟踪以及两个摄像机和一台计算机的通信电路图的智能运行正时评分系统中两个相机安装位置的图表;

[0037]

图2是基于本发明的多目标跟踪的智能运行正时评分方法的流程图;

[0038]

图3是正规化面部识别模型网络的结构图;

[0039]

图4是行人重新识别技术的REID模型的结构图;

[0040]

图5是本发明中采用的优化模型的骨干网络的示意图

[0041]

图6是本发明中采用的SA模块的结构图。

特定的实施方法

[0042]

The a based on multi- , in that it two super- : the first super- ( to as "first ") and the super- ( to as " ");其中第一个相机和第二个相机在游乐场跑道的外部对角线排列,并且特定的摄像头距游乐场曲线边缘的切线10米,相机高度为1.85米,如图1所示。

[0043]

第一摄像头的边缘覆盖区域覆盖了操场跑道的第一轨的外围外围,而第一摄像头的另一侧的边缘径向穿透了游乐场跑道环绕范围的中间。第二摄像头的边缘覆盖区域覆盖了操场跑道的第二次连续轨道的外围外围,第二摄像头的另一侧的边缘径向穿透了游乐场跑道环绕范围的中间。第一摄像头的视野和第二摄像头的视野在游乐场跑道包围范围的中间有重叠的区域;通过这种位置设置,第一台相机和第二个相机可以完全覆盖游乐场跑道的视野,如图1所示,实线是相机的视野,因此,第一和第二相机的视野共同覆盖了所有跑道并具有重叠的视野。

[0044]

图1中的虚线表示无线信号传输,箭头指出了信号传输的方向。第一台和第二个摄像头分别通过无线通信网络(该实施例中的WiFi)将图像信息发送到无线路由器,并且无线路由器通过有线通信线连接到计算机,视频图像信息以及分析和处理结果将通过计算机显示;第一和第二摄像头连续收集跑步者的视频信息,通过无线路由器接收它,然后将其发送到计算机以通过Core程序处理;在实时视频信息中,跑步者使用目标跟踪和标识来实现边界框Bbox的跟踪。

[0045]

特定过程如图2所示。本发明还提供了基于多目标跟踪的运行智能定时评分方法的特定工作流程:如下:

[0046]

1)当跑步者处于起跑线时,系统将启动线程处理第一个摄像机(以下简称第一个线程)。该线程使用第一个摄像头收集视频,调用正规化的面部识别模型,并通过将其与存储在数据库中的跑步者的个人信息进行比较来确定跑步者的ID信息,并同时调用多目标跟踪模型来跟踪跑步者;

[0047]

2)当跑步者越过第一摄像头的视野(指定第一摄像头的视野是靠近第一个摄像头轨道的曲线的起点)时,跑步者沿着轨道逆时针运行,系统将启动第二个线程,并同时将跑步者的ID发送到第二个线程。第二个线程使用第二个相机的视频来调用多目标跟踪模型,以通过系统发送的跑步者ID来实现跑步者的目标跟踪;之后,只要跑步者越过第一摄像头的视场,系统就会将跑步者的ID信息发送到第二个线程。同时,第一个线程仍将运行,直到最后一个跑步者越过第一相机的视野,第一个线程将暂停。

[0048]

3)类似地,当跑步者越过第二摄像头的视野时,规定第二摄像头的视场是距离第二摄像头轨道近距离曲线的起点。如果第一个线程处于悬浮状态,则将唤醒第一个线程;否则,跑步者的ID将直接发送到第一个线程,并且第一个线程负责继续跟踪目标;

[0049]

4)当跑步者越过终点线时,系统会自动记录跑步者的时间,并将运行时间存储到数据库中的个人信息文件中;

[0050]

正规化的面部识别模型网络结构如图3所示。正则化面部识别模型的骨干网络使用残留网络,其中“ Conv3*3@X”代表3*3卷积层,并且输出为X特征映射(例如,Conv3*3@64,表明卷积层使用3*3*3卷积,64频道和64个频道和64个输出功能,

表示每个元素的总和; W是一个矩阵,可实现从提取的面部特征到输出类别概率的转换; FC1是第一个完全连接的层,它在整个卷积神经网络中扮演“分类器”,并输出512维功能;完全连接的层FC2扮演着将学习的“分布式特征表示”映射到样品标记空间的作用;完整连接的层FC2的核心操作是矩阵向量产物y = wx,FC2层实现了从512维转换为模型所需的输出类别的转换,即W矩阵;

[0051]

W矩阵的计算方法如下:

[0052]

类之间正规化损失函数的公式如下:

[0053] [0054]

其中lr(w)代表类之间的正则损失函数,其中c是类别总数,即要识别的类别数量。在此实施例中,它是指参加3000米跑的跑步者的总数; i,j代表不同的类别,主要目的是最大程度地减少W及其最接近的类别W

余弦之间的距离;要计算所有其他类别和I类别集群中心之间的欧几里得距离,请选择最小的距离

[0055]

分类特征空间角度损失函数损失:

[0056] [0057]

其中n表示每个类的样本总数,x

代表第i-第三个样本的特征向量,代表x

该类别的聚类中心W之间的角度; φ

我,j

代表第i-th样品的特征向量与J-th样品的特征向量之间的角度;

[0058]

分类特征空间角损失函数l

(θ,w)意味着损耗函数与该类别的网络参数θ和聚类中心W有关;让输入图片成为我

,然后通过不包含最后一个FC2层的网络,获得了特征向量X

,可以使用公式表示为X

= g

θ

(我

),g

θ

代表网络模型,θ是网络模型的特定参数;

[0059]

总损耗函数为:l(θ,w)= l

(θ,W)+λl

(W)

(3)

[0060]

λ是一个超参数,可调节分类特征的空间角损失函数与类之间的正则损耗函数之间的比率:当λ更大时,该模型更加注意类之间的特征距离,这表明该模型在区分不同面孔方面具有很高的精度;当λ较小时,该模型会更多地关注同类中的特征聚类,并且该模型对同一类的识别具有很强的鲁棒性。在此实施例中,在操场的室外环境中,视频信息很容易受到光的影响。为了增加模型的鲁棒性,将λ设置为0.5;

[0061]

然后计算反向传播,并使用投影梯度优化:

[0062]

[0063]

其中l是公式(3)的总损耗函数l(θ,w),α是网络模型的学习率,t代表模型的第t训练。 W是一个矩阵,它实现了从提取的面部特征到输出类别概率的转换,即图3中的FC2层;

[0064]

传统模型:

[0065]

图像输出通过编码器码头网络是两个任务:对象检测和行人重新识别技术REID特征提取;编码器 - 编码器结构是一项在深度学习中已知的技术。

[0066]

对象检测:输出候选目标中心点的热图,目标外壳框的大小以及目标中心相对于原始地图的实际位置的偏移;

[0067]

REID目标:是生成可以区分不同对象的功能;理想情况下,不同对象之间的距离应大于同一对象之间的距离。 REID特征提取零件输出了所有候选目标的中心点的128维REID特征,因此检测零件结果表明,相应的REID功能可用;图4是里德的结构图。

[0068]

图像输入为1088*608*3,输出为272*152*256通过骨干网络(编码编码网络),输出为272*152*256。输出特征映射按通道分为4个部分。如上图所示,每个部分为272*152*64;

[0069]

本发明改变了骨干网络。新转换的模型如图5所示。在网络层之间添加了更多的缩采样层,以实现不同级别之间的更多特征融合并提高骨干网络的分辨率:

[0070]

输入原始图像大小为1088*608*3。骨干网络首先执行4次降采样,也就是说,使用最大池操作获得272*152*3图片。重复上面的下采样操作,以获得一系列降采样图片,例如8次倒倒采样,对应于136*76*3图片,16次降采样,以获得68*38*3图片,32次下采样以获得39*19*19*19*3图3图,以获得19*9*9*9*3张图片, 64倍采样的图片是反卷积的操作,3*3*32卷积内核用于获得39*19*32的特征映射; 32倍的下采样用于获得39*19*32的图片,而39*19*32卷积内核也与3*3*32卷积内核进行了卷积,并获得了39*19*32的特征图。通过这两个特征地图,获得了39*19*64的特征图;等等;上图中的保持操作是使用3*3卷积内核来保持特征映射的大小并执行卷积操作;

[0071]

我们可以在图6所示网络左侧的网络部分的最长列中获得4次下采样的特征图对应于272*152*512,8次的特征图对应于136*76*256,对应于136*76*256,倒数量对应于68*38*128*128*128*128,以及对应于39*39*39*64;然后将获得的特征地图融合;融合方法是4次下采样的特征图对应于272*152*512和1*1*1*256卷积内核卷积的功能映射为272*152*256。 8倍功能图通过操作获得了272*152*256的功能图。这两个特征地图通过操作获得了272*152*512的特征图。然后,特征图用1*1*128的卷积内核进行卷积,以获得272*152*128的特征图。还对16倍的特征映射进行了抽样,以获得272*152*128的特征映射。执行相同的操作,然后获得272*152*256的特征图。等等。当上次使用64倍特征映射执行时,功能映射为272*152*64,最后用3*3卷积内核进行卷积,保持尺寸不变,输出是272*152*64的功能映射;

[0072]

通过骨干网络处理后,将图像输入达到1088*608*3,并且通过骨干网络(编码编码网络),输出为272*152*256。如图4所示,将输出特征映射分为4个部分,每个部分为272*152*64;

[0073]

然后,分隔的四个部分通过自我发挥的机制得到改善,以便该模型可以更准确地将每个跑步者与跑步者头部,肩膀,身体躯干和4个四肢的相对特征区分开。

[0074]

如图6所示,SA(自我)模块的结构:SA模块的输入为272*152*64特殊

该图分为两种方式,通过3*3*64卷积内核和5*5*64卷积内核,卷积步长为1。计算后,将其转换为特征映射u和特征映射v。特征映射u和特征映射V的尺寸与输入大小一致;功能映射u和特征映射V添加元素以形成特征映射f。 The map f the layer to a of 1*1*64, the of 1*1*64 and the 1*1*64 by the layer. the to an of 1*1*64. The of 1*1*64 is with a of 1*1*32 to ; the is into two , each is with a of 1*1*32 to two of 1*1*64; these two of 1*1*64 are into two , one group is with the map u, and the other group is with the map v, to the map u

'

, v

'

, map u

'

and map v

'

to the final map. The size of the map is with the input map, which is 272*152*64;

[0075]

This uses face and model and and to and track human , high- multi- and .

[0076]

The above is only a of the , but the scope of the is not . Any in the art who is with the art can think of or the scope by the , and be the scope of the ; , the scope of the be based on the scope of the .

提醒:请联系我时一定说明是从101箱包皮具网上看到的!