[AI | ML] [HPE] Landmarks 정보 (2D, 3D) 선택에 대한 고찰
서론
인공지능(AI)과 머신러닝(ML) 분야에서, HPE(Human Pose Estimation)는 컴퓨터 비전과 동작 분석에 있어 매우 중요한 역할을 합니다. 특히, 인간의 다양한 동작을 추적하고 분석하는 데 있어 Landmark 정보는 필수적입니다. HPE는 2D 또는 3D로 신체의 관절 위치 정보를 수집할 수 있는데, 이 두 방식은 성능과 적용 방식에서 큰 차이가 있습니다.
결론부터 말씀드리자면 2D보다는 3D데이터를 사용해서 분류를 하는게 더 정확도가 높습니다.
이전에 연구했었던 2D, 3D 비교에서는 2D로도 괜찮은 결과가 나와줬는데, 이번 연구에는 3D 데이터가 월등히 괜찮은 연구결과가 나왔습니다.
이전 테스트와의 차이점은 Test데이터의 다양성과 개수가 부족했는데 좀 더 복잡한 운동과 형태의 다양성을 추가해 비교따라서 이번 포스팅에서는 2D와 3D Landmarks 데이터가 HPE 모델의 정확도(Accuracy)에 어떻게 영향을 미치는지, 그리고 어떤 상황에서 3D 데이터를 사용하는 것이 더 유리한지를 다뤄보겠습니다.
본론
HPE의 Landmarks 정보란?
먼저 Landmarks 정보는 HPE 시스템이 추적하는 신체의 관절 위치입니다. 예를 들어, 팔꿈치, 무릎, 손목, 어깨 등의 좌표를 추적하여 신체의 포즈를 정의합니다. 이 정보는 2D 좌표(x, y) 또는 3D 좌표(x, y, z)로 수집될 수 있으며, 각각의 좌표 시스템은 신체의 위치를 평면 또는 공간 상에서 표현합니다.
- 2D Landmarks: 카메라의 이미지를 기반으로 신체의 각 관절을 2차원 평면에서 추적합니다.
- 3D Landmarks: 카메라 또는 깊이 센서를 사용하여 각 관절을 3차원 공간에서 추적하며, 깊이(z) 정보가 추가되어 신체의 움직임을 보다 정확하게 파악할 수 있습니다. 이번 비교 테스트에서 사용된 BlazePose에서는 신체의 기준점과 다른 관점들 간의 상대적 깊이를 나타내기 때문에 절대적인 거리나 깊이를 파악하는 데는 어렵습니다.
2D vs 3D Landmarks의 성능 비교
실제로 2D와 3D Landmarks 정보를 기반으로 포즈 인식 또는 동작 분류 모델을 학습해본 결과, 다음과 같은 성능 차이가 나타났습니다.
- 3D 데이터 사용 시 정확도(Accuracy): 95%
- 2D 데이터 사용 시 정확도(Accuracy): 50%
이 차이는 단순히 좌표의 개수가 늘어나면서 추가적인 정보가 포함되었기 때문입니다. 3D에서는 신체의 깊이(z 축) 정보가 포함되므로, 모델이 더욱 정교한 특징을 학습할 수 있게 됩니다. 반면, 2D에서는 깊이 정보가 빠져 있기 때문에 신체의 자세나 특정 동작을 올바르게 인식하지 못하는 경우가 빈번하게 발생합니다
- 왜 3D Landmarks가 더 정확한가?
- 추가된 깊이 정보:
- 3D 데이터는 깊이 정보가 포함되어 있어, 모델이 신체의 위치뿐만 아니라 각 관절이 공간 상에서 얼마나 떨어져 있는지까지 파악할 수 있습니다. 예를 들어, 팔을 앞으로 내밀었는지 또는 몸 옆에 붙였는지는 2D에서는 구분이 어려울 수 있지만, 3D에서는 정확히 구분할 수 있습니다. 이는 특히 스쿼트, 팔 굽혀 펴기 같은 동작에서 중요한 차이를 만듭니다.
- 정확한 거리 측정:
- 3D 데이터는 신체 각 관절 사이의 거리를 보다 정확하게 측정할 수 있습니다. 이러한 정보는 특정 동작을 구분할 때 매우 중요한 역할을 합니다. 예를 들어, 3D에서는 손목과 발목 사이의 거리가 변화하는 것을 추적하여 동작의 형태를 더 잘 파악할 수 있습니다.
- 깊이 축에서의 변동 인식:
- 특히 운동 동작 분석이나 피트니스 측정에서, 2D 정보만으로는 특정 동작을 정확히 판단하기 어려울 수 있습니다. 예를 들어, 런지 동작에서는 앞다리와 뒷다리의 상대적인 위치가 깊이(z 축)를 통해 판단되는데, 2D 데이터만 사용하면 이 변동을 정확하게 인식하기 어렵습니다.
- 2D Landmarks의 한계
2D 데이터는 카메라의 이미지나 비디오 프레임에서 추출된 좌표만을 사용하기 때문에, 단순한 평면상에서의 정보만을 제공합니다. 이로 인해 다음과 같은 한계가 발생합니다.
- 깊이 정보 부족:
- 2D 데이터는 신체의 높이와 너비만을 제공하며, 카메라에서 얼마나 멀리 떨어져 있는지(깊이)를 알 수 없습니다. 이로 인해 신체의 실제 공간 상에서의 위치를 제대로 파악하지 못하고, 동작 간의 혼동이 발생할 수 있습니다.
- 자세 변형에 대한 민감도:
- 예를 들어, 비슷한 동작이라도 2D에서 보면 동일하게 보일 수 있습니다. 하지만 3D로 보면 각도나 거리 차이를 통해 자세의 변형을 더 정확히 파악할 수 있습니다. 이는 피트니스와 같은 정밀한 동작 분석에서 큰 차이를 가져옵니다.
- 카메라 각도에 따른 변동:
- 카메라의 각도나 위치가 달라질 때 2D 데이터는 큰 영향을 받습니다. 반면, 3D 데이터는 이러한 변동에 상대적으로 강하고 일관된 정보를 제공합니다.
아래 테스트 데이터를 그래프로 나타냈을때를 보았을 때에도 보면
같은 데이터인데도 그래프에 나타내지는게 2D(왼쪽) 사진이 더 단순해보이는 것을 확인하실 수 있고,
3D(오른쪽) 사진이 더 자세하게 나와있는 것을 확인하실 수 있습니다.
결론
2D와 3D Landmarks 데이터는 각각의 특성과 용도에 맞게 선택되어야 합니다. 3D Landmarks는 추가적인 깊이 정보를 제공하여 더 정확한 포즈 인식과 동작 분류를 가능하게 합니다. 반면, 2D Landmarks는 깊이 정보가 빠져 있기 때문에 더 제한적인 분석을 제공할 수밖에 없습니다. 특히, 피트니스, 의료, 스포츠 분석 같은 분야에서는 3D 데이터가 훨씬 더 유리한 선택이 될 수 있습니다.
3D 데이터가 더 복잡하고 비용이 많이 드는 장비를 요구할 수 있지만, 그만큼 정확한 분석과 예측을 필요로 하는 분야에서는 필수적입니다. 이번 비교를 통해 3D Landmarks의 중요성과 장점을 다시 한 번 확인할 수 있었습니다. HPE와 같은 분야에서 2D와 3D 데이터를 잘 이해하고, 적절히 선택하여 적용하는 것이 중요할 것 같습니다.