; ; Back to previous page Show Chinese

 

無人機追蹤人臉以手控完成飛控任務

 

 

 

(一)         摘要

     研究旨在建立無人機追蹤人臉,mediapipe(是一個超快的人臉檢測解決方案,帶有6個地標和多面性支持。它是基於BlazeFace)測人臉和手的3D角度。旨在用手控制跟踪人臉來完成無人機飛行控制,將從mediapipe測試中獲得的540多個地標進行預處理,然後提取人臉的位置或角度來取費,再利用手的運動角度來決定什麼動作。

包括那些使用长短时记忆(LSTM)的网络。LSTM是一种递归神经网络,特别适合于处理连续数据,如时间序列数据或视频流。

   首先,mediapipe利用BlazePose的姿勢檢測器和後續的地標模型來估計人類的姿勢(圖2的頂部)。然後,利用推斷出的姿勢地標,我們為每隻手(2x)和臉部得出三個興趣區域(ROI)的裁剪,並採用重新裁剪模型來改善ROI.然後我們將全分辨率的輸入幀裁剪到這些ROI,並應用特定任務的臉部和手部模型來估計其相應的地標。最後,我們將所有的地標與姿勢模型的地標合併,得到完整的540多個地標。

     數據收集和標記將使用mediapipescikit-learntensorflow模塊。使用Python編程語言。

     然後用MIN_DETECTION_CONFIDENCEMIN_TRACKING_CONFIDENCE來驗證採集數據規則的準確性。希望在這個研究項目中構建的系統不會隨意檢測,並有平衡的結果

(二)         研究動機與研究問題

    無人機技術已經被國防組織和精通技術的消費者使用了相當長的一段時間,但其好處遠遠超出了這些部門。隨著無人機的普及,商業領域內許多最危險和高薪的工作已經成熟,可以被無人機技術取代。 2020年,全球新興的使用無人機的商業服務市場價值超過1270億美元,隨著越來越多的公司希望利用這些商業機會,對無人機領域的投資已經增長。無人機或無人機是一種無人駕駛的飛機,通過計算機視覺、人工智能、避物技術等技術組合進行操作。各公司正在利用無人機技術為各行業提供商業用途。1

A.              防務

軍用無人機已經使用了十多年,但更小的便攜式無人機現在正被地面部隊經常使用。自2014年以來,美國在無人機技術上的軍費開支已經從每年40億美元增加到90億美元,95個國家已經擁有某種形式的軍用無人機技術。被FLIR系統公司收購的軍用級無人機製造商Prox Dynamics公司,提供了世界各國軍隊使用的眾多偵察無人機之一。 UGVs也正被用來領導戰術行動。1

B.              應急反應

照相機技術的創新使無人機能夠用於應急響應,如路虎的Project Hero和大疆的應急響應項目。初創公司和大學也在設計用於搜索和救援的系統,如Flyability的耐碰撞無人機和代爾夫特理工大學的救護車無人機。通過擴展現有的應急基礎設施,無人機可能能夠極大地提高農村和城市地區的生存率。1

C.              人道主义援助与救灾

無人機在自然災害期間被用來評估損失,找到受害者,並提供援助。 2017年,無人機被用來幫助恢復被哈維颶風破壞的地區的電力,調查洪水地區的損失,並協助搜索和救援工作。為了監測和打擊森林火災,正在部署裝有熱成像攝像機的監視無人機,以檢測森林溫度的異常。對這項技術的需求正在增長,國防部已正式要求用無人機向受災地區分發食物和水。1

D.              安全性

保安公司正在使用無人機為工業、商業和住宅物業提供更全面的監控系統。南丁格爾保安公司使客戶能夠建立可重複的路徑,而向日葵實驗室正在研究一個自主的無人機系統,該系統將掃描可疑的活動,提醒房主注意潛在的情況,並提供數據以幫助提交警方報告。1

E.               健身運動

健身技術的目的是通過跟踪身體活動和生物統計學,使訓練和鍛煉方案更加個性化,但為了從跟踪到輔導,正在出現新的設備來提供反饋和指導。無人機可以在用戶鍛煉時跟踪他們,並收集他們鍛煉的視頻數據,從而增強數字教練的體驗。市場上有幾款消費級無人機可以被編程來跟踪它們的主人,包括FlyProXEagle SportDJIMavic Pro,以及EhangGhostdrone 2.0。對於視力受損的人來說,無人機可以使鍛煉項目更加方便,有一架原型無人機可以通過聲音引導盲人跑步者。1

MediaPipe已经扩展到包括MediaPipe TasksModel MakerStudio,可用于执行常见的ML任务,如图像分类和物体检测。这些解决方案适用于多个平台,包括安卓、网络和Python,并具有独特的优势,如较低的延迟、用户隐私和点击即走。MediaPipe正在更新其产品,提供更多的解决方案和定制的机会。MediaPipe将在2023年增加新任务,如图像分类、物体检测、文本分类、手势识别、手标检测和视觉效果。这些任务将有助于识别图像所代表的内容,检测多类物体的存在和位置,并将文本分类到一组定义的类别中。2

            自动驾驶汽车(AV)的一个重要方面是有能力通过使用传感器来复制和超越人类的感知。这将使自动驾驶汽车能够查看其周围环境,并在运行过程中做出适当的决定,以保证其乘客和周围环境的安全。为了实现这一目标,一个名为MediaPipe的姿势提取算法和一个LSTM分类模型将被结合使用,以便从视频输入中确定交通手势并进行分类。我们看到,基于一个由室内环境中的交通手势组成的数据集,所提出的模型能够取得良好的效果,该数据集由一个固定的摄像机完成。所提出的关键点检测和LSTM模型方法是解决交通手势分类问题的一个很好的方案。4

 

 

长短时记忆(LSTM)网络是一种递归神经网络,在某些类型的问题上传统的前馈神经网络有一些优势。LSTM的一些优势包括:

·                 处理序列数据LSTM特别适合于处理序列数据,如时间序列数据或视频流。它们能够学习数据中不同时间步骤之间的时间依赖关系。

·                 记忆长期依赖关系。与传统的递归神经网络相比,LSTM能够在更长的时间段内记住信息。这使它们能够根据历史数据做出更准确的预测.

·                 处理消失的和爆炸的梯度LSTM能够处理消失和爆炸梯度问题,这在传统的递归神经网络中可能发生。这使得LSTM可以在更长的数据序列上进行训练。

·                 处理不同尺度的输入LSTM能够处理不同尺度的输入,如大数和小数,而不需要进行归一化处理。

·                 处理不同类型的输入LSTM可以处理不同类型的输入,如连续和分类数据。

·                 处理嘈杂的数据LSTM对噪声具有鲁棒性,即使受到噪声的破坏,也能对数据的基本结构进行建模。3

因此,我認為將mediapipe與無人機相結合是一個很好的項目,可以幫助許多人和社會方面,我相信這個項目將對人類生活非常有用。

 

(三)         文獻回顧與探討

無人機作為監視特定環境的手段正變得越來越流行,為了了解不同領域所採用的無人機的技術狀況,已經進行了研究。遙控飛行器可用於保護、監視和救援,因此有必要研究如何識別其類型和意圖。這份關於在監控領域使用的無人機的文獻綜述是在2021年國際工程師和計算機科學家多重會議上發表的。7

由於無人機具有成本和時間效率高的特點,在軍事和商業領域越來越受歡迎。為了開發一個監控系統,必須實現認知物聯網,以溝通和分享信息。與無人機識別和跟踪移動物體的能力有關的一個研究問題是識別和跟踪之間的延遲。為了解決這個問題,Kim等人進行了一項實驗,為動態計算卸載提供可靠的結果。 YOLO9000是對YOLOv2的改進,以共同優化檢測和分類,隨後在速度方面進行改進。7

工業區的複雜性要求無人機實現室內導航的自動化。為了確保在受限環境中的安全飛行,有必要實施傳感器,如攝像頭、超聲波、激光雷達或LEDDAR。為了在室內環境中進行操作,需要自主傳感器,如用於穩定和漂浮的自主傳感器、陀螺儀、加速計、磁力計、壓電氣壓計、超聲波測距儀、立體相機、LEDDAR和實時運動系統。波的特性和在不同介質中的傳播並不能給無人機一個準確的位置。基於視覺/圖像的定位支持計算機視覺繪製全球坐標系中的項目,但在動態的室內環境中沒有得到很好的研究。7

一個擬議的解決方案包括AprilTags和通過3D BIM預先知道的坐標,這在成本和資源方面比無線網絡、UWB或基於視覺的定位相機更便宜。然而,這項不斷發展的技術的潛力受到所使用的電池功率的限制。 WilliamsYakimenko提出了一個完成任務的新概念:3架無人機進行通信和工作,當電池低於某個閾值時,相互交換,將數據損失降到最低,以最小的計算量完成任務。5

許多作者提出了各種圖像處理和機器學習(ML)技術用於手語識別。這裡討論了其中一些相關的工作。7

20世紀70年代中期,Myron W. Krueger最初提出手勢識別是一種全新的人與計算機之間的交流方法。人與計算機之間的交流的全新方法。隨著過去幾年計算機硬件和視覺系統的快速發展過去幾年裡,隨著計算機硬件和視覺系統的快速發展,它已經成為一個非常重要的研究課題。 A. A. AbdulhusseinF. A. Raheem討論瞭如何使用灰度圖像和邊緣檢測技術來檢測手勢。這種技術的缺點是這種技術的缺點是,當涉及到灰度圖像時有一些局限性,因為它們只是二維數據,很難提取出手勢的關鍵特徵。很難提取手部的關鍵特徵。 Teak-Wei ChongBoon-Giin Lee介紹了一種技術。使用躍遷運動控制器來識別手勢的技術,該技術相當昂貴,需要額外的硬件。Matteo Rinalduzzi介紹了一種技術,使用手套和幾個手部傳感器來識別不同的手勢。這些傳感器有運動檢測器,成本很高,而且由於重量的原因,手很難移動。Rajesh George RajanM.Judith Leo博士討論了一種使用深度學習的技術來識別,Kaggle上的公共數據集的幫助下,討論了使用深度學習識別ASL手勢的技術。它在數據集中採用了幾種ML算法並對每種ML算法的結果給出了分類報告。7

Aashni Hariaa, et al 使用顏色特徵和輪廓提取來確定手勢。缺點是這裡的缺點是,由於它使用了輪廓提取,所以可以用來計算播種的手指數量,而不是計算不同的手勢。 Pei Xu討論了一種使用CNN進行人機交互的實時手勢識別的方法。使用CNN進行實時手勢識別。這裡的缺點是,它沒有檢測到任何手語手勢,而是檢測了一些它檢測的是一些用於人機界面的手勢,而不是手語。 Abhishek Bet 提出了一種使用3D CNN檢測手勢的算法。然而,如何檢測帶有運動的手勢還沒有被討論。7

Gongfa Li等人解釋了一種在Kinect的幫助下使用CNN檢測手勢的方法。其缺點是的缺點是Kinect的成本很高。 Noorkholis Luthfil Hakim等人討論了一種使用3DCN識別動態手勢的方法。手勢的方法,該方法使用3DCNNLSTM。這裡的缺點是,他們沒有識別字母的手勢,而是將其用於軍事手勢。而是將其用於軍事手勢。7

Sourav BhowmickSushant KumarAnurag Kumar介紹了一種使用深度學習來識別ASL手勢的技術。深度學習來識別兩個字母的組合。這種方法的缺點是,這種技術使用靜止的圖像,很難跟踪手勢。將很難跟踪有運動的手勢。含有運動的手勢不能被準確識別。奧納蒙Pinsanoh, Yuttana Kitjaidure, Ariya Thongtawee使用一種技術,通過將畫面分為左邊和右邊。但這個過程增加了手勢特徵提取的複雜性。 Chinmaya R. Naguri, et al.介紹了一種從三維運動中檢測動態手勢的技術。該系統使用Leap運動控制器。 Kai Li, Qieshi Zhang, Jun Cheng, Jianming Liu說明瞭如何使用人機交互的手部跟踪與使用手部區域分割的手勢識別。他們將其用於手部跟踪並與手手勢識別。 Thakur等人說明了實時手語識別和語音生成。他們在論文中使用了CNN算法。這裡的缺點是他們用靜態圖像代替了有運動的標誌。圖像。從背景研究中可以看出,手勢識別的研究仍然是一個活躍的研究領域需要新的方法來有效地利用不同的和新的計算機視覺算法。7

MediaPipe是一個由谷歌開發的開源庫,為構建和部署機器學習模型提供了一個靈活而強大的框架,適用於廣泛的應用,如實時視頻分析、人機交互和增強現實。 MediaPipe被設計為跨平台、多設備和多傳感器,這意味著它可以處理大量的數據,並可以部署在廣泛的設備和平台上4

            近年來,一些研究人員利用MediaPipe為各種應用開發了多模態ML解決方案,如:

·                 計算機視覺。MediaPipe已被用於開發物體檢測、語義分割和麵部地標檢測等解決方案。研究人員還使用MediaPipe來開發視頻中的物體追踪和實時圖像增強的解決方案。

·                 人機互動。MediaPipe已被用於開發手和手勢跟踪、面部表情識別和人體姿勢估計等解決方案。

·                 音頻處理。MediaPipe已被用於開發語音識別、揚聲器識別和音頻事件檢測等解決方案。

·                 擴增現實。MediaPipe已被用於開發實時3D物體追踪、無標記追踪和手勢追踪等解決方案。4

 

總的來說,文獻表明,MediaPipe是一個強大而靈活的框架,用於建立和部署機器學習模型,以進行多模態數據處理。它為構建、測試和部署ML解決方案提供了一個通用的基礎設施,這使得實驗新想法和與他人分享模型和解決方案變得容易。此外,MediaPipe的可擴展性和跨平台能力使其適用於大規模的真實世界應用4

(四)         研究方法及步驟

一.            研究方法

 

此研究整體示意圖如下面,詳細步驟將考以下:

 

A.              無人機

·                 图像处理

圖像處理方法將產生一個四旋翼飛機的路徑規劃輸出。運動的路徑規劃。這個過程包括幾個階段,如預處理、分組和決策。這個階段包括過濾、特徵檢測和光流。特徵檢測方法將定義和跟踪圖像的重要點,如角落和邊緣。角和邊緣。 ShiTomasi的特徵檢測方法優於其他三種方法。基於檢測範圍和包含檢測到的目標的幀的比率。基於該本文中使用的特徵檢測方法是Shi-Tomasi方法。9

            Shi-Tomasi方法使用一個最小的R值,作為角和邊的質量水平的門檻值。角和邊緣的質量水平。特徵值λ1λ2代表橢圓的雙向軸值。橢圓來確定角。9

接下來,通過兩幀的特徵比較,光流方法被用於物體追踪。

第一幀中發現的特徵與第二幀中發現的相同特徵進行比較。該向量矢量是由一個物體在一個特定的像素(特徵)上的位置從幀中的一個點到不同的另一個點而得到的。幀中的一點到不同幀中的另一點,這就是所謂的物體的光流。這裡作者使用Lukas-Kanade方法作為光流的指導。9

兩幀圖像的梯度的h值是該地區的光流的矢量。Lucas-Kanade方法使我們有可能從我們的目標點產生某些環境的異常運動從我們的目標點。這種方法的缺點是,如果在搜索區域有大量未被發現的運動。為了解決這個問題,該方法通過將LK算法發展成金字塔形狀。這個過程涉及不同分辨率的圖片,從金字塔的最高位置開始

從金字塔的最高位置(低分辨率)開始,逐漸移動到金字塔的最低位置(高分辨率)。高分辨率的金字塔最低位置(高清圖像)。

從預處理階段開始,我們被分組到分組階段,現有的特徵將被分組。通過尋找每個特徵的平均值進行分組,並將畫面分割成四個不同的四個不同的象限。決策階段是控制無人機移動到沒有障礙物的象限的階段。障礙物。9

·                 PID Controller

超声波传感器被用作无人机的附加功能,帮助无人机确定

障碍物的存在与否。其原理是检测超声波从发射器到接收器所需的时间。从发射器到接收器的时间。要从超声波传感器中检测到障碍物,取决于许多因素,如方向、反射率等。因素,如障碍物表面对传感器的方向、反射率、曲率等,以及用于检测障碍物的阈值。障碍物表面对传感器的方向、反射、曲率等,以及用于检测接收回波的阈值。9

·                 决策制定

帶有圖像處理和超聲波傳感器的相機的規格,集成到一個基於從兩個傳感器獲得的信息的決策系統。決策算法使用兩個傳感器作為參考運動。避開障礙物的本質是如何快速地傳感器識別出無人機前面有障礙物的速度。在下面的流程圖圖1。有一個程序決策流程,說明了在某些情況下圖像處理和超聲波傳感器之間的聯繫和關係。

決策算法方法首先是由攝像機進行障礙物檢測超聲波傳感器計算出無人機前方的距離,我們設定無人機靠近障礙物的最小我們將無人機靠近障礙物的最小距離設定為50厘米。該程序分為幾個條件,在躲避障礙物,可以在圖1中看到。如果圖像處理檢測到一個障礙物,程序會識別距離是否為50厘米或更少,如果更多,那麼圖像處理信息將被用作為避障無人機的參考,但如果距離小於50厘米,則以超聲波的參考距離作為避障無人機的參考。超聲波的參考距離被用作無人機避障的參考。在其他情況下,如果圖像在其他情況下,如果圖像處理不能檢測到障礙物,它將被分為兩種情況,如果超聲波傳感器讀取的距離仍在50厘米以上,則將以超聲波作為無人機避讓的參考。如果超聲波傳感器讀取的距離仍在50厘米以上,那麼障礙物檢測過程仍在進行中。但如果障礙物仍未被探測到,但超聲波傳感器上的距離低於50厘米,那麼無人機就會利用這一信息來躲避。使用這一信息來躲避9

B.              Mediapipe

MediaPipe是一個跨平台的框架,用於建立和部署多模態(如視覺、音頻、文本)機器學習模型。它提供了一套可重複使用的組件,用於建立處理多媒體數據的端到端管道,如視頻流和圖像。 MediaPipe可用於廣泛的應用,包括物體檢測和跟踪、面部地標和手勢識別,以及手和身體姿勢的估計。

长短时记忆(LSTM)网络是一种循环神经网络(RNN),被设计用来处理连续的数据。LSTM单元的基本结构包括四个主要部分。

输入门:它控制允许流入细胞状态的信息量。

遗忘门:它控制着从上一个单元状态中被丢弃的信息量。

输出门:它控制流出单元并进入输出的信息量。

单元状态。它是一个存储单元,存储流经LSTM单元的信息

输入、遗忘和输出门由可学习的权重和偏置控制,细胞状态由以下公式更新:

LSTM单元的输出计算如下:

            一个LSTM网络通常由多个LSTM单元组成,这些单元以特定的顺序连接,如线性或分层结构。LSTM单元共享同一组参数,信息按顺序流经网络。

二.            研究步驟

 

無人機研究可能包括以下步驟:

·                 問題定義。明確定義你想通過無人機研究解決的問題或研究問題。這將指導你其餘的研究過程。

·                 文獻回顧。對該主題的現有研究進行徹底審查,包括理論和實踐研究。這將幫助你了解該領域的狀況,並確定你的研究可以解決的任何知識差距。

·                 設計和開發。為你的無人機開發一個設計,以滿足你的研究項目的要求。這可能涉及選擇和配置硬件組件,開發算法,以及整合各種軟件系統。

·                 測試和評估。進行測試和實驗,以評估你的無人機的性能。這可能涉及到飛行測試、數據收集和結果分析。

·                 數據分析。分析測試和實驗期間收集的數據,以確定你的無人機在解決研究問題方面的有效性。

·                 結果展示。以簡明扼要的方式展示你的結果,包括書面報告和視覺表現,如圖表和表格。

·                 結論和未來工作。總結你的發現和結論,並提出該領域未來工作的潛在途徑。

 

MediaPipe的研究方法通常包括以下步驟 :

·                 界定问题并确定管道的预期输出。

·                 收集和注释一个多媒体数据集,以训练和测试管道。

·                 為管道選擇和配置適當的組件,如預處理步驟和機器學習模型。

·                 使用數據集對管道進行訓練和微調。

·                 在測試集上評估管道的性能,並在必要時反復進行改進。

·                 在生產環境中部署管道並監測其性能。

·                 通過納入新的數據、模型和技術,不斷改進管道。

 

參考文獻

1.               “38 Ways Drones Will Impact Society: From Fighting War To Forecasting Weather, UAVs Change Everything” ,https://www.cbinsights.com/research/drone-impact-society-uav

2.               Introduction to mediapipe”,

https://blog.tensorflow.org/2023/02/get-inspired-in-2023-with-new-machine-learning-solutions-for-web-developers-mediapipe.html

3.               https://www.quora.com/What-are-the-advantages-of-LSTM-in-general

4.               “LSTM-based Traffic Gesture Recognition using MediaPipe Pose”https://ieeexplore.ieee.org/document/9977857

5.               “Literature Review on Drones Used in the Surveillance Field”, https://www.iaeng.org/publication/IMECS2021/IMECS2021_pp178-183.pdf

6.               “Mediapipe Holistic” https://google.github.io/mediapipe/solutions/holistic

7.               “American Sign Language Recognition for Alphabets Using MediaPipe and LSTM”, https://reader.elsevier.com/reader/sd/pii/S1877050922021378?token=9F2E46CC4D6DCF7F88E364D1B254FDF9E0729799B779F035818C63F9ACED7D42A166A7E63183E9C74E8BFA2624A32218&originRegion=us-east-1&originCreation=20230209124716

8.               https://www.researchgate.net/figure/Flowchart-of-drone-work-process_fig2_325039849

9.               “Automatic Quadcopter Control Avoiding Obstacle Using Camera with Integrated Ultrasonic Sensor”Automatic_Quadcopter_Control_Avoiding_Obstacle_Usi.pdf

10.             “introduction to LSTM Units in RNN”, https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn