【原】如何利用Tensorflow和OpenCV構(gòu)建實時對象識別程序？

小白學(xué)視覺 2021-02-10

展開全文

點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時間送達(dá)

引言

在本文中，將逐步介紹如何使用Tensorflow（TF）的新對象檢測API和Python 3中OpenCV如何輕松構(gòu)建自己的實時對象識別應(yīng)用程序。

下面是正在運(yùn)行的應(yīng)用程序：

目的與動機(jī)

Google發(fā)布了新的TensorFlow對象檢測API。第一版包含：

預(yù)先訓(xùn)練的模型（尤其是重點(diǎn)放在輕量模型上，以便它們可以在移動設(shè)備上運(yùn)行）
Jupyter筆記本示例，其中包含一個已發(fā)布的型號
非常方便的腳本，可用于例如在您自己的數(shù)據(jù)集上對模型進(jìn)行重新訓(xùn)練。

我們希望能充分理解這個新東西，并且花費(fèi)一些時間來建立一個簡單的實時對象識別演示。

目標(biāo)檢測演示

首先，我們下載了TensorFlow模型庫，然后查看了他們發(fā)布的注釋。它基本上遍歷了使用預(yù)訓(xùn)練模型的所有步驟。在他們的示例中，他們使用了“帶有Mobilenet的SSD”模型，但是我們也可以在他們稱為“ Tensorflow檢測模型”的情況下下載其他一些經(jīng)過預(yù)先訓(xùn)練的模型。這些模型是在COCO數(shù)據(jù)集上訓(xùn)練的，并隨模型速度（慢速，中度和快速）和模型性能而變化。

接下來我們要做的是運(yùn)行示例。該示例實際上有據(jù)可查。本質(zhì)上，這就是它的作用：

導(dǎo)入所需的軟件包，例如TensorFlow，PIL等。
定義一些變量，例如類別數(shù)，模型名稱等。
下載模型（.pb — protobuf）并將其加載到內(nèi)存中。
加載一些代碼，例如標(biāo)簽轉(zhuǎn)換器的索引。
通過兩張圖像測試代碼。

注意：在運(yùn)行示例之前，請注意查看設(shè)置說明。protobuf的編譯部分尤其重要：

# From tensorflow/models/research/protoc object_detection/protos/*.proto --python_out=.

然后，我們獲取了他們的代碼并進(jìn)行了相應(yīng)的修改：

刪除模型下載部分
TensorFlow會話沒有“ with”語句，因為這是一個巨大的消耗，尤其是當(dāng)每次需要在每個流之后啟動會話時
不需要PIL，因為OpenCV中的視屏流已經(jīng)存在于numpy數(shù)組中（PIL也是非常大的消耗，特別是在將其用于讀取圖像時）

然后，我們使用OpenCV將其與網(wǎng)絡(luò)攝像頭連接。那里有許多示例解釋了如何做到這一點(diǎn)，甚至是官方文檔。

通常，許多OpenCV示例的實現(xiàn)并不是真正的最佳選擇，例如，OpenCV中的某些功能受I/O限制。因此，我們不得不想出各種解決方案來解決此問題：

從網(wǎng)絡(luò)攝像機(jī)讀取幀會導(dǎo)致大量I/O。我們的想法是使用多處理庫將這部分內(nèi)容完全移到另一個Python進(jìn)程中。關(guān)于Stackoverflow的一些解釋為什么它不起作用，但我沒有對此進(jìn)行更深入的研究。在Adrian Rosebrock的網(wǎng)站“ pyimagesearch”上一個很好的示例，該示例使用線程代替，從而大大提高了我們的fps。

每次啟動應(yīng)用程序時，將凍結(jié)的模型加載到內(nèi)存中都是很大消耗。而且我們已經(jīng)為每次運(yùn)行使用了一個TF會話，但這仍然很慢。在這種情況下，我們使用了多處理庫將對象檢測部分的繁重工作轉(zhuǎn)移到多個進(jìn)程中。應(yīng)用程序的初始啟動會很慢，因為每個進(jìn)程都需要將模型加載到內(nèi)存中并啟動TF會話，但是在此之后，程序的并行性將極大提高運(yùn)行效率。

注意：如果像我們在Mac OSX上使用OpenCV 3.1，則一段時間后OpenCV的VideoCapture可能會崩潰。如果已經(jīng)存在問題，切換回OpenCV 3.0則可以解決此問題。

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程