機器視覺與AI的機會
近年來,傳統(tǒng)科技公司和新創(chuàng)公司競相將機器視覺與人工智能/機器學習結合,使其能夠超越傳感器像素數據,從而在各種應用中開創(chuàng)新的機會。這一結合的潛力巨大,相關的新創(chuàng)公司在交通運輸、制造業(yè)、醫(yī)療保健和零售等各個市場中籌集了數十億美元的資金。然而,要充分實現(xiàn)其潛力,這項技術需要應對許多挑戰(zhàn),包括提高性能和安全性,以及設計靈活性。
從根本上講,機器視覺系統(tǒng)是軟件和硬件的結合,可以以數字像素的形式捕捉和處理信息。這些系統(tǒng)可以分析圖像,并根據其編程和訓練來采取相應的行動。典型的視覺系統(tǒng)包括圖像傳感器(攝像頭和鏡頭)、圖像和視覺處理組件(視覺算法)以及SoCs(片上系統(tǒng))和網絡/通信組件。
無論是靜態(tài)圖像還是視頻數字相機,都包含圖像傳感器。汽車感測器(如激光雷達、雷達、超聲波)也能以數字像素形式提供圖像,盡管分辨率可能不同。盡管大多數人對這些類型的圖像都很熟悉,但機器也能夠“看見”熱和音頻信號數據,并分析這些數據以創(chuàng)建多維圖像。
Synopsys公司的戰(zhàn)略市場經理Ron Lowman表示:“在過去幾年中,CMOS圖像傳感器取得了顯著的改進。傳感器的帶寬不再優(yōu)化用于人類視覺,而是用于提供人工智能的價值。例如,主導視覺傳感器接口的MIPI CSI不僅提高了帶寬,還增加了智能ROI(Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度增加對人眼來說無法察覺,但對于機器視覺來說,它可以大大提高服務的價值。”
機器視覺系統(tǒng)由軟件和硬件組成,其中關鍵的組件是圖像傳感器。在過去幾年中,CMOS圖像傳感器取得了顯著的改進,這使得傳感器的帶寬不再僅僅優(yōu)化于人類視覺,而是為了提供人工智能的價值。MIPI CSI作為主要的視覺傳感器接口,不僅增加了帶寬,還增加了智能ROI(Smart Region of Interest)和更高的顏色深度等人工智能功能。雖然這些顏色深度的增加對人眼而言無法察覺,但對于機器視覺來說,它可以大大提高服務的價值。
除了圖像傳感器外,機器視覺系統(tǒng)還包括圖像和視覺處理組件以及片上系統(tǒng)和網絡/通信組件。這些組件協(xié)同工作,使機器能夠理解和解釋圖像數據。圖像和視覺處理組件包括視覺算法,它們能夠分析圖像并根據其訓練和編程進行相應的處理。此外,片上系統(tǒng)和網絡/通信組件則負責數據處理和傳輸,以實現(xiàn)機器視覺系統(tǒng)的功能。
圖 1:機器視覺系統(tǒng)包括用于執(zhí)行圖像處理和分析的硬件、軟件和芯片。 AI 通常是解決方案的一部分,并且 MV 通常連接到云。 來源:Arcturus 網絡
機器視覺是計算機視覺的一個子集,兩者在很大程度上依賴于對圖像數據的觀察來推斷信息。然而,機器視覺更加強調在工業(yè)或工廠環(huán)境中的“檢測類型”應用。Cadence公司的Tensilica Vision and AI DSPs的產品管理、市場營銷和業(yè)務拓展總監(jiān)Amol Borkar指出,機器視覺在感測方面高度依賴攝像頭。然而,“攝像頭”這個詞是個負面詞,因為我們通常熟悉的是一個能夠產生RGB圖像并在可見光譜范圍內運作的圖像傳感器。不過,根據應用的不同,這些傳感器可以在紅外線下運作,包括短波、中波、長波紅外線或熱成像等多種變體。最近還引入了對運動非常敏感的事件相機。在裝配線上,線掃描相機是與典型的快門相機略有不同的一種變體。當前的汽車、監(jiān)控和醫(yī)療等大多數應用都依賴于這些傳感器中的一個或多個,通常結合使用以實現(xiàn)比單個攝像頭或傳感器更好的感測融合結果。
機器視覺相較于人類有著更出色的視覺能力,這使得機器視覺在制造業(yè)中能夠提高生產力和品質,降低生產成本。與自動駕駛輔助系統(tǒng)(ADAS)結合使用時,機器視覺能夠接管部分駕駛功能。此外,搭配人工智能,機器視覺能夠協(xié)助分析醫(yī)學影像。
應用機器視覺的好處包括更高的可靠性和一致性,以及更大的精確度和準確度(取決于攝像頭的分辨率)。而且,與人類不同,機器在獲得例行維護的前提下不會感到疲勞。視覺系統(tǒng)的數據可以在本地或云端存儲,需要時進行實時分析。
此外,機器視覺通過檢測和篩選出有缺陷的零件,降低生產成本。同時,通過OCR(光學字符識別)和條碼掃描讀取,提高了庫存控制的效率,從而降低整體制造成本。
如今,機器視覺通常與人工智能結合使用,大大增強了數據分析的能力。在現(xiàn)代工廠中,自動化設備,包括機器人,與機器視覺和人工智能結合,以提高生產力。
機器視覺(MV)和人工智能(AI)是密切相關的領域,它們通常以各種方式進行交互。機器視覺利用攝像頭、傳感器和其他設備捕捉圖像或其他附加數據,然后將其進行處理和分析,以提取有用的信息,而人工智能則使用算法和統(tǒng)計模型來識別模式并基于大量數據進行預測。
這還可以包括深度學習技術。Arteris IP公司的產品市場副總裁Andy Nightingale表示:“深度學習是人工智能的一個子集,它涉及使用大量數據對復雜的神經網絡進行訓練,以識別模式并進行預測。”機器視覺系統(tǒng)可以使用深度學習算法來提高其在圖像或視頻中檢測和分類對象的能力。機器視覺和人工智能之間的另一種交互方式是通過使用計算機視覺算法。計算機視覺是機器視覺的一個超集,它使用算法和技術從圖像和視頻中提取信息。人工智能算法可以分析這些信息并預測場景中正在發(fā)生的事情。例如,計算機視覺系統(tǒng)可以使用人工智能算法分析交通模式并預測何時某個十字路口可能會擁堵。機器視覺和人工智能還可以在自主系統(tǒng)(如自動駕駛汽車或無人機)中進行交互。在這些應用中,機器視覺系統(tǒng)用于捕捉和處理來自傳感器的數據,而人工智能算法則解釋這些數據并對環(huán)境進行導航等決策。
人工智能在現(xiàn)代車輛中扮演著越來越多的角色,但其中兩個主要的角色是感知和決策制定。
Siemens Digital Industries Software公司的混合和虛擬系統(tǒng)副總裁David Fritz表示:“感知是通過車輛內部和外部的感測器陣列來理解周圍環(huán)境的過程。決策制定首先需要理解周圍環(huán)境的狀態(tài)和目標,例如向目的地移動。然后,人工智能根據控制方向盤、制動、加速等車輛內部致動器的方式來決定安全、有效的路線。”這兩個關鍵角色涉及到非常不同的問題。從攝像頭或其他感測器獲得的原始數據,AI算法將使用這些數據進行目標檢測。一旦檢測到目標,感知系統(tǒng)將對目標進行分類,例如該目標是否是汽車、人或動物。訓練過程非常冗長,需要大量的訓練集來展示不同角度的目標。在訓練完成后,AI網絡可以加載到數字孿生體或實體車輛中。一旦檢測到并分類了目標,另一個訓練有素的AI網絡可以進行決策,控制方向盤、制動和加速等。使用高保真度的數字孿生體來虛擬驗證這個過程已被證明比純粹使用實地測試更安全、更有效。
開發(fā)人員經常問到需要多少AI/ML。在現(xiàn)代工廠的情況下,機器視覺可以僅用于在裝配線上檢測和篩選出有缺陷的零件,或者用于組裝汽車等工序。后者需要更高級的智能和更復雜的設計,以確保裝配過程中的時機、精確度、運動和距離的計算等。
Flex Logix公司的執(zhí)行官Geoff Tate觀察到:“機器視覺和機器人在現(xiàn)代工廠中提高了生產力,許多應用中使用了人工智能。一個簡單的
應用,例如檢測標簽是否正確貼上,不需要太多智能。另一方面,進行復雜、精密的三維運動的機器人手臂需要更多的GPU算力。在第一個應用中,一個AI IP的核心將足夠,而在第二個應用中可能需要多個核心。擁有靈活且可擴展的AI IP將使機器視覺和機器人的設計更加容易。
機器視覺的應用幾乎沒有限制,只受想象力的限制。只要需要視覺和圖像處理的工業(yè)和商業(yè)領域,機器視覺都可以應用其中。以下是部分應用領域的例子:
交通領域(自動駕駛、車內監(jiān)控、交通流量分析、違規(guī)行為和事故檢測);
制造和自動化領域(生產力分析、質量管理);
監(jiān)控領域(運動和入侵檢測);
醫(yī)療領域(影像學、癌癥和腫瘤檢測、細胞分類);
農業(yè)領域(農場自動化、植物病害和昆蟲檢測);
零售領域(顧客追蹤、貨架缺貨檢測、盜竊檢測);
保險領域(通過圖像進行事故現(xiàn)場分析)。
還有許多其他應用。以飲用水或軟飲料瓶裝為例。機器視覺系統(tǒng)可以用于檢查填充水平,這通常由高效的機器人完成。但是機器人偶爾會犯錯。機器視覺可以確保填充水平一致,并確保標簽正確貼上。
檢測任何偏離測量規(guī)范限制的機器零部件也是機器視覺的一項工作。一旦機器視覺根據規(guī)范進行了訓練,它可以檢測出超出規(guī)范限制的零部件。
機器視覺可以檢測均勻的形狀,如正方形或圓形,以及奇形怪狀的零部件,因此它可以用于識別、檢測、測量、計數,并與機器人一起進行抓取和放置。
最后,通過結合人工智能,機器視覺可以實現(xiàn)輪胎組裝的精確和高效。如今,原始設備制造商(OEM)使用機器人自動化車輛組裝的過程之一是安裝四個輪胎。利用機器視覺,機器人手臂可以檢測正確的距離,并施加適當的壓力,以防止任何損壞的發(fā)生。
機器視覺技術根據處理的圖像維度可以分為一維(1D)、二維(2D)和三維(3D)。這些不同的類型在應用中具有各自的特點和優(yōu)勢。
一維機器視覺系統(tǒng)主要用于條形碼和二維碼的識別和讀取。它們通常使用掃描設備,按行掃描產品上的條形碼或二維碼,并從中提取信息。這種技術被廣泛應用于零售行業(yè)、物流和運輸領域,以實現(xiàn)快速且準確的產品識別和追蹤。
二維機器視覺系統(tǒng)可以用于更復雜的圖像處理任務。它們使用攝像頭逐行掃描物體,形成一個區(qū)域或二維圖像。這種技術可以應用于圖像分類、目標檢測、人臉識別等各種任務。在工業(yè)自動化中,二維機器視覺系統(tǒng)可以用于檢測和驗證產品的外觀特征,確保產品符合設計和質量要求。
三維機器視覺系統(tǒng)通常使用多個攝像頭或激光傳感器來捕捉物體的三維形狀和結構。這種技術可以實現(xiàn)對物體的精確定位和測量,對于需要進行三維分析和處理的應用非常重要。例如,在機器人導航和自動化領域,三維機器視覺系統(tǒng)可以用于對環(huán)境進行三維建模和障礙物檢測,實現(xiàn)更精確和安全的運動控制。
除了以上提到的類型,還有其他形式的機器視覺技術,如超光譜影像和熱像儀等。超光譜影像可以捕捉物體的不同光譜特征,擁有更豐富的信息,廣泛應用于農業(yè)、食品安全和醫(yī)療診斷等領域。熱像儀則可以檢測物體的熱能分布,用于溫度監(jiān)測、火災檢測等應用。
每種機器視覺類型都有其特定的應用場景和優(yōu)勢。根據不同的需求,選擇適合的機器視覺類型可以提高系統(tǒng)的性能和效果,實現(xiàn)更準確、高效和可靠的圖像處理和分析。
訓練機器視覺系統(tǒng)仍然存在一些挑戰(zhàn)。MV的準確性和性能取決于其訓練程度,因此需要大量的標注數據和強大的計算能力。MV設計所面臨的挑戰(zhàn)包括:
首先,檢測的范圍可能涵蓋方位、表面變化、污染程度以及直徑、厚度和間隙等精度容限。當檢測到化妝品和服務變化效應時,3D系統(tǒng)通常比1D或2D系統(tǒng)表現(xiàn)更好。然而,在遇到不尋常的情況時,人類可以借助其他領域的知識,而機器視覺和人工智能可能無法具備這種能力。
其次,數據流管理和控制是當今的關鍵挑戰(zhàn)之一,特別是在具有實時延遲要求(例如汽車應用)的情況下,同時需要保持帶寬的最小化。在基于攝像頭的系統(tǒng)中,圖像質量(IQ)至關重要。這要求硬件設計支持超寬動態(tài)范圍和局部色調映射,同時還需要進行IQ調整,傳統(tǒng)上需要由人類專家進行主觀評估,使得開發(fā)過程冗長且成本高昂。然而,對于機器視覺而言,這種專業(yè)知識可能不一定能獲得良好系統(tǒng)性能,因為感知引擎可能會根據任務的不同而更喜歡以不同于人類和其他機器之間的方式看待圖像。
此外,確保機器視覺的安全性也是一個重要問題。隨著網絡攻擊不斷增加,確保產能不受干擾或遭受來自威脅行為者的干擾至關重要。尤其在關鍵應用中,如自動駕駛等,保證機器視覺的安全性至關重要。
"安全對于確保機器視覺技術的輸出不受破壞至關重要," Arm的Zyazin表示。"汽車應用是展示硬件和軟件安全性重要性的一個很好的例子。例如,從機器中處理和提取的信息會影響到制動或車道保持輔助等決策,如果處理不當,可能對車輛內部的乘客構成風險。"
總結來說,訓練機器視覺系統(tǒng)的過程面臨著一些挑戰(zhàn)。為了提高準確性和性能,需要豐富的標注數據和強大的計算能力。同時,確保機器視覺的安全性也是一個重要問題,特別是在關鍵應用如自動駕駛中。這些挑戰(zhàn)需要在系統(tǒng)設計和實施中得到充分考慮,以實現(xiàn)可靠和高效的機器視覺應用。
新興的機器視覺(MV)創(chuàng)業(yè)公司和創(chuàng)新技術正推動著機器視覺的應用和發(fā)展。像是Airobotics、Arcturus Networks、Deep Vision AI、Hawk-Eye Innovations、Instrumental、lending AI、kinara、Mech-Mind、Megvii、NAUTO、SenseTime、Tractable、ViSenze、Viso等公司,正在開發(fā)新的機器視覺解決方案,其中一些已成功籌集了超過10億美元的資金。
在運輸領域,保險公司可以利用機器視覺來分析事故場景的照片和視頻,進行財務損害評估?;谌斯ぶ悄艿臋C器視覺還可以用于安全平臺,分析駕駛行為,提升道路安全性。
在軟件領域,創(chuàng)業(yè)公司正在開發(fā)無需編程知識的計算機視覺平臺,使更多人能夠使用機器視覺技術。機器視覺身份驗證軟件也是市場上的一個創(chuàng)新解決方案。
體育產業(yè)也在探索人工智能、視覺和數據分析的潛力,以向教練提供有關選手在比賽中的決策過程的洞察。此外,有一家創(chuàng)業(yè)公司通過將人工智能和機器視覺結合到無人機設計中,提出了一種節(jié)省成本的監(jiān)視方案。
機器視覺和人工智能都在快速發(fā)展,其性能,包括準確度和精確度,不斷提高。高性能GPU和機器學習能力的成本也有望降低,推動新的機器視覺應用的應用。
Arteris公司的Nightingale表示,隨著硬件(如傳感器、攝像頭和處理器)的進步以及算法和機器學習模型的改進,機器視覺系統(tǒng)的準確性和速度將得到進一步提高。深度學習算法尤其在近年來推動機器視覺技術的進步方面發(fā)揮了重要作用,并有望在未來扮演更重要的角色。這些算法能夠自動學習數據的特征和模式,從而提高準確性和性能。機器視覺系統(tǒng)將具有更強大的能力,能夠快速而準確地處理和分析大量的數據,從而開展更為復雜和
智能的應用。
此外,預計機器視覺和人工智能將與其他技術相結合,提供更多高性能、實時的應用。
Nightingale指出,機器視覺技術已經與機器人技術和自動化等其他技術整合,這一趨勢有望持續(xù)發(fā)展,我們可能會看到更多機器視覺在醫(yī)療保健、交通和安全等領域的應用。此外,對于需要實時處理的應用,機器視覺技術已經被廣泛應用,例如人臉識別和物體追蹤。未來,我們可能會看到更多需要實時處理的應用,例如自動駕駛汽車和無人機。
機器視覺(MV)的設計涉及芯片(處理器、存儲器、安全芯片)、IP核、模塊、固件、硬件和軟件的結合。芯片組件和多芯片封裝的推出將使這些系統(tǒng)能夠更容易、更快速地進行組合,添加新功能,提高系統(tǒng)的整體效率和能力。
Winbond的DRAM經理Tetsu Ho表示:“已知良好晶片(KGD)解決方案可以提供成本和空間效率高于有限接觸點和線材的封裝產品的替代方案。”這有助于提高設計效率,提供增強的硬件安全性能,特別是產品上市的時間。這些晶片經過熱激測試,測試程度與離散部件相同。 需要KGD 2.0來確保2.5D/3D組件和2.5D/3D多芯片設備的末端良率,以實現(xiàn)帶寬性能、功耗效率和面積等PPA的改進,這是由邊緣計算和人工智能等技術爆炸所推動的迷你化趨勢。
這將為機器視覺在新舊市場中開拓新的選擇。它將用于在自動駕駛中協(xié)助人類,幫助機器在制造業(yè)中實現(xiàn)精確高效,并通過無人機進行監(jiān)控。 此外,機器視覺將能夠探索對人類而言危險的地方,并為保險、體育、交通、國防、醫(yī)療等眾多領域提供數據輸入和分析。
隨著技術的不斷發(fā)展和應用的擴大,機器視覺將繼續(xù)成為推動自動化、智能化和數字化革新的關鍵技術之一。機器視覺系統(tǒng)的進一步提升和創(chuàng)新將為我們的生活和工作帶來更多的便利和效益。無論是在工業(yè)生產、醫(yī)療保健、交通運輸還是其他領域,機器視覺的應用都將繼續(xù)拓展,為未來的科技發(fā)展帶來更多的可能性。