चेहरा पहचानने के मौजूदा तरीकों का विश्लेषण। चेहरे पर लिखा है: कंप्यूटर फेशियल रिकग्निशन कैसे काम करता है फेशियल रिकग्निशन तकनीक

    अगर अकेले मॉस्को में पहले से ही 150,000 से अधिक आउटडोर वीडियो निगरानी कैमरों का नेटवर्क है तो हम क्या कह सकते हैं। उनसे छिपना नहीं है, और यह लोगों को सोचने पर मजबूर करता है, लेकिन "निगरानी" का पैमाना उतना बड़ा नहीं है। नेटवर्क एक शक्तिशाली चेहरे की पहचान प्रणाली का उपयोग करता है, लेकिन इसे संचालित करने के लिए बहुत अधिक ऊर्जा की आवश्यकता होती है, इसलिए वास्तविक समय में केवल 2-4 हजार कैमरे ही काम करते हैं। जनसंख्या की व्यापक निगरानी अभी भी भयावह है, इसलिए इस तकनीक के वास्तविक लाभों पर ध्यान देना उचित है। लेकिन सबसे पहले चीज़ें.

    चेहरे की पहचान प्रणाली कैसे काम करती है?

    क्या आपने कभी सोचा है कि आप खुद किसी चेहरे को कैसे पहचानते हैं और पहचानते हैं? कंप्यूटर यह कैसे करता है? निःसंदेह, मानव चेहरों में कुछ ऐसे गुण होते हैं जिनका वर्णन करना आसान होता है। आंखों के बीच की दूरी, नाक की स्थिति और चौड़ाई, भौंहों और ठोड़ी का आकार - जब आप किसी अन्य व्यक्ति को देखते हैं तो आप अनजाने में इन सभी विवरणों को नोटिस करते हैं। कंप्यूटर यह सब एक निश्चित दक्षता और सटीकता के साथ करता है, क्योंकि इन सभी मैट्रिक्स को मिलाकर, यह मानव चेहरे के लिए एक गणितीय सूत्र प्राप्त करता है।

    तो वर्तमान में चेहरे की पहचान कितनी अच्छी तरह काम करती है? काफी अच्छा, लेकिन कभी-कभी वह गलतियाँ करता है। यदि आपने कभी फेसबुक या किसी अन्य प्लेटफ़ॉर्म पर चेहरे की पहचान करने वाले सॉफ़्टवेयर का सामना किया है, तो आपने शायद देखा होगा कि जितने सटीक परिणाम होते हैं, उतने ही मज़ेदार परिणाम भी होते हैं। फिर भी, हालांकि तकनीक 100 प्रतिशत सटीकता के साथ काम नहीं करती है, लेकिन व्यापक उपयोग के लिए यह काफी अच्छी है। और आपको परेशान भी कर देते हैं.

    एनईसी के पॉल होवी का कहना है कि उनकी चेहरे की पहचान प्रणाली व्यक्तिगत पहचानकर्ताओं के लिए चेहरों को स्कैन करती है:

    उदाहरण के लिए, कई लोग आंखों के बीच की दूरी को एक अनोखी विशेषता मानते हैं। या यह ठोड़ी से माथे और अन्य घटकों तक की दूरी हो सकती है। विशेष रूप से, हम 15-20 कारकों को ध्यान में रखते हैं जिन्हें महत्वपूर्ण माना जाता है, साथ ही अन्य कारक जो अब इतने महत्वपूर्ण नहीं हैं। व्यक्ति के सिर की एक 3डी छवि बनाई जाती है, इसलिए भले ही वह आंशिक रूप से ढका हो, फिर भी हम सटीक मिलान प्राप्त कर सकते हैं। इसके बाद सिस्टम चेहरे का हस्ताक्षर लेता है और इसे डेटाबेस के माध्यम से चलाता है।

    क्या आपको चेहरे की पहचान करने वाले सॉफ़्टवेयर के बारे में चिंता करनी चाहिए?

    सबसे पहले, चेहरे की पहचान डेटा है। डेटा अक्सर बिना अनुमति के एकत्र और संग्रहीत किया जा सकता है। एक बार जानकारी एकत्र और संग्रहीत हो जाने पर, यह हैकिंग के लिए खुली होती है। चेहरे की पहचान करने वाले सॉफ़्टवेयर प्लेटफ़ॉर्म पर अभी तक कोई बड़ी हैक नहीं देखी गई है, लेकिन जैसे-जैसे तकनीक का प्रसार हो रहा है, आपका बायोमेट्रिक डेटा अधिक से अधिक लोगों के हाथों में जा रहा है।

    स्वामित्व के मुद्दे भी हैं। अधिकांश लोगों को यह नहीं पता कि जब वे फेसबुक जैसे सोशल मीडिया प्लेटफॉर्म के लिए साइन अप करते हैं, तो उसी क्षण से उनका डेटा फेसबुक का होता है। चेहरे की पहचान का उपयोग करने वाली कंपनियों की बढ़ती संख्या के साथ, जल्द ही आपको खुद को प्रभावित पाने के लिए इंटरनेट पर अपनी तस्वीरें अपलोड करने की भी आवश्यकता नहीं होगी। वे वहां पहले से ही संग्रहीत हैं, और लंबे समय से संग्रहीत हैं।

    सॉफ़्टवेयर की बात करें तो, वे सभी अलग-अलग तरीके से काम करते हैं, लेकिन मूल रूप से समान तरीकों और तंत्रिका नेटवर्क का उपयोग करते हैं। प्रत्येक चेहरे में कई विशिष्ट विशेषताएं होती हैं (दुनिया में दो समान चेहरे ढूंढना असंभव है, लेकिन मानव जाति के इतिहास में उनमें से बहुत सारे हैं!)। उदाहरण के लिए, फेसइट सॉफ़्टवेयर इन सुविधाओं को नोड्स के रूप में परिभाषित करता है। प्रत्येक चेहरे में लगभग 80 नोडल बिंदु होते हैं, जैसा कि हमने पहले उल्लेख किया था: आंखों के बीच की दूरी, नाक की चौड़ाई, आंखों के सॉकेट की गहराई, ठोड़ी का आकार, जबड़े की लंबाई। इन बिंदुओं को मापा जाता है और एक संख्यात्मक कोड बनाया जाता है - एक "फेसप्रिंट" - जिसे बाद में डेटाबेस में दर्ज किया जाता है।

    अतीत में, चेहरे की पहचान डेटाबेस से अन्य 2डी छवियों की तुलना या पहचान करने के लिए 2डी छवियों पर निर्भर करती थी। अधिकतम दक्षता और सटीकता के लिए, छवि को सीधे कैमरे की ओर देखने वाले चेहरे के रूप में होना चाहिए, जिसमें थोड़ा प्रकाश फैलाव हो और चेहरे पर कोई विशेष अभिव्यक्ति न हो। बेशक, इसने बहुत खराब तरीके से काम किया।

    अधिकांश मामलों में, छवियाँ उपयुक्त वातावरण में नहीं बनाई गईं। यहां तक ​​कि हल्का सा भी खेल सिस्टम की दक्षता को कम कर सकता है, जिससे उच्च विफलता दर हो सकती है।

    2डी का स्थान 3डी पहचान ने ले लिया है। यह हालिया सॉफ़्टवेयर चलन अत्यधिक सटीक चेहरे की पहचान प्रदान करने के लिए 3डी मॉडल का उपयोग करता है। वास्तविक समय में किसी व्यक्ति के चेहरे की सतह की 3डी छवि कैप्चर करके, सॉफ़्टवेयर विशिष्ट विशेषताओं को उजागर करता है - जहां कठोर ऊतक और हड्डियां सबसे प्रमुख होती हैं, जैसे कि आंख सॉकेट, नाक और ठोड़ी के मोड़ - विषय की पहचान करने के लिए। ये क्षेत्र अद्वितीय हैं और समय के साथ बदलते नहीं हैं।

    गहराई और माप अक्ष का उपयोग करना जो प्रकाश से प्रभावित नहीं होते हैं, 3डी चेहरे की पहचान का उपयोग अंधेरे में भी किया जा सकता है और विभिन्न कोणों (प्रोफ़ाइल में भी) से वस्तुओं को पहचाना जा सकता है। किसी व्यक्ति की पहचान करने के लिए ऐसा सॉफ़्टवेयर कई चरणों से गुज़रता है:

  • खोज: विषय की लाइव तस्वीर (3डी) बनाने के लिए मौजूदा फोटोग्राफ (2डी) या वीडियो को डिजिटल रूप से स्कैन करके एक छवि लेना।
  • संरेखण: चेहरे की पहचान करने के बाद, सिस्टम सिर की स्थिति, आकार और मुद्रा को नोट करता है।
  • माप: सिस्टम मिलीमीटर परिशुद्धता के साथ चेहरे के वक्रों को मापता है और एक टेम्पलेट बनाता है।
  • प्रतिनिधित्व: सिस्टम टेम्पलेट को एक अद्वितीय कोड में अनुवादित करता है। यह कोड प्रत्येक टेम्पलेट को चेहरे की विशेषताओं और लक्षणों को दर्शाने वाले संख्याओं का एक सेट देता है।
  • तुलना: यदि छवि 3डी में है और डेटाबेस में 3डी छवियां हैं, तो तुलना छवि को बदले बिना आगे बढ़ेगी। लेकिन यदि डेटाबेस में दो-आयामी छवियां शामिल हैं, तो त्रि-आयामी छवि अलग-अलग घटकों में विघटित हो जाती है (जैसे विभिन्न कोणों से ली गई समान चेहरे की विशेषताओं की दो-आयामी तस्वीरें), और उन्हें 2डी छवियों में परिवर्तित कर दिया जाता है। और फिर मिलान डेटाबेस में पाया जाता है।
  • सत्यापन या पहचान: सत्यापन प्रक्रिया के दौरान, छवि की तुलना डेटाबेस में केवल एक छवि (1:1) से की जाती है। यदि लक्ष्य पहचान है, तो छवि की तुलना डेटाबेस में सभी छवियों से की जाती है, जिसके परिणामस्वरूप कई संभावित मिलान (1:N) होते हैं। आवश्यकतानुसार किसी न किसी विधि का प्रयोग किया जाता है।

चेहरे की पहचान प्रणाली का उपयोग कहाँ किया जाता है?

अतीत में, चेहरे की पहचान प्रणालियों का उपयोग मुख्य रूप से कानून प्रवर्तन में किया जाता था, क्योंकि अधिकारी भीड़ में यादृच्छिक चेहरों की खोज करने के लिए उनका उपयोग करते थे। कुछ सरकारी एजेंसियों ने भी सुरक्षा और मतदाता धोखाधड़ी को खत्म करने के लिए समान प्रणालियों का उपयोग किया।

हालाँकि, ऐसी कई अन्य स्थितियाँ हैं जिनमें ऐसे सॉफ़्टवेयर लोकप्रिय हो जाते हैं। सिस्टम सस्ते होते जा रहे हैं और उनका वितरण बढ़ रहा है। वे अब बैंकों और हवाई अड्डों द्वारा उपयोग किए जाने वाले कैमरों और कंप्यूटरों के साथ संगत हैं। ट्रैवल एजेंसियां ​​स्वेच्छा से जानकारी प्रदान करने वाले यात्रियों को त्वरित सुरक्षा जांच प्रदान करने के लिए "अनुभवी यात्री" कार्यक्रम पर काम कर रही हैं। यदि लोग चेहरे की पहचान प्रणाली से गुजरेंगे जो आंतरिक डेटाबेस के विरुद्ध चेहरों से मेल खाता है तो हवाईअड्डे पर कतारें तेजी से बढ़ेंगी।

अन्य संभावित अनुप्रयोगों में एटीएम और नकद डिस्पेंसर शामिल हैं। सॉफ्टवेयर ग्राहक के चेहरे को तुरंत सत्यापित कर सकता है। ग्राहक की अनुमति के बाद एटीएम या टर्मिनल चेहरे की तस्वीर लेता है। सॉफ़्टवेयर एक चेहरे का प्रिंट बनाता है जो ग्राहक को पहचान की चोरी और धोखाधड़ी वाले लेनदेन से बचाता है - एटीएम किसी अलग चेहरे वाले व्यक्ति को पैसे नहीं देगा। आपको पिन कोड की भी आवश्यकता नहीं है.

जादू? प्रौद्योगिकी!

बैंक हस्तांतरण के क्षेत्र में चेहरे की पहचान तकनीक का विकास विशेष रूप से महत्वपूर्ण और दिलचस्प हो सकता है। हाल ही में, रूसी बैंक ओटक्रिटी ने ओपन गैराज टेक्नोलॉजी ब्रांड के तहत विकसित अपना अनूठा समाधान प्रस्तुत किया: ओटक्रिटी.ट्रांसफर मोबाइल एप्लिकेशन में एक फोटो का उपयोग करके धन हस्तांतरित करना। कार्ड या फ़ोन नंबर दर्ज करने के बजाय, आपको बस उस व्यक्ति की एक तस्वीर लेनी होगी जिसे आप स्थानांतरण करना चाहते हैं। चेहरे की पहचान प्रणाली फोटो की तुलना संदर्भ से करेगी (यह तब किया जाता है जब बैंक कार्ड जारी करता है) और पहला और अंतिम नाम बताएगा। आपको बस एक कार्ड चुनना है और राशि दर्ज करनी है। विशेष रूप से महत्वपूर्ण यह है कि तीसरे पक्ष के बैंकों के ग्राहक भी ओटक्रिटी ग्राहकों को स्थानांतरण करने के लिए इस फ़ंक्शन का उपयोग कर सकते हैं - स्थानांतरण भेजने वाला किसी भी रूसी बैंक के कार्ड का उपयोग कर सकता है।

“बैंक कार्ड नंबर के बजाय ग्राहक की तस्वीर का उपयोग करना ऑनलाइन ट्रांसफर के लिए एक मौलिक रूप से नया दृष्टिकोण है, जो तंत्रिका नेटवर्क चेहरे की पहचान प्रणाली के उपयोग पर आधारित है, जो ग्राहक को उसके बायोमेट्रिक डेटा के आधार पर उच्च स्तर की सटीकता के साथ पहचानने की अनुमति देता है। , ”ओटक्रिटी बैंक के पार्टनरशिप सिस्टम डेवलपमेंट विभाग के प्रमुख एलेक्सी मतवेव कहते हैं। - यह सेवा उपयोगकर्ताओं के लिए धन हस्तांतरण करने के लिए पूरी तरह से नए जीवन परिदृश्य खोलती है। वर्तमान में, दुनिया में कोई भी वित्तीय बाज़ार भागीदार अपने ग्राहकों को ऐसी सेवा प्रदान नहीं करता है।"

मोबाइल एप्लिकेशन “Otkrytie. अनुवाद" संभव है।

गहरी नियमितता के साथ, चेहरे की पहचान के विभिन्न तरीकों के बारे में बात करने वाले लेख हेब्रे पर दिखाई देते हैं। हमने न केवल इस अद्भुत विषय का समर्थन करने का निर्णय लिया, बल्कि अपने आंतरिक दस्तावेज़ को प्रकाशित करने का भी निर्णय लिया, जिसमें चेहरे की पहचान, उनकी ताकत और कमजोरियों के सभी नहीं तो कई दृष्टिकोण शामिल हैं। इसे मशीन विज़न विभाग के युवा कर्मचारियों के लिए, शैक्षिक उद्देश्यों के लिए, हमारे इंजीनियर एंड्री गुसाक द्वारा संकलित किया गया था। आज हम इसे उन सभी को पेश करते हैं जो इसे चाहते हैं। लेख के अंत में सबसे जिज्ञासु लोगों के लिए संदर्भों की एक प्रभावशाली सूची है।

तो, चलिए शुरू करते हैं।
प्रस्तुत एल्गोरिदम की विस्तृत विविधता के बावजूद, चेहरे की पहचान प्रक्रिया की सामान्य संरचना की पहचान की जा सकती है:

पहचान के दौरान चेहरे की छवि को संसाधित करने की सामान्य प्रक्रिया

पहले चरण में, चेहरे का पता लगाया जाता है और छवि में उसे स्थानीयकृत किया जाता है। पहचान चरण में, चेहरे की छवि को संरेखित किया जाता है (ज्यामितीय और चमक), सुविधाओं की गणना की जाती है, और पहचान सीधे की जाती है - डेटाबेस में संग्रहीत मानकों के साथ गणना की गई सुविधाओं की तुलना की जाती है। सभी प्रस्तुत एल्गोरिदम के बीच मुख्य अंतर सुविधाओं की गणना और एक दूसरे के साथ उनके सेट की तुलना होगी।

1. ग्राफ़ पर लचीली तुलना की विधि (इलास्टिक ग्राफ़ मिलान)।

विधि का सार चेहरे की छवियों का वर्णन करने वाले ग्राफ़ के लोचदार मिलान में आता है। चेहरों को भारित शीर्षों और किनारों वाले ग्राफ़ के रूप में दर्शाया जाता है। पहचान के चरण में, ग्राफ़ों में से एक - संदर्भ एक - अपरिवर्तित रहता है, जबकि दूसरे को पहले में सर्वोत्तम रूप से फिट करने के लिए विकृत किया जाता है। ऐसी पहचान प्रणालियों में, ग्राफ़ या तो एक आयताकार जाली हो सकते हैं या किसी चेहरे के विशिष्ट (मानवमिति) बिंदुओं द्वारा बनाई गई संरचना हो सकते हैं।

ए)

बी)

चेहरे की पहचान के लिए ग्राफ़ संरचना का एक उदाहरण: ए) नियमित जाली बी) चेहरे के मानवशास्त्रीय बिंदुओं पर आधारित ग्राफ़।

ग्राफ़ के शीर्षों पर, सुविधाओं के मूल्यों की गणना की जाती है, अक्सर गैबोर फिल्टर या उनके आदेशित सेटों के जटिल मूल्यों का उपयोग करते हुए - गैबोर वेवलेट्स (गैबोर सरणियाँ), जिनकी गणना कुछ स्थानीय क्षेत्र में की जाती है गैबोर फ़िल्टर के साथ पिक्सेल के चमक मानों को संयोजित करके स्थानीय रूप से ग्राफ़ का शीर्ष।


गैबोर फिल्टर का सेट (बैंक, जेट)।


दो गैबोर फिल्टर के साथ चेहरे की छवि के कनवल्शन का उदाहरण

ग्राफ़ के किनारों को आसन्न शीर्षों के बीच की दूरी से भारित किया जाता है। दो ग्राफ़ के बीच अंतर (दूरी, भेदभावपूर्ण विशेषता) की गणना कुछ विरूपण लागत फ़ंक्शन का उपयोग करके की जाती है जो शीर्ष पर गणना किए गए फीचर मानों के बीच अंतर और ग्राफ़ किनारों के विरूपण की डिग्री दोनों को ध्यान में रखता है।
ग्राफ़ का विरूपण उसके प्रत्येक शीर्ष को उसके मूल स्थान के सापेक्ष कुछ दिशाओं में एक निश्चित दूरी तक स्थानांतरित करने और ऐसी स्थिति का चयन करने से होता है जिस पर विकृत के शीर्ष पर सुविधाओं के मूल्यों (गैबोर फ़िल्टर प्रतिक्रियाओं) के बीच अंतर होता है। ग्राफ़ और संदर्भ ग्राफ़ का संगत शीर्ष न्यूनतम होगा। यह ऑपरेशन ग्राफ़ के सभी शीर्षों के लिए एक-एक करके तब तक किया जाता है जब तक कि विकृत और संदर्भ ग्राफ़ की विशेषताओं के बीच सबसे छोटा कुल अंतर प्राप्त नहीं हो जाता। विकृत ग्राफ़ की इस स्थिति में विरूपण के लागत फ़ंक्शन का मान इनपुट फेस छवि और संदर्भ ग्राफ़ के बीच अंतर का माप होगा। यह "विश्राम" विरूपण प्रक्रिया सिस्टम डेटाबेस में शामिल सभी संदर्भ व्यक्तियों के लिए की जानी चाहिए। सिस्टम पहचान का परिणाम विरूपण मूल्य फ़ंक्शन के सर्वोत्तम मूल्य वाला मानक है।


नियमित जाली के रूप में ग्राफ़ विरूपण का एक उदाहरण

कुछ प्रकाशन विभिन्न भावनात्मक अभिव्यक्तियों और चेहरे के कोण में 15 डिग्री तक परिवर्तन की उपस्थिति में भी 95-97% पहचान दक्षता का संकेत देते हैं। हालाँकि, ग्राफ़ पर लोचदार तुलना प्रणाली के डेवलपर्स इस दृष्टिकोण की उच्च कम्प्यूटेशनल लागत का हवाला देते हैं। उदाहरण के लिए, 23 ट्रांसप्यूटर्स के साथ समानांतर कंप्यूटर पर चलने पर 87 संदर्भ छवियों के साथ एक इनपुट फेस छवि की तुलना करने में लगभग 25 सेकंड लगे (नोट: प्रकाशन दिनांक 1993)। इस विषय पर अन्य प्रकाशन या तो समय का संकेत नहीं देते या कहते हैं कि यह लंबा है।

कमियां:मान्यता प्रक्रिया की उच्च कम्प्यूटेशनल जटिलता। नए मानकों को याद रखने में कम तकनीक। फेस डेटाबेस के आकार पर परिचालन समय की रैखिक निर्भरता।

2. तंत्रिका नेटवर्क

वर्तमान में, लगभग एक दर्जन प्रकार के तंत्रिका नेटवर्क (एनएन) हैं। सबसे व्यापक रूप से उपयोग किए जाने वाले विकल्पों में से एक मल्टीलेयर परसेप्ट्रॉन पर निर्मित नेटवर्क है, जो आपको नेटवर्क के प्रारंभिक कॉन्फ़िगरेशन/प्रशिक्षण के अनुसार इनपुट छवि/सिग्नल को वर्गीकृत करने की अनुमति देता है।
तंत्रिका नेटवर्क को प्रशिक्षण उदाहरणों के एक सेट पर प्रशिक्षित किया जाता है। प्रशिक्षण का सार ग्रेडिएंट डिसेंट विधि का उपयोग करके अनुकूलन समस्या को हल करने की प्रक्रिया में इंटिरियरन कनेक्शन के वजन को समायोजित करने के लिए नीचे आता है। एनएन प्रशिक्षण प्रक्रिया के दौरान, प्रमुख विशेषताएं स्वचालित रूप से निकाली जाती हैं, उनका महत्व निर्धारित किया जाता है, और उनके बीच संबंध बनाए जाते हैं। यह माना जाता है कि एक प्रशिक्षित तंत्रिका नेटवर्क अपनी सामान्यीकरण क्षमताओं के कारण प्रशिक्षण प्रक्रिया के दौरान प्राप्त अनुभव को अज्ञात छवियों पर लागू करने में सक्षम होगा।
चेहरे की पहचान के क्षेत्र में सबसे अच्छे परिणाम (प्रकाशनों के विश्लेषण के परिणामों के अनुसार) कन्वेन्शनल न्यूरल नेटवर्क या कन्वेन्शनल न्यूरल नेटवर्क (बाद में सीएनएन के रूप में संदर्भित) द्वारा दिखाए गए, जो ऐसे तंत्रिका नेटवर्क आर्किटेक्चर के विचारों का एक तार्किक विकास है। कॉग्निट्रॉन और नियोकॉग्निट्रॉन के रूप में। सफलता मल्टीलेयर परसेप्ट्रॉन के विपरीत, छवि की द्वि-आयामी टोपोलॉजी को ध्यान में रखने की क्षमता के कारण है।
सीएनएन की विशिष्ट विशेषताएं स्थानीय रिसेप्टर फ़ील्ड (न्यूरॉन्स की स्थानीय दो-आयामी कनेक्टिविटी प्रदान करना), साझा वजन (छवि में कहीं भी कुछ विशेषताओं का पता लगाना) और स्थानिक नमूनाकरण (स्थानिक उप-नमूनाकरण) के साथ पदानुक्रमित संगठन हैं। इन नवाचारों के लिए धन्यवाद, सीएनएन पैमाने में परिवर्तन, विस्थापन, घूर्णन, परिप्रेक्ष्य में परिवर्तन और अन्य विकृतियों के लिए आंशिक प्रतिरोध प्रदान करता है।


एक दृढ़ तंत्रिका नेटवर्क वास्तुकला का योजनाबद्ध चित्रण

प्रकाश, पैमाने, स्थानिक घुमाव, स्थिति और विभिन्न भावनाओं में मामूली बदलाव के साथ चेहरों की छवियों वाले ओआरएल डेटाबेस पर सीएनएन का परीक्षण करने से 96% पहचान सटीकता दिखाई दी।
सीएनएन को इसका विकास डीपफेस के विकास में प्राप्त हुआ, जिसे इसके द्वारा अधिग्रहित किया गया था
फेसबुक अपने सोशल नेटवर्क के उपयोगकर्ताओं के चेहरों को पहचानेगा। सभी वास्तुशिल्प सुविधाएँ बंद हैं।


डीपफेस कैसे काम करता है

तंत्रिका नेटवर्क के नुकसान:डेटाबेस में एक नए संदर्भ व्यक्ति को जोड़ने के लिए पूरे मौजूदा सेट पर नेटवर्क के पूर्ण पुनर्प्रशिक्षण की आवश्यकता होती है (एक काफी लंबी प्रक्रिया, नमूना आकार के आधार पर 1 घंटे से लेकर कई दिनों तक)। प्रशिक्षण से जुड़ी गणितीय प्रकृति की समस्याएं: स्थानीय इष्टतम तक पहुंचना, इष्टतम अनुकूलन चरण चुनना, पुनः प्रशिक्षण, आदि। नेटवर्क आर्किटेक्चर (न्यूरॉन्स की संख्या, परतों, कनेक्शन की प्रकृति) को चुनने के चरण को औपचारिक बनाना मुश्किल है। उपरोक्त सभी को सारांशित करते हुए, हम यह निष्कर्ष निकाल सकते हैं कि तंत्रिका नेटवर्क एक "ब्लैक बॉक्स" है जिसके परिणामों की व्याख्या करना मुश्किल है।

3. छिपे हुए मार्कोव मॉडल (एचएमएम, एचएमएम)

चेहरे की पहचान के लिए सांख्यिकीय तरीकों में से एक असतत-समय छिपे मार्कोव मॉडल (एचएमएम) है। एचएमएम संकेतों के सांख्यिकीय गुणों का उपयोग करते हैं और सीधे उनकी स्थानिक विशेषताओं को ध्यान में रखते हैं। मॉडल के तत्व हैं: छिपे हुए राज्यों का एक सेट, देखे गए राज्यों का एक सेट, संक्रमण संभावनाओं का एक मैट्रिक्स, राज्यों की प्रारंभिक संभावना। प्रत्येक का अपना मार्कोव मॉडल है। किसी वस्तु को पहचानते समय, वस्तुओं के दिए गए आधार के लिए उत्पन्न मार्कोव मॉडल की जाँच की जाती है और अधिकतम देखी गई संभावना की तलाश की जाती है कि किसी दिए गए वस्तु के लिए अवलोकनों का क्रम संबंधित मॉडल द्वारा उत्पन्न किया गया था।
आज तक, चेहरे की पहचान के लिए एचएमएम के व्यावसायिक अनुप्रयोग का कोई उदाहरण खोजना संभव नहीं हो सका है।

कमियां:
- प्रत्येक डेटाबेस के लिए मॉडल पैरामीटर का चयन करना आवश्यक है;
- एचएमएम में भेदभाव करने की क्षमता नहीं है, यानी, सीखने का एल्गोरिदम केवल प्रत्येक छवि की उसके मॉडल पर प्रतिक्रिया को अधिकतम करता है, लेकिन अन्य मॉडलों की प्रतिक्रिया को कम नहीं करता है।

4. प्रमुख घटक विश्लेषण (पीसीए)

सबसे प्रसिद्ध और अच्छी तरह से विकसित में से एक प्रमुख घटक विश्लेषण (पीसीए) है, जो करहुनेन-लोएव परिवर्तन पर आधारित है।
प्रारंभ में, सूचना के महत्वपूर्ण नुकसान के बिना फीचर स्पेस को कम करने के लिए आंकड़ों में प्रमुख घटक पद्धति का उपयोग किया जाने लगा। चेहरे की पहचान के कार्य में, इसका उपयोग मुख्य रूप से कम-आयामी वेक्टर (प्रमुख घटकों) के साथ चेहरे की छवि का प्रतिनिधित्व करने के लिए किया जाता है, जिसकी तुलना डेटाबेस में संग्रहीत संदर्भ वैक्टर से की जाती है।
प्रमुख घटक विधि का मुख्य लक्ष्य फीचर स्पेस के आयाम को महत्वपूर्ण रूप से कम करना है ताकि यह कई व्यक्तियों से संबंधित "विशिष्ट" छवियों का यथासंभव सर्वोत्तम वर्णन कर सके। इस पद्धति का उपयोग करके, चेहरे की छवियों के प्रशिक्षण सेट में विभिन्न विविधताओं की पहचान करना और कई ऑर्थोगोनल वैक्टरों के आधार पर इस परिवर्तनशीलता का वर्णन करना संभव है, जिन्हें ईजेनफेसेस कहा जाता है।

चेहरे की छवियों के प्रशिक्षण सेट पर एक बार प्राप्त आइजेनवेक्टरों के सेट का उपयोग अन्य सभी चेहरे की छवियों को एनकोड करने के लिए किया जाता है, जिन्हें इन आइजेनवेक्टरों के भारित संयोजन द्वारा दर्शाया जाता है। सीमित संख्या में eigenvectors का उपयोग करके, इनपुट फेस इमेज के लिए एक संपीड़ित सन्निकटन प्राप्त किया जा सकता है, जिसे बाद में गुणांक के वेक्टर के रूप में डेटाबेस में संग्रहीत किया जा सकता है, जो फेस डेटाबेस में एक खोज कुंजी के रूप में भी कार्य करता है।

प्रमुख घटक विधि का सार इस प्रकार है। सबसे पहले, चेहरों के पूरे प्रशिक्षण सेट को एक सामान्य डेटा मैट्रिक्स में परिवर्तित किया जाता है, जहां प्रत्येक पंक्ति एक पंक्ति में विघटित चेहरे की छवि के एक उदाहरण का प्रतिनिधित्व करती है। प्रशिक्षण सेट में सभी चेहरों को समान आकार और सामान्यीकृत हिस्टोग्राम के साथ छोटा किया जाना चाहिए।


चेहरों के प्रशिक्षण सेट का एक सामान्य मैट्रिक्स एक्स में परिवर्तन

फिर डेटा को सामान्यीकृत किया जाता है और पंक्तियों को 0 माध्य और 1 विचरण तक घटा दिया जाता है, और सहप्रसरण मैट्रिक्स की गणना की जाती है। परिणामी सहप्रसरण मैट्रिक्स के लिए, eigenvalues ​​​​और संबंधित eigenvectors (eigenfaces) निर्धारित करने की समस्या हल हो गई है। इसके बाद, eigenvectors को eigenvalues ​​​​के अवरोही क्रम में क्रमबद्ध किया जाता है और नियम के अनुसार केवल पहले k वैक्टर छोड़े जाते हैं:




पीसीए एल्गोरिथ्म


चेहरों के प्रशिक्षित सेट से प्राप्त पहले दस ईजेनवेक्टर (ईजेनफेस) का एक उदाहरण

= 0.956*-1.842*+0.046

आइजनफेस और प्रमुख घटकों के संयोजन का उपयोग करके एक मानव चेहरे के निर्माण (संश्लेषण) का एक उदाहरण


पहले सर्वोत्तम आइजेनवेक्टरों में से आधार चुनने का सिद्धांत


तीन आइजनफेस और आगे की पहचान से प्राप्त त्रि-आयामी मीट्रिक स्थान में एक चेहरे को मैप करने का एक उदाहरण

प्रमुख घटक विधि ने व्यावहारिक अनुप्रयोगों में स्वयं को अच्छी तरह साबित कर दिया है। हालाँकि, ऐसे मामलों में जहां चेहरे की छवि में रोशनी या चेहरे की अभिव्यक्ति में महत्वपूर्ण परिवर्तन होते हैं, विधि की प्रभावशीलता काफी कम हो जाती है। मुद्दा यह है कि पीसीए इनपुट डेटा सेट के सन्निकटन को अधिकतम करने और चेहरों के वर्गों के बीच भेदभाव न करने के लक्ष्य के साथ एक उप-स्थान चुनता है।

इस समस्या का समाधान फिशर के रैखिक विभेदक (साहित्य में "ईजेन-फिशर", "फिशरफेस", एलडीए नाम पाया जाता है) का उपयोग करके प्रस्तावित किया गया था। एलडीए रैखिक उपस्थान का चयन करता है जो अनुपात को अधिकतम करता है:

कहाँ

इंटरक्लास फैलाव मैट्रिक्स, और

इंट्राक्लास फैलाव मैट्रिक्स; एम - डेटाबेस में कक्षाओं की संख्या।

एलडीए एक डेटा प्रक्षेपण की तलाश में है जहां कक्षाएं अधिकतम रैखिक रूप से अलग हो सकें (नीचे चित्र देखें)। तुलना के लिए, पीसीए एक ऐसे डेटा प्रक्षेपण की तलाश करता है जो पूरे फेस डेटाबेस (वर्गों को अनदेखा) में प्रसार को अधिकतम करता है। चेहरे की छवियों के मजबूत टैंक और नीचे की छायांकन की स्थितियों में प्रयोगों के परिणामों के अनुसार, फिशरफेस ने ईजेनफेस के 53% की तुलना में 95% दक्षता दिखाई।


पीसीए और एलडीए अनुमानों के गठन के बीच मूलभूत अंतर

पीसीए और एलडीए के बीच अंतर

5. सक्रिय उपस्थिति मॉडल (एएएम) और सक्रिय आकार मॉडल (एएसएम) ()
सक्रिय उपस्थिति मॉडल (एएएम)
सक्रिय उपस्थिति मॉडल (एएएम) छवियों के सांख्यिकीय मॉडल हैं जिन्हें विभिन्न प्रकार की विकृतियों के माध्यम से वास्तविक छवि में समायोजित किया जा सकता है। द्वि-आयामी संस्करण में इस प्रकार का मॉडल 1998 में टिम कूट्स और क्रिस टेलर द्वारा प्रस्तावित किया गया था। सक्रिय उपस्थिति मॉडल का उपयोग शुरू में चेहरे की छवियों के मापदंडों का अनुमान लगाने के लिए किया गया था।
सक्रिय उपस्थिति मॉडल में दो प्रकार के पैरामीटर होते हैं: आकार से जुड़े पैरामीटर (आकार पैरामीटर) और छवि के पिक्सेल या बनावट (उपस्थिति पैरामीटर) के सांख्यिकीय मॉडल से जुड़े पैरामीटर। उपयोग से पहले, मॉडल को पूर्व-लेबल छवियों के एक सेट पर प्रशिक्षित किया जाना चाहिए। छवि अंकन मैन्युअल रूप से किया जाता है। प्रत्येक चिह्न की अपनी संख्या होती है और एक विशिष्ट बिंदु को परिभाषित करता है जिसे मॉडल को नई छवि के अनुरूप ढलते समय ढूंढना होगा।


AAM आकार बनाते हुए 68 बिंदुओं से चेहरे की छवि को चिह्नित करने का एक उदाहरण।

एएएम प्रशिक्षण प्रक्रिया स्केल, झुकाव और ऑफसेट में अंतर की भरपाई के लिए लेबल की गई छवियों में आकृतियों को सामान्य करने के साथ शुरू होती है। इस प्रयोजन के लिए, तथाकथित सामान्यीकृत प्रोक्रस्टेस विश्लेषण का उपयोग किया जाता है।


सामान्यीकरण से पहले और बाद में चेहरे के आकार बिंदुओं के निर्देशांक

सामान्यीकृत बिंदुओं के पूरे सेट से, प्रमुख घटकों को पीसीए विधि का उपयोग करके निकाला जाता है।


एएएम आकार मॉडल में एक त्रिकोणीय जाली s0 और s0 के सापेक्ष विस्थापन si का एक रैखिक संयोजन होता है।

इसके बाद, आकृति बिंदुओं द्वारा बनाए गए त्रिकोणों के अंदर पिक्सेल से एक मैट्रिक्स बनता है, जैसे कि इसके प्रत्येक कॉलम में संबंधित बनावट के पिक्सेल मान होते हैं। यह ध्यान देने योग्य है कि प्रशिक्षण के लिए उपयोग की जाने वाली बनावट एकल-चैनल (ग्रेस्केल) या मल्टी-चैनल (उदाहरण के लिए, आरजीबी रंग स्थान या अन्य) हो सकती है। मल्टी-चैनल बनावट के मामले में, प्रत्येक चैनल के लिए पिक्सेल वेक्टर अलग-अलग बनाए जाते हैं, और फिर उन्हें संयोजित किया जाता है। बनावट मैट्रिक्स के प्रमुख घटकों को खोजने के बाद, एएएम मॉडल को प्रशिक्षित माना जाता है।

AAM उपस्थिति मॉडल में आधार जाली s0 के भीतर पिक्सेल द्वारा परिभाषित आधार उपस्थिति A0 और A0 के सापेक्ष ऑफसेट Ai का एक रैखिक संयोजन होता है।

AAM इन्स्टेन्शियशन का उदाहरण. आकार पैरामीटर वेक्टर
p=(p_1,p_2,〖…,p〗_m)^T=(-54,10,-9.1,…)^T का उपयोग आकार s के मॉडल को संश्लेषित करने के लिए किया जाता है, और पैरामीटर वेक्टर λ=(λ_1,λ_2 ,〖…, λ〗_m)^T=(3559,351,-256,…)^T मॉडल की उपस्थिति को संश्लेषित करने के लिए। अंतिम चेहरे का मॉडल 〖M(W(x;p))〗^ दो मॉडलों के संयोजन के रूप में प्राप्त किया जाता है - आकार और उपस्थिति।

मॉडल को एक विशिष्ट चेहरे की छवि पर फिट करना एक अनुकूलन समस्या को हल करने की प्रक्रिया में किया जाता है, जिसका सार कार्यक्षमता को कम करने के लिए कम हो जाता है

ग्रेडिएंट डिसेंट विधि का उपयोग करना। इस मामले में पाए गए मॉडल पैरामीटर एक विशिष्ट छवि में मॉडल की स्थिति को प्रतिबिंबित करेंगे।




ग्रेडिएंट डिसेंट प्रक्रिया के 20 पुनरावृत्तियों में एक मॉडल को एक विशिष्ट छवि में फिट करने का एक उदाहरण।

एएएम का उपयोग करके, आप कठोर और गैर-कठोर विरूपण दोनों के अधीन वस्तुओं की छवियों को मॉडल कर सकते हैं। एएएम में मापदंडों का एक सेट होता है, जिनमें से कुछ चेहरे के आकार का प्रतिनिधित्व करते हैं, बाकी इसकी बनावट को निर्दिष्ट करते हैं। विरूपण को आमतौर पर अनुवाद, रोटेशन और स्केलिंग की संरचना के रूप में एक ज्यामितीय परिवर्तन के रूप में समझा जाता है। किसी छवि में चेहरे के स्थानीयकरण की समस्या को हल करते समय, एएएम के मापदंडों (स्थान, आकार, बनावट) की खोज की जाती है जो संश्लेषित छवि का प्रतिनिधित्व करते हैं जो देखी गई छवि के सबसे करीब है। फिट की गई छवि के साथ एएएम की निकटता की डिग्री के आधार पर, यह निर्णय लिया जाता है कि कोई चेहरा है या नहीं।

सक्रिय आकार मॉडल (एएसएम)

एएसएम पद्धति का सार मानवविज्ञान बिंदुओं के स्थानों के बीच सांख्यिकीय संबंधों को ध्यान में रखना है। सामने से ली गई चेहरों की छवियों के उपलब्ध नमूने के आधार पर। छवि में, विशेषज्ञ मानवविज्ञान बिंदुओं के स्थान को चिह्नित करता है। प्रत्येक छवि में, बिंदुओं को समान क्रम में क्रमांकित किया गया है।




68 बिंदुओं का उपयोग करके चेहरे के आकार के प्रतिनिधित्व का उदाहरण

सभी छवियों में निर्देशांक को एक ही प्रणाली में लाने के लिए, तथाकथित। सामान्यीकृत प्रोक्रस्टेस विश्लेषण, जिसके परिणामस्वरूप सभी बिंदुओं को एक ही पैमाने पर लाया जाता है और केंद्रित किया जाता है। इसके बाद, छवियों के पूरे सेट के लिए औसत आकार और सहप्रसरण मैट्रिक्स की गणना की जाती है। सहप्रसरण मैट्रिक्स के आधार पर, eigenvectors की गणना की जाती है और फिर उनके संबंधित eigenvalues ​​​​के अवरोही क्रम में क्रमबद्ध किया जाता है। एएसएम मॉडल को मैट्रिक्स Φ और माध्य आकार वेक्टर s ̅ द्वारा परिभाषित किया गया है।
फिर किसी भी आकृति को एक मॉडल और मापदंडों का उपयोग करके वर्णित किया जा सकता है:

प्रशिक्षण सेट में शामिल नहीं की गई नई छवि पर एएसएम मॉडल का स्थानीयकरण अनुकूलन समस्या को हल करने की प्रक्रिया में किया जाता है।


ए बी सी डी)
एक विशिष्ट छवि पर एएसएम मॉडल को स्थानीयकृत करने की प्रक्रिया का चित्रण: ए) प्रारंभिक स्थिति बी) 5 पुनरावृत्तियों के बाद सी) 10 पुनरावृत्तियों के बाद डी) मॉडल अभिसरण हो गया है

हालाँकि, एएएम और एएसएम का मुख्य लक्ष्य चेहरे की पहचान नहीं है, बल्कि आगे की प्रक्रिया के लिए छवि में चेहरे और मानवविज्ञान बिंदुओं का सटीक स्थानीयकरण है।

लगभग सभी एल्गोरिदम में, वर्गीकरण से पहले एक अनिवार्य कदम संरेखण है, जिसका अर्थ है चेहरे की छवि को कैमरे के सापेक्ष सामने की स्थिति में संरेखित करना या चेहरों का एक सेट लाना (उदाहरण के लिए, एक क्लासिफायर को प्रशिक्षित करने के लिए एक प्रशिक्षण सेट में) एकल समन्वय प्रणाली. इस चरण को लागू करने के लिए, छवि पर सभी चेहरों की विशेषता वाले मानवशास्त्रीय बिंदुओं को स्थानीयकृत करना आवश्यक है - अक्सर ये पुतलियों के केंद्र या आंखों के कोने होते हैं। विभिन्न शोधकर्ता ऐसे बिंदुओं के विभिन्न समूहों की पहचान करते हैं। वास्तविक समय प्रणालियों के लिए कम्प्यूटेशनल लागत को कम करने के लिए, डेवलपर्स 10 से अधिक ऐसे बिंदु आवंटित नहीं करते हैं।

एएएम और एएसएम मॉडल को चेहरे की छवि में इन मानवविज्ञान बिंदुओं को सटीक रूप से स्थानीयकृत करने के लिए डिज़ाइन किया गया है।

6. चेहरे की पहचान प्रणाली के विकास से जुड़ी मुख्य समस्याएं

रोशनी की समस्या

सिर की स्थिति की समस्या (आखिरकार, चेहरा एक 3डी वस्तु है)।

प्रस्तावित चेहरा पहचान एल्गोरिदम की प्रभावशीलता का मूल्यांकन करने के लिए, DARPA और अमेरिकी सेना अनुसंधान प्रयोगशाला ने FERET (चेहरा पहचान प्रौद्योगिकी) कार्यक्रम विकसित किया।

ग्राफ़ पर लचीली तुलना और प्रमुख घटक विधि (पीसीए) के विभिन्न संशोधनों पर आधारित एल्गोरिदम ने FERET कार्यक्रम के बड़े पैमाने पर परीक्षणों में भाग लिया। सभी एल्गोरिदम की दक्षता लगभग समान थी। इससे उनके बीच स्पष्ट अंतर करना मुश्किल या असंभव हो जाता है (विशेषकर यदि परीक्षण तिथियां सुसंगत हैं)। उसी दिन ली गई सामने की छवियों के लिए, स्वीकार्य पहचान सटीकता आमतौर पर 95% है। विभिन्न उपकरणों और विभिन्न प्रकाश स्थितियों के तहत ली गई छवियों के लिए, सटीकता आमतौर पर 80% तक गिर जाती है। एक वर्ष के अंतराल पर ली गई छवियों के लिए, पहचान सटीकता लगभग 50% थी। यह ध्यान देने योग्य है कि इस प्रकार की प्रणाली के लिए 50 प्रतिशत भी स्वीकार्य सटीकता से अधिक है।

हर साल, FERET दस लाख से अधिक चेहरों का उपयोग करके अत्याधुनिक चेहरे की पहचान प्रणालियों पर एक तुलनात्मक परीक्षण रिपोर्ट प्रकाशित करता है। दुर्भाग्य से, नवीनतम रिपोर्टें मान्यता प्रणालियों के निर्माण के सिद्धांतों का खुलासा नहीं करती हैं, बल्कि केवल वाणिज्यिक प्रणालियों के संचालन के परिणामों को प्रकाशित करती हैं। आज, अग्रणी प्रणाली एनईसी द्वारा विकसित नियोफेस प्रणाली है।

सन्दर्भों की सूची (पहले लिंक पर गूगल)
1. छवि-आधारित चेहरा पहचान - मुद्दे और तरीके
2. फेस डिटेक्शन ए सर्वे.पीडीएफ
3. चेहरा पहचान एक साहित्य सर्वेक्षण
4. चेहरा पहचान तकनीकों का एक सर्वेक्षण
5. चेहरे की पहचान, निष्कर्षण और पहचान का सर्वेक्षण
6. चेहरे की छवियों के आधार पर लोगों की पहचान करने के तरीकों की समीक्षा
7. किसी व्यक्ति को चेहरे की छवि से पहचानने की विधियाँ
8. चेहरा पहचान एल्गोरिदम का तुलनात्मक विश्लेषण
9.चेहरा पहचानने की तकनीक
10. मानवविज्ञान बिंदुओं के स्थानीयकरण के लिए एक दृष्टिकोण के बारे में।
11. विभाजन एल्गोरिदम का उपयोग करके समूह फ़ोटो में चेहरे की पहचान
12. चेहरे की पहचान पर दूसरे चरण के शोध कार्य पर रिपोर्ट
13. इलास्टिक बंच ग्राफ़ मिलान द्वारा चेहरे की पहचान
14. ज्यामितीय परिवर्तनों के आधार पर एक तस्वीर से किसी व्यक्ति की पहचान करने के लिए एल्गोरिदम। थीसिस.
15. डायनामिक लिंक आर्किटेक्चर में विरूपण अपरिवर्तनीय वस्तु पहचान
16. सक्रिय आकार मॉडल, स्थानीय पैच और सपोर्ट वेक्टर मशीनों का उपयोग करके चेहरे की पहचान
17. सक्रिय उपस्थिति मॉडल का उपयोग करके चेहरे की पहचान
18. चेहरे की पहचान के लिए सक्रिय उपस्थिति मॉडल
19. एक्टिव शेप मॉडल और सपोर्ट वेक्टर मशीन का उपयोग करके चेहरे का संरेखण
20. सक्रिय आकार मॉडल - उनका प्रशिक्षण और अनुप्रयोग
21. जंगली में फिशर वेक्टर चेहरे
22. आइजनफेसेस बनाम. वर्ग विशिष्ट रैखिक प्रक्षेपण का उपयोग करके फिशरफेस पहचान
23. आइजनफेस और फिशरफेस
24. आयामीता में कमी
25. पार्ट्स आधारित विकृत पंजीकरण पर आईसीसीवी 2011 ट्यूटोरियल
26. चेहरा संरेखण के लिए प्रतिबंधित स्थानीय मॉडल, एक ट्यूटोरियल
27. आप कौन हैं - वीडियो से व्यक्ति विशिष्ट वर्गीकरण सीखना
28. तंत्रिका नेटवर्क विधियों का उपयोग करके चेहरे की छवि से मानव पहचान
29. चेहरा पहचान एक संवादात्मक तंत्रिका नेटवर्क दृष्टिकोण
30. कन्वेन्शनल न्यूरल नेटवर्क और सरल लॉजिस्टिक क्लासिफायर का उपयोग करके चेहरे की पहचान
31. कन्वेन्शनल न्यूरल नेटवर्क के साथ चेहरे की छवि का विश्लेषण
32. छिपी हुई मार्कोव प्रक्रियाओं पर आधारित चेहरा पहचान विधियाँ। लेखक-फेरत
33. चेहरे की पहचान के लिए छिपे हुए मार्कोव मॉडल का अनुप्रयोग
34. छिपे हुए मार्कोव मॉडल का उपयोग करके चेहरे का पता लगाना और पहचानना
35. जीएनयू ऑक्टेव-मैटलैब के साथ चेहरे की पहचान
36. पायथन के साथ चेहरे की पहचान
37. एंथ्रोपोमेट्रिक 3डी फेस रिकग्निशन
38. 3डी चेहरा पहचान
39. 3डी मॉर्फेबल मॉडल फिट करने पर आधारित चेहरे की पहचान
40. चेहरा पहचानना
41. विरल प्रतिनिधित्व के माध्यम से मजबूत चेहरा पहचान
42. चेहरा-पहचान एल्गोरिदम के लिए FERET मूल्यांकन पद्धति
43. ऐतिहासिक तस्वीरों के इलेक्ट्रॉनिक संग्रह में चेहरे खोजें
44. रियल-टाइम फेस रिकग्निशन के लिए समर्पित हार्डवेयर विजन सिस्टम का डिजाइन, कार्यान्वयन और मूल्यांकन
45. अच्छे, बुरे और बदसूरत चेहरे की पहचान चुनौती समस्या का परिचय
46. ​​डिजिटल छवियों में मानवीय चेहरों का पता लगाने के तरीकों का अनुसंधान और विकास। डिप्लोमा
47. डीपफेस फेस वेरिफिकेशन में मानव-स्तर के प्रदर्शन के अंतर को कम कर रहा है
48. टीवी वीडियो में पात्रों के स्वचालित नामकरण की काट निकालना
49. एक व्यावहारिक चेहरा पहचान प्रणाली की ओर, विरल प्रतिनिधित्व द्वारा मजबूत संरेखण और रोशनी
50. छवि विश्लेषण और प्रसंस्करण की लागू समस्याओं को हल करने के लिए मानव चेहरा पहचान एल्गोरिदम
51. किसी छवि में चेहरे का पता लगाना और उसका स्थानीयकरण करना
52. संशोधित वियोला-जोन्स मोटरोड
53. मशीन सीखने के तरीकों के आधार पर वस्तुओं का पता लगाने और वर्गीकृत करने के लिए एल्गोरिदम का विकास और विश्लेषण
54. फेस रिकग्निशन ग्रैंड चैलेंज का अवलोकन
55. चेहरा पहचान विक्रेता परीक्षण (एफआरवीटी)
56. चेहरों की पहचान के कार्य में एसयूआरएफ एल्गोरिदम का उपयोग करने की प्रभावशीलता पर

इसके अलावा, चेहरे की पहचान से हम उन चरणों को समझेंगे जो चेहरे के चयन और उसके सामान्यीकरण के बाद होते हैं, अर्थात् विशेषताओं का निष्कर्षण और मानक के साथ तुलना। हम मुख्य ज्ञात विधियाँ प्रस्तुत करते हैं जिनका उपयोग इन दो समस्याओं को हल करने के लिए किया जाता है।

फ़ीचर निष्कर्षण विधियों को दो समूहों में विभाजित किया जा सकता है। ये स्थानीय विशेषताओं और वैश्विक चेहरे की विशेषताओं का उपयोग करने वाली विधियाँ हैं। स्थानीय विशेषताओं का उपयोग करते समय, एल्गोरिदम चेहरे के अलग-अलग हिस्सों (जैसे आंखें, नाक, मुंह, आदि) की पहचान करता है और चेहरे को चुनने या पहचानने के लिए उनका उपयोग करता है। वैश्विक सुविधाओं का उपयोग करते समय, एल्गोरिदम संपूर्ण चेहरे के साथ काम करता है।

स्थानीय सुविधाओं के साथ काम करने वाली विधियों में शामिल हैं:

    गैबोर फ़िल्टर;

    लोचदार ग्राफ़ तुलना विधि;

    चेहरे के समोच्च मॉडल;

    सबसे अधिक जानकारीपूर्ण क्षेत्रों की विधि;

    छिपे हुए मार्कोव मॉडल;

    मॉर्फिंग मॉडल;

  • चेहरे की ज्यामितीय विशेषताओं पर आधारित विधियाँ;

    मानकों की तुलना पर आधारित विधियाँ;

    तंत्रिका - तंत्र।

वैश्विक सुविधाओं का उपयोग करने वाली विधियाँ हैं:

    विभेदक तरीके;

  • गैबोर फ़िल्टर;

    तंत्रिका - तंत्र।

जैसा कि आप देख सकते हैं, स्थानीय चेहरे की विशेषताओं को निकालने और वैश्विक विशेषताओं को निकालने के लिए समान विधियों का उपयोग किया जा सकता है:

    गैबोर फ़िल्टर;

  • तंत्रिका - तंत्र।

सभी वर्गीकरणकर्ताओं को निम्नलिखित समूहों में विभाजित किया जा सकता है:

    गणितीय आँकड़ों के सिद्धांतों पर आधारित सांख्यिकीय विधियाँ;

    हाइपरसर्फेस को अलग करने के निर्माण पर आधारित विधियाँ;

    संभावनाओं के सिद्धांत पर आधारित विधियाँ;

    उदाहरणों की परिभाषा पर आधारित विधियाँ;

    जैविक तंत्रिका नेटवर्क के अध्ययन के आधार पर विकसित विधियाँ।

फीचर निष्कर्षण और वर्गीकरण के लिए मौजूदा तरीकों की संख्या असीमित है। आगे, हम केवल सबसे प्रसिद्ध तरीकों पर विचार करेंगे।

3.4.2. स्थानीय विशेषताओं के विश्लेषण पर आधारित विधियाँ

इस समूह की सभी विधियाँ, एक तरह से या किसी अन्य, चेहरे के विशिष्ट क्षेत्रों का स्थानीयकरण करती हैं और, उनके आधार पर, अपने एल्गोरिदम को लागू करती हैं।

लचीले स्वरूप मॉडल

चेहरे की पहचान की समस्या को हल करने के लिए कुछ तरीके "लोचदार चेहरा मॉडल" (लचीले मॉडल) की अवधारणा का उपयोग करते हैं, जो बदले में प्रमुख घटकों के आधार पर वस्तुओं का पुनर्निर्माण किया जाता है। इन विधियों में, चेहरे की आकृति की तुलना के आधार पर पहचान की जाती है। रूपरेखा आमतौर पर सिर, कान, होंठ, नाक, भौहें और आंखों की रेखाओं के लिए निकाली जाती है। समोच्चों को प्रमुख स्थितियों द्वारा दर्शाया जाता है, जिनके बीच समोच्च से संबंधित बिंदुओं की स्थिति की गणना प्रक्षेप द्वारा की जाती है। रूपरेखा को स्थानीयकृत करने के लिए, विभिन्न विधियाँ प्राथमिक जानकारी और प्रशिक्षण सेट के विश्लेषण से प्राप्त जानकारी दोनों का उपयोग करती हैं।

कार्य में, रूपरेखा के अनुरूप मुख्य बिंदुओं को प्रशिक्षण छवियों के एक सेट पर मैन्युअल रूप से रखा गया था। बिंदुओं के ये सेट-प्रारंभिक विशेषताएं-प्रारंभिक चेहरे के आकार के मॉडल (आईएमएफ) का प्रतिनिधित्व करते हैं। इसके बाद, इन विशेषताओं को प्रमुख घटक विधि का उपयोग करके कम किया जाता है और उनके आधार पर एक औसत एमएफएल बनाया जाता है। इससे चेहरे के मॉडल के आकार को बदलने की संभावना पैदा होती है और तदनुसार, कम सुविधाओं के स्थान में मापदंडों को बदलकर चेहरे के आकार का एक लोचदार मॉडल (ईएमएफएल) बनाया जाता है। पहचान प्रक्रिया के दौरान, ईएमएफएल चेहरे की मान्यता प्राप्त छवि पर "विस्तारित" होता है, और मॉडल के आकार के परिणामी नए पैरामीटर मान्यता प्राप्त छवि को वर्गीकृत करने की कुंजी हैं।

चेहरे पर आकृति की खोज के लिए, सक्रिय आकार मॉडल एल्गोरिथ्म का उपयोग करने का प्रस्ताव है। समोच्च पहचान में मुख्य कार्य इन समोच्चों का सही चयन है। सामान्य तौर पर, यह कार्य जटिलता में छवि पहचान के बराबर है। इसके अलावा, इस पद्धति का उपयोग स्वयं पहचान कार्य के लिए पर्याप्त नहीं है।

चावल। प्रशिक्षण सेट से चेहरे पर बिंदुओं का स्थान

चावल। चेहरे के आकार पर मुख्य घटकों का प्रभाव

प्राकृतिक या कृत्रिम वातावरण में किसी व्यक्ति के चेहरे की पहचान करना और उसके बाद की पहचान करना कंप्यूटर विज़न सिस्टम और कृत्रिम बुद्धिमत्ता के क्षेत्र में काम करने वाले शोधकर्ताओं के लिए हमेशा सर्वोच्च प्राथमिकता वाले कार्यों में से एक रहा है। हालाँकि, कई दशकों तक दुनिया भर के प्रमुख वैज्ञानिक केंद्रों में किए गए कई शोधों से किसी भी परिस्थिति में किसी व्यक्ति का पता लगाने और पहचानने में सक्षम वास्तव में काम करने वाले कंप्यूटर विज़न सिस्टम का निर्माण नहीं हो सका है। बायोमेट्रिक मानव पहचान के लिए वैकल्पिक प्रणालियों के विकास में उपयोग किए जाने वाले कार्यों और तरीकों की समानता के बावजूद, जैसे फिंगरप्रिंट या आईरिस छवि द्वारा पहचान, चेहरे की छवि द्वारा पहचान प्रणाली उपरोक्त प्रणालियों से काफी कमतर हैं।

कंप्यूटर विज़न सिस्टम के सामने एक गंभीर समस्या रोशनी, रंग, पैमाने और अवलोकन कोणों में परिवर्तन से जुड़ी दृश्य छवियों की बड़ी परिवर्तनशीलता है। इसके अलावा, लोगों को सड़कों पर और घर के अंदर कपड़े पहनकर चलने की आदत होती है, जिससे एक ही व्यक्ति की छवियों में महत्वपूर्ण परिवर्तनशीलता होती है। हालाँकि, कंप्यूटर विज़न में सबसे चुनौतीपूर्ण समस्या अस्पष्टता की समस्या है जो 3डी वास्तविक दुनिया की वस्तुओं को सपाट छवियों पर प्रक्षेपित करते समय उत्पन्न होती है। किसी छवि में अलग-अलग पिक्सेल का रंग और चमक बड़ी संख्या में कारकों पर निर्भर करती है जिनका अनुमान लगाना मुश्किल है। इन कारकों में शामिल हैं:

  1. प्रकाश स्रोतों की संख्या और स्थान;
  2. विकिरण का रंग और तीव्रता;
  3. आसपास की वस्तुओं से छाया या प्रतिबिंब।

छवि में मौजूद डेटा की भारी मात्रा के कारण छवि में वस्तुओं का पता लगाने का कार्य भी जटिल है। एक छवि में हजारों पिक्सेल हो सकते हैं, जिनमें से प्रत्येक का एक महत्वपूर्ण अर्थ हो सकता है। छवि में मौजूद जानकारी के पूर्ण उपयोग के लिए वस्तुओं की संभावित परिवर्तनशीलता को ध्यान में रखते हुए यह निर्धारित करने के लिए प्रत्येक पिक्सेल के विश्लेषण की आवश्यकता होती है कि यह किसी वस्तु या पृष्ठभूमि से संबंधित है या नहीं। इस तरह के विश्लेषण के लिए आवश्यक मेमोरी और कंप्यूटर प्रदर्शन में उच्च लागत की आवश्यकता हो सकती है।

इस समस्या का समाधान उन वस्तुओं के विवरण के सही चयन में निहित है जिनकी पहचान और पहचान के लिए सिस्टम बनाया गया है। किसी वस्तु के विवरण में उसकी सबसे विशिष्ट विशेषताओं को ध्यान में रखा जाना चाहिए और इतना प्रतिनिधि होना चाहिए कि इस वस्तु को आसपास के दृश्य के अन्य तत्वों से अलग किया जा सके। वांछित विवरण चुनते समय व्यक्तिपरकता से बचने के लिए, आप किसी वस्तु की उपयुक्त विशेषताओं को स्वचालित रूप से चुनने के तरीकों का उपयोग कर सकते हैं, जो आनुवंशिक एल्गोरिदम में और कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करते समय लागू किए जाते हैं। साथ ही, ऑब्जेक्ट विवरण में कई पैरामीटर हैं जिन्हें वर्तमान में एक शोधकर्ता द्वारा एक पहचान और पहचान प्रणाली विकसित करने के लिए चुना जाना चाहिए। इन विकल्पों में शामिल हैं:

  1. दृश्य और वस्तु के 2डी और 3डी प्रतिनिधित्व के बीच चयन। 2डी प्रतिनिधित्व का उपयोग करने वाले एल्गोरिदम आमतौर पर 3डी एल्गोरिदम की तुलना में सरल होते हैं, लेकिन साथ ही उन्हें अलग-अलग देखने की स्थितियों के तहत वस्तु के प्रतिनिधित्व के अनुरूप बड़ी संख्या में विभिन्न विवरणों की आवश्यकता होती है;
  2. किसी वस्तु को एक संपूर्ण के रूप में या कई परस्पर जुड़े तत्वों से युक्त एक प्रणाली के रूप में वर्णित करने के बीच का विकल्प;
  3. वस्तु की विशिष्टताओं का वर्णन करने वाली ज्यामितीय या अन्य विशेषताओं के आधार पर सुविधाओं की एक प्रणाली के बीच चयन।

सबसे सामान्य मामले में, किसी व्यक्ति को उसके चेहरे की छवि से पहचानने और पहचानने की समस्या को हल करने के लिए एल्गोरिदम में निम्नलिखित स्पष्ट चरण होते हैं:

  1. विश्लेषित दृश्य में किसी व्यक्ति की उपस्थिति का पता लगाना;
  2. मानव आकृति को उजागर करना;
  3. सिर का चयन;
  4. सिर के देखने के कोण का निर्धारण (पूरा चेहरा, प्रोफ़ाइल);
  5. चेहरे का चयन;
  6. मानकों और पहचान के साथ तुलना।

विशिष्ट स्थितियों के आधार पर, एल्गोरिदम के व्यक्तिगत चरणों की संरचना और कार्यान्वयन भिन्न हो सकते हैं। सबसे कठिन मामले में, अत्यधिक बदलते परिवेश में, इनपुट डेटा के एक बड़े प्रवाह (भारी यातायात के साथ शहर की सड़कों पर, मेट्रो, हवाई अड्डों पर काम करते हुए) किसी व्यक्ति का उसके चेहरे की छवि के आधार पर पता लगाने और पहचानने के लिए एक प्रणाली का उपयोग करते समय, आदि), एल्गोरिथम के संतोषजनक परिणाम प्राप्त करने के लिए अधिकतम उपलब्ध जानकारी का उपयोग करना आवश्यक है। एल्गोरिदम को दृश्य के स्थिर और धीरे-धीरे बदलते तत्वों को प्रभावी ढंग से काटने, विभिन्न प्रकाश स्थितियों में काम करने, विभिन्न कोणों से किसी व्यक्ति की आकृति की पहचान करने, कई लोगों की गतिविधियों को ट्रैक करने और किसी दिए गए व्यक्ति की पहचान के लिए उपयुक्त क्षण का स्वचालित रूप से चयन करने में सक्षम होना चाहिए ( उदाहरण के लिए, जब पर्याप्त रिज़ॉल्यूशन वाले चेहरे की सामने की छवि प्राप्त करना संभव हो)। ऐसी एल्गोरिदम क्षमताओं को सुनिश्चित करने के लिए, सिस्टम की एक निश्चित हार्डवेयर समृद्धि की आवश्यकता होती है, जिसमें दृश्य की 3 डी संरचना को उजागर करने की क्षमता के साथ मल्टी-कैमरा देखने और दृश्य विश्लेषण, गति द्वारा दृश्य तत्वों को फ़िल्टर करने के लिए वीडियो स्ट्रीम के उच्च गति इनपुट शामिल हैं। पैरामीटर, और दृश्य तत्वों को उजागर करने के लिए रंग का उपयोग। इसके अलावा, विश्वसनीय पहचान की अधिकतम संभव सीमा सुनिश्चित करने के लिए उच्च रिज़ॉल्यूशन और अच्छे प्रकाशिकी वाले कैमरों की आवश्यकता होती है। सरल मामलों में, एक स्थिर दृश्य और घटनाओं के सीमित प्रवाह (लोगों की उपस्थिति) के साथ, एक सरल हार्डवेयर संरचना और एल्गोरिदम का उपयोग करना संभव है, उदाहरण के लिए, एक स्टीरियो जोड़ी या एक कैमरा और एक पूर्व-तैयार दृश्य मॉडल हो सकता है यह विश्वसनीय रूप से यह निर्धारित करने के लिए पर्याप्त है कि कोई व्यक्ति नियंत्रण क्षेत्र में है या नहीं, उसके आंकड़े को उजागर करना और उसकी पहचान करना। किसी मंच पर किसी व्यक्ति की उपस्थिति निर्धारित करने के कार्य के लिए एल्गोरिथम से एक निश्चित स्तर की बुद्धिमत्ता की आवश्यकता होती है। यह एक ऐसी प्रणाली नहीं होनी चाहिए जो केवल इस तथ्य पर प्रतिक्रिया करती है कि दृश्य बदल जाता है। रोशनी में परिवर्तन, स्थिर वस्तुओं से छाया की गति, नियंत्रण क्षेत्र में जानवरों की उपस्थिति आदि होने पर मानव पहचान एल्गोरिदम को गलत अलार्म नहीं देना चाहिए। जब ​​यह आवश्यक होता है, तो दृश्य का पर्याप्त विवरण बनाने की समस्या उत्पन्न होती है। यह विवरण दृश्य के त्रि-आयामी मॉडल, रंगों के वितरण या दृश्य तत्वों की चमक का एक संभाव्य मॉडल, या विशेषताओं की एक प्रणाली का प्रतिनिधित्व कर सकता है जो दृश्य तत्वों को पहचान वस्तुओं (हमारे मामले में, मानव आंकड़े) से अलग करता है। पृष्ठभूमि या अग्रभूमि माने जाने वाले दृश्य तत्वों के बीच संबंध बदल सकता है। वही मानव आकृति, यदि उसकी छवि ऑप्टिकल सिस्टम के रिज़ॉल्यूशन द्वारा निर्धारित एक निश्चित सीमा मूल्य से कम है, तो उसे पृष्ठभूमि तत्वों के रूप में वर्गीकृत किया जा सकता है, क्योंकि इसका विश्लेषण मुख्य कार्य - किसी व्यक्ति की पहचान करने के लिए अनुत्पादक है।

किसी व्यक्ति को उसके चेहरे की छवि से पहचानने के लिए उपयोग किए जाने वाले एल्गोरिदम का चुनाव भी इसके अनुप्रयोग की विशिष्ट स्थितियों पर निर्भर करता है। उदाहरण के लिए, एक बहुपरत तंत्रिका नेटवर्क सख्ती से सीमित समूह में पहचान कार्य को आसानी से संभाल सकता है। साथ ही, भीड़ में (अनिश्चित संरचना के साथ) किसी विशिष्ट व्यक्ति का पता लगाने के कार्य के लिए झूठे अलार्म के स्तर को कम करने के लिए परिष्कृत तरीकों के उपयोग की आवश्यकता होती है। सबसे अधिक संभावना है, इस मामले में, एक बहु-स्तरीय प्रणाली की आवश्यकता होगी, जिसमें मतदान पद्धति का उपयोग करके निर्णय लेने के साथ विभिन्न फीचर स्थानों में काम करने वाले कई विश्लेषक शामिल होंगे। काम के शुरुआती चरणों में, पहचान प्रणाली को स्पष्ट रूप से अनुपयुक्त उम्मीदवारों को काट देना चाहिए और पहचान पर अंतिम निर्णय लेने के लिए उम्मीदवारों के शेष सेट का उपयोग करना चाहिए।

किसी व्यक्ति के चेहरे की छवि से उसका पता लगाने और उसकी पहचान करने के मौजूदा तरीकों का अवलोकन नीचे दिया गया है। समीक्षा में केवल उन तरीकों को शामिल किया गया है, जो लेखकों के अनुसार, प्राकृतिक सेटिंग में चेहरे की छवियों से किसी व्यक्ति और उसकी व्यक्तिगत पहचान का पता लगाने के लिए आधुनिक एल्गोरिदम में सबसे अधिक उपयोग किए जाते हैं।

छवि पहचान के लिए विभिन्न एल्गोरिदम और विधियों की विविधता के साथ, एक विशिष्ट पहचान विधि में तीन मुख्य घटक होते हैं:

  1. मूल छवि को मानक प्रतिनिधित्व में परिवर्तित करना;
  2. प्रमुख विशेषताओं पर प्रकाश डालना;
  3. वर्गीकरण (मॉडलिंग) तंत्र: क्लस्टर मॉडल, मीट्रिक, तंत्रिका नेटवर्क, आदि।

इसके अलावा, एक पहचान विधि का निर्माण विषय क्षेत्र (इस मामले में, किसी व्यक्ति के चेहरे की विशेषताओं) के बारे में प्राथमिक जानकारी पर आधारित होता है और विधि के विकास के दौरान दिखाई देने वाली प्रयोगात्मक जानकारी द्वारा समायोजित किया जाता है।

प्रमुख घटक विधि.

प्रिंसिपल कंपोनेंट एनालिसिस (पीसीए) विधि का उपयोग सूचना सामग्री के महत्वपूर्ण नुकसान के बिना जानकारी को संपीड़ित करने के लिए किया जाता है। इसमें आयाम $N$ के इनपुट वेक्टर $\textbf(x)$ का आयाम $M$, $N>M$ के आउटपुट वेक्टर $\textbf(y)$ में एक रैखिक ऑर्थोगोनल परिवर्तन शामिल है। इस मामले में, वेक्टर $\textbf(y)$ के घटक असंबद्ध हैं और इसलिए, परिवर्तन के बाद कुल विचरण अपरिवर्तित रहता है। मैट्रिक्स $\textbf(X)$ में प्रशिक्षण सेट के सभी उदाहरण चित्र शामिल हैं। समीकरण $\boldsymbol\Lambda = \boldsymbol(\Phi)^T \boldsymbol(\Sigma)\boldsymbol(\Phi) $ को हल करने के बाद, हम eigenvectors $\boldsymbol(\Phi)$ का मैट्रिक्स प्राप्त करते हैं, जहां $\ बोल्डसिम्बोल(\सिग्मा )$, $\textbf(x)$ के लिए सहप्रसरण मैट्रिक्स है, और $\boldsymbol(\Lambda)$ eigenvalues ​​​​का विकर्ण मैट्रिक्स है। $\boldsymbol(\Phi)$ से $M$ के सबसे बड़े eigenvalues ​​​​के अनुरूप सबमैट्रिक्स $\boldsymbol(\Phi)_M$ को चुनने पर, हम पाते हैं कि परिवर्तन $\textbf(y) = \boldsymbol(\Psi)_M^ T \ वाइडटिल्डे(\textbf(x))$, जहां $\वाइडटिल्डे(\textbf(x)) = \textbf(x) - \overline(\textbf(x))$ शून्य गणितीय अपेक्षा के साथ एक सामान्यीकृत वेक्टर है, विशेषताएँ कुल विचरण का अधिकांश भाग और $\textbf(x)$ में सबसे महत्वपूर्ण परिवर्तनों को दर्शाता है। पहले $M$ प्रमुख घटकों को चुनने से वेक्टर स्पेस एक प्रिंसिपल (eigen) स्पेस में विभाजित हो जाता है $F = \left\(\boldsymbol(\Phi)_i\right\)_(i=1)^M$ जिसमें प्रमुख घटक होते हैं , और इसका ऑर्थोगोनल पूरक $F = \left\(\boldsymbol(\Phi)_i\right\)_(i=M+1)^(N)$. प्रमुख घटक विधि में सदस्यता के संकेतक के रूप में निम्नलिखित का उपयोग किया जाता है:

डीआईएफएस - फीचर स्पेस में दूरी, अपने स्वयं के स्थान में विश्लेषण की गई छवि की छवि से संदर्भ छवि तक की दूरी;

डीएफएफएस - फीचर स्पेस से दूरी, अवलोकन स्पेस में विश्लेषण की गई छवि के प्रतिनिधित्व से अपने स्वयं के स्पेस में मानक के प्रक्षेपण तक की दूरी।

आइजेनवेक्टर छवियों का उदाहरण (आइजेनफेस)

चेहरे की छवि से किसी व्यक्ति को पहचानने के कार्य के लिए आवेदन का रूप निम्नलिखित है। इनपुट वैक्टर चेहरों की केंद्रित और स्केल की गई छवियां हैं। चेहरे की छवियों के पूरे सेट के लिए गणना किए गए आइजेनवेक्टरों को आइजेनफेस कहा जाता है। चेहरों की छवियों पर लागू होने पर प्रमुख घटकों की विधि को आइजनफेस की विधि भी कहा जाता है (चित्र 1)। पहले से गणना की गई मैट्रिक्स का उपयोग करके, इनपुट छवि को रैखिक गुणांक के एक सेट में विघटित किया जाता है जिसे प्रमुख घटक कहा जाता है। पहले प्रमुख घटकों के $N$ के योग को संबंधित eigenvectors से गुणा करने पर ऑर्डर $N$ की छवि का एक अनुमान प्राप्त होता है (चित्र 2)।

सामान्यीकृत चेहरे की छवि ($\textit(a)$) और $85$ प्रमुख घटकों का उपयोग करके इसका पुनर्निर्माण ($\textit(b)$)

प्रत्येक चेहरे की छवि के लिए, उसके प्रमुख घटकों की गणना की जाती है। आमतौर पर, मुख्य घटक $5 से $200 तक होते हैं। शेष घटक चेहरों और शोर के बीच छोटे अंतर को कूटबद्ध करते हैं। पहचान प्रक्रिया में किसी अज्ञात छवि के प्रमुख घटकों की अन्य सभी छवियों के घटकों के साथ तुलना करना शामिल है। इस प्रयोजन के लिए, आमतौर पर किसी प्रकार की मीट्रिक का उपयोग किया जाता है (सबसे सरल मामला यूक्लिडियन दूरी है)। चेहरे के अलग-अलग क्षेत्रों जैसे आंखों, नाक और मुंह पर प्रमुख घटक विश्लेषण के अतिरिक्त अनुप्रयोग के माध्यम से विश्वसनीयता में अतिरिक्त वृद्धि हासिल की जाती है।

छवियों में चेहरों का पता लगाने के लिए प्रमुख घटक विधि का भी उपयोग किया जाता है। चेहरों के लिए, उचित स्थान में घटकों के मान बड़े हैं, और उचित स्थान के पूरक में वे शून्य के करीब हैं। इस तथ्य से, यह पता लगाया जा सकता है कि इनपुट छवि एक चेहरा है या नहीं। ऐसा करने के लिए, पुनर्निर्माण त्रुटि की भयावहता की जाँच की जाती है; त्रुटि जितनी बड़ी होगी, उतनी ही अधिक संभावना होगी कि यह कोई चेहरा नहीं है। यदि चेहरे की छवियों के सेट में नस्ल, लिंग, भावनाएं, प्रकाश व्यवस्था जैसी भिन्नताएं हैं, तो घटक दिखाई देंगे, जिसका परिमाण मुख्य रूप से इन कारकों द्वारा निर्धारित किया जाता है। इसलिए, संबंधित प्रमुख घटकों के मूल्यों के आधार पर, यह निर्धारित करना संभव है, उदाहरण के लिए, किसी व्यक्ति की जाति या लिंग। पीसीए के मुख्य नुकसान इस प्रकार हैं। ईजेनफेस विधि को इसके अनुप्रयोग के लिए आदर्श स्थितियों की आवश्यकता होती है, जैसे समान प्रकाश पैरामीटर, एक तटस्थ चेहरे की अभिव्यक्ति, और चश्मे और दाढ़ी जैसे हस्तक्षेप की अनुपस्थिति। यदि ये शर्तें पूरी नहीं होती हैं, तो प्रमुख घटक अंतरवर्ग भिन्नता को प्रतिबिंबित नहीं करेंगे। उदाहरण के लिए, विभिन्न प्रकाश स्थितियों के तहत, ईजेनफेस विधि व्यावहारिक रूप से अनुपयुक्त है क्योंकि पहले प्रमुख घटक मुख्य रूप से प्रकाश में परिवर्तन को प्रतिबिंबित करते हैं, और तुलना उन छवियों का उत्पादन करती है जिनमें समान प्रकाश स्तर होते हैं।

आइजेनवेक्टरों के एक सेट की गणना करना अत्यधिक श्रम गहन है। एक तरीका छवियों को पंक्तियों और स्तंभों में समेटना है; इस रूप में, छवि प्रतिनिधित्व आकार में छोटे परिमाण का एक क्रम है, गणना और पहचान तेज़ होती है, लेकिन मूल छवि को पुनर्स्थापित करना अब संभव नहीं है।

रैखिक विभेदक विश्लेषण.

लीनियर डिस्क्रिमिनेंट एनालिसिस (एलडीए) फीचर स्पेस पर इमेज स्पेस के प्रक्षेपण का उपयोग करता है जो इंट्रा-क्लास को कम करता है और फीचर स्पेस में अंतर-क्लास दूरी को अधिकतम करता है। ये विधियाँ मानती हैं कि कक्षाएं रैखिक रूप से अलग की जा सकती हैं।

फीचर स्पेस पर इमेज स्पेस को प्रोजेक्ट करने के लिए मैट्रिक्स $\textbf(W)$ को निम्नलिखित स्थिति से चुना गया है: $$ \textbf(W)_(\textrm(opt))= \textrm(arg) \max_\textbf (डब्ल्यू) \frac (\textbf(W)^T \textbf(S)_\textbf(B) \textbf(W))(\textbf(W)^T \textbf(S)_\textbf(W) \ textbf(W)) , $$ जहां $\textbf(S)_(\textbf(B))$ इंटरक्लास वेरिएंस मैट्रिक्स है, $\textbf(S)_(\textbf(W))$ इंट्राक्लास वेरिएंस मैट्रिक्स है .

$c-1$ तक वेक्टर हो सकते हैं जो फ़ीचर स्पेस का आधार बनाते हैं, जहाँ $c$ कक्षाओं की कुल संख्या है। इन वैक्टरों का उपयोग करके, इमेज स्पेस को फीचर स्पेस में बदल दिया जाता है।

चूँकि मैट्रिक्स $\textbf(S)_\textbf(W) \in (R)^(n\times n) $ के साथ सीधे काम करना इसके आयाम के कारण कठिन है, प्रारंभिक आयाम में कमी का उपयोग मुख्य घटक विधि का उपयोग करके किया जाता है, और फिर गणना निम्न आयाम के स्थान में की जाती है: $$ \textbf(W)_\textrm(fld)=\textrm(arg) \max_\textbf(W) \frac(\textbf(W)^T \textbf( W)_(\ textrm(pca))^T \textbf(S)_\textbf(B) \textbf(W)_(\textrm(pca)) \textbf(W))(\textbf(W)^T \textbf(W) _(\textrm(pca))^T \textbf(S)_\textbf(W) \textbf(W)_(\textrm(pca)) \textbf(W)), $$ जहां $ \textbf(W) _(\textrm(pca))$ निम्न-आयामी स्थान (प्रमुख घटकों का स्थान) में प्रक्षेपण के लिए एक मैट्रिक्स है।

आमतौर पर, प्रशिक्षण सेट में कई बुनियादी प्रकाश स्थितियों के तहत चेहरों की छवियां होती हैं, जिनसे रैखिक संयोजनों का उपयोग करके किसी भी अन्य प्रकाश स्थितियों को प्राप्त किया जा सकता है। यह विधि विभिन्न प्रकाश स्थितियों, विभिन्न चेहरे के भावों और चश्मे की उपस्थिति या अनुपस्थिति के लिए उच्च पहचान सटीकता (लगभग 96(\%)) देती है। हालाँकि, यह सवाल बना हुआ है कि क्या यह विधि बड़े डेटाबेस को खोजने के लिए लागू है, और क्या यह विधि तब काम कर सकती है जब कुछ चेहरों के लिए प्रशिक्षण सेट में केवल एक प्रकाश स्थिति में छवियां हों। एलडीए का उपयोग करके चेहरे का पता लगाने के कार्य के लिए, चेहरे और गैर-चेहरे वर्गों को उपवर्गों में विभाजित किया गया है। उपरोक्त विधि छवि स्थान में वर्गों की रैखिक पृथक्करणीयता की धारणा पर आधारित है। सामान्यतः यह धारणा ग़लत है। तंत्रिका नेटवर्क विधियाँ जटिल विभाजन सतहों के निर्माण के लिए एक उपकरण प्रदान करती हैं।

रैखिक वर्गों की वस्तुओं का संश्लेषण।

यह विधि आपको विभिन्न कोणों के लिए किसी वस्तु की नई छवियों (और विशेष रूप से, चेहरे की छवियों) को संश्लेषित करने की अनुमति देती है। इसमें चेहरों की छवियों का एक प्रशिक्षण सेट और एक निश्चित कोण से एक नई वस्तु की केवल एक छवि होती है। प्रशिक्षण सेट में नई वस्तु के समान वर्ग (इस मामले में चेहरा वर्ग) की वस्तुओं की छवियां शामिल हैं, और इसमें विभिन्न चेहरों की छवियां शामिल हैं, और प्रत्येक चेहरे के लिए व्यापक कोणों से इसकी छवियां हैं। एक नई वस्तु के लिए जिसकी छवि $A$ में $X^(A)$ है, गुणांक $\alpha_i की गणना के साथ, उसी परिप्रेक्ष्य में प्रशिक्षण सेट से वस्तुओं की छवियों में एक रैखिक अपघटन किया जाता है। : X^A = \sum_(i=1 )^(q)\alpha_i X_i^A , $ जहां $q$ प्रशिक्षण सेट में वस्तुओं की संख्या है। एक नई वस्तु के लिए एक नए परिप्रेक्ष्य $B$ में छवि $X^(B)$ का संश्लेषण समान गुणांक के साथ परिप्रेक्ष्य $B$ में प्रशिक्षण सेट से छवियों को जोड़कर किया जाता है: $X^B = \sum_(i =1)^(क्यू) \alpha_i X_i^B $. इस प्रकार, विधि आपको जटिल त्रि-आयामी मॉडल के उपयोग के बिना एक छवि से विभिन्न कोणों से एक नई वस्तु की छवियों को संश्लेषित करने की अनुमति देती है। जटिल त्रि-आयामी मॉडल के उपयोग के बिना नए कोणों से छवियों को संश्लेषित करने के लिए यह विधि आशाजनक है, लेकिन प्रशिक्षण सेट में उदाहरणों की गुणवत्ता और संख्या का प्रश्न खुला रहता है।

लचीले समोच्च चेहरे के मॉडल।

इन विधियों में, चेहरे की आकृति की तुलना के आधार पर पहचान की जाती है। रूपरेखा आमतौर पर सिर, कान, होंठ, नाक, भौहें और आंखों की रेखाओं के लिए निकाली जाती है। समोच्चों को प्रमुख स्थितियों द्वारा दर्शाया जाता है, जिनके बीच समोच्च से संबंधित बिंदुओं की स्थिति की गणना प्रक्षेप द्वारा की जाती है। रूपरेखा को स्थानीयकृत करने के लिए, विभिन्न विधियाँ प्राथमिक जानकारी और प्रशिक्षण सेट के विश्लेषण से प्राप्त जानकारी दोनों का उपयोग करती हैं। आमतौर पर, मुख्य बिंदुओं को प्रशिक्षण छवियों के एक सेट पर मैन्युअल रूप से रखा जाता है। किसी नए चेहरे की आकृति की खोज करते समय, दो घटकों के उद्देश्य फ़ंक्शन के साथ एक सिम्युलेटेड एनीलिंग विधि का उपयोग किया जाता है। उनमें से पहले के लिए, अधिकतम तब खोजा जाता है जब समोच्च के लंबवत रेखा पर निकाले गए पिक्सेल की तीव्रता दूसरे के लिए प्रशिक्षण सेट से पिक्सेल के समान होती है, जब समोच्च समोच्च के आकार के साथ मेल खाता है; प्रशिक्षण के उदाहरण. इस प्रकार चेहरे की विशेषताओं की रूपरेखा निकाली जाती है। छवियों की तुलना करने के लिए, प्रमुख घटकों के मूल्यों का उपयोग किया जाता है, जिनकी गणना मुख्य बिंदुओं के निर्देशांक का प्रतिनिधित्व करने वाले वैक्टर के एक सेट पर की जाती है। समोच्च पहचान में मुख्य कार्य इन समोच्चों का सही चयन है। सामान्य तौर पर, यह कार्य जटिलता में छवि पहचान के बराबर है।

लोचदार ग्राफ़ की तुलना।

इस पद्धति (इलास्टिक बंच ग्राफ मैचिंग) में, चेहरे को एक ग्राफ के रूप में दर्शाया जाता है, जिसके शीर्ष चेहरे के प्रमुख बिंदुओं जैसे सिर, होंठ, नाक और उनके चरम बिंदुओं पर स्थित होते हैं। प्रत्येक फलक को उसके शीर्षों के बीच की दूरी के साथ लेबल किया गया है। ऐसे प्रत्येक बिंदु पर, गैबोर फ़ंक्शन के संदर्भ में विस्तार गुणांक की गणना पांच अलग-अलग आवृत्तियों और आठ अभिविन्यासों के लिए की जाती है। ऐसे गुणांकों के सेट $\textbf(J) = \(J_j\)$ को $\textit(jet)$ (जेट) कहा जाता है। जेट छवियों के स्थानीय क्षेत्रों को चित्रित करते हैं और दो उद्देश्यों की पूर्ति करते हैं: पहला, दो अलग-अलग छवियों में किसी दिए गए क्षेत्र में पत्राचार बिंदु ढूंढना; दूसरे, विभिन्न छवियों के दो संगत क्षेत्रों की तुलना करना। विभिन्न छवियों के एक क्षेत्र से बिंदुओं के लिए प्रत्येक गुणांक $J_j = a_j \exp (i \phi_j)$ को एक आयाम $a_j$ की विशेषता होती है, जो बिंदु की स्थिति के साथ धीरे-धीरे बदलता है, और एक चरण $\phi_j$ , जो तरंग आधार फ़ंक्शन वेक्टर की आवृत्ति के समानुपाती गति से घूमता है। इसलिए, सबसे सरल मामले में, एक नई छवि में समान विशेषताओं वाले बिंदुओं की खोज करने के लिए, समानता फ़ंक्शन में चरण को ध्यान में नहीं रखा जाता है: $$ S_a(\textbf(J), \textbf(J)") = \ frac(\sum_j a_ja_j^(\ prime)) (\sqrt(\sum_j a_j^2 \sum_j a_j^(\ prime 2))) .$$ एक जेट के साथ समानता फ़ंक्शन एक निश्चित स्थिति में और दूसरा एक परिवर्तनीय स्थिति में प्रसार या ग्रेडिएंट डिसेंट जैसे सरल तरीकों का उपयोग करके खोज करते समय तेज़ और विश्वसनीय अभिसरण प्राप्त करने के लिए पर्याप्त आसान है। अधिक उन्नत समानता कार्यों में विभिन्न कोणों के लिए, विभिन्न विविधताओं का प्रतिनिधित्व करने के लिए, प्रशिक्षण सेट पर मैन्युअल रूप से चिह्नित किया जाता है एक में इसकी छवि और एक ही ग्राफ, प्रत्येक बिंदु के लिए कई जेट का उपयोग किया जाता है, जिनमें से प्रत्येक किसी दिए गए बिंदु की विभिन्न स्थानीय विशेषताओं के अनुरूप हो सकता है, उदाहरण के लिए, एक खुली और बंद आंख में एक अज्ञात चेहरे को पहचानने की प्रक्रिया शामिल होती है चेहरे की छवि ग्राफ़ $G^I$ की तुलना अन्य सभी ग्राफ़ से करने के लिए, समानता फ़ंक्शन $$ S_B (G^I , B)= \frac(1)(N) \sum_n \max_m S_( का उपयोग करके $B$ सेट करें। \phi)(J_n^I , J_n^(Bm))- \frac (\lambda)(E)\sum_e \frac((\Delta \textbf(x)_e^I - \Delta \textbf(x)_e^ बी)^2)((\Delta \textbf(x)_e^B )^2). $$

बायां योग जेट की समानता को दर्शाता है, जिसकी गणना एक चरण-संवेदनशील फ़ंक्शन का उपयोग करके की जाती है, दायां योग स्थलाकृतिक पत्राचार है, जो तुलना की गई छवियों के संबंधित शीर्षों के बीच की दूरी के अंतर के वर्ग के समानुपाती होता है, $N$ है शीर्षों की संख्या, $E$ फलकों की संख्या है, $\lambda$ स्थलाकृतिक जानकारी के सापेक्ष महत्व का गुणांक है।

ऊपर प्रस्तुत प्रपत्र में, विधि $20$° तक के कोण में परिवर्तन को काफी विश्वसनीय रूप से पहचानने में सक्षम है; बड़े कोणों पर, पहचान सटीकता तेजी से कम हो जाती है, समानता फ़ंक्शन अंतरवर्ग अंतर की तुलना में कोण के प्रति अधिक संवेदनशील हो जाता है; विधि का आगे का विकास प्रशिक्षण सेट के विश्लेषण के आधार पर महत्व गुणांक निकालना है। प्रत्येक जेट के लिए, महत्व गुणांक की गणना सिंप्लेक्स विधि का उपयोग करके की जाती है, जिसे बाद में समानता फ़ंक्शन में उपयोग किया जाता है। महत्व गुणांक की गणना एक ही व्यक्ति के लिए समानता फ़ंक्शन को अधिकतम करने और विभिन्न लोगों के लिए इसे कम करने की स्थिति से की जाती है। इस पद्धति के पहले के रूप भी मौजूद हैं जो आरंभिक रूप से परिभाषित मुख्य बिंदुओं और ग्राफ़ संरचनाओं का उपयोग नहीं करते हैं। उनमें से कुछ तुलना के लिए छवि पर आरोपित जेट जाली का उपयोग करते हैं, चित्र। 3. किसी अज्ञात छवि में पत्राचार बिंदु पाए जाते हैं, और फिर पाए गए बिंदुओं से एक विकृत जाली का निर्माण किया जाता है और सबसे समान छवि निर्धारित करने के लिए इसके विरूपण की डिग्री को मापा जाता है। अन्य तरीकों में, जेट निष्कर्षण बिंदु शुरू में एक जाली बनाते हैं, और फिर प्रशिक्षण प्रक्रिया के दौरान मान्यता के लिए सबसे कम उपयुक्त बिंदुओं को समाप्त कर दिया जाता है।

एक छवि और उसके विकृत संस्करण पर आरोपित एक इलास्टिक ग्रिड

चेहरे की ज्यामितीय विशेषताओं पर आधारित विधियाँ।

सबसे पहली विधियों में से एक है चेहरे की ज्यामितीय विशेषताओं का विश्लेषण। प्रारंभ में, इसका उपयोग फोरेंसिक विज्ञान में किया गया था और वहां इसे विस्तार से विकसित किया गया था। फिर इस पद्धति का कंप्यूटर कार्यान्वयन सामने आया। इसका सार चेहरे के प्रमुख बिंदुओं (या क्षेत्रों) का एक सेट चुनना और फिर सुविधाओं का एक सेट चुनना है। प्रत्येक विशेषता या तो मुख्य बिंदुओं के बीच की दूरी या ऐसी दूरियों का अनुपात है। लोचदार ग्राफ तुलना विधि के विपरीत, यहां दूरियों को ग्राफ आर्क के रूप में नहीं चुना गया है। सबसे अधिक जानकारीपूर्ण विशेषताओं के सेट को प्रयोगात्मक रूप से पहचाना जाता है।

मुख्य बिंदु आंखों के कोने, होंठ, नाक की नोक, आंख का केंद्र आदि हो सकते हैं। चित्र। 4. आयताकार क्षेत्र प्रमुख क्षेत्रों के रूप में काम कर सकते हैं, जिनमें शामिल हैं: आंखें, नाक, मुंह।

पहचान प्रक्रिया के दौरान, किसी अज्ञात चेहरे की विशेषताओं की तुलना डेटाबेस में संग्रहीत विशेषताओं से की जाती है। मुख्य बिंदुओं को खोजने का कार्य स्वयं पहचान की जटिलता तक पहुंचता है, और छवि में मुख्य बिंदुओं की सही खोज काफी हद तक पहचान की सफलता को निर्धारित करती है। इसलिए, किसी व्यक्ति के चेहरे की छवि उस हस्तक्षेप से मुक्त होनी चाहिए जो मुख्य बिंदुओं की खोज की प्रक्रिया में हस्तक्षेप करती है। इस तरह के हस्तक्षेप में चश्मा, दाढ़ी, गहने, हेयर स्टाइल और मेकअप शामिल हैं। प्रकाश व्यवस्था अधिमानतः एक समान होनी चाहिए और सभी छवियों के लिए समान होनी चाहिए। इसके अलावा, चेहरे की छवि में संभवतः मामूली विचलन के साथ एक ललाट कोण होना चाहिए। चेहरे के भाव तटस्थ होने चाहिए. यह इस तथ्य के कारण है कि अधिकांश विधियों में ऐसे परिवर्तनों के लेखांकन के लिए कोई मॉडल नहीं होता है।

इस प्रकार, यह विधि शूटिंग स्थितियों पर काफी सख्त आवश्यकताएं लगाती है और सामान्य मामले के लिए मुख्य बिंदुओं को खोजने के लिए एक विश्वसनीय तंत्र की आवश्यकता होती है। इसके अलावा, परिवर्तन मॉडल को वर्गीकृत करने या निर्माण करने के लिए अधिक उन्नत तरीकों की आवश्यकता होती है। सामान्य स्थिति में, यह विधि सबसे इष्टतम नहीं है, लेकिन कुछ विशिष्ट कार्यों के लिए यह अभी भी आशाजनक है। ऐसे कार्यों में दस्तावेज़ नियंत्रण शामिल होता है, जब वर्तमान समय में प्राप्त किसी व्यक्ति की छवि की तुलना दस्तावेज़ में मौजूद तस्वीर से करना आवश्यक होता है। हालाँकि, इस व्यक्ति की कोई अन्य छवि नहीं है, और इसलिए, प्रशिक्षण सेट के विश्लेषण के आधार पर वर्गीकरण तंत्र उपलब्ध नहीं हैं।

पहचान बिंदु और दूरियाँ: $\textit(a)$ - फोरेंसिक परीक्षा में उपयोग किया जाता है; $\textit(b)$ - अक्सर स्वचालित पहचान प्रणालियों के निर्माण में उपयोग किया जाता है

टेम्पलेट्स की तुलना.

टेम्प्लेट मिलान में चित्र में दिखाई गई छवि में चेहरे के क्षेत्रों का चयन करना शामिल है। 5, और फिर दो अलग-अलग छवियों के लिए इन क्षेत्रों की तुलना करें। प्रत्येक मिलान क्षेत्र छवि समानता के माप को बढ़ाता है। यह चेहरे की छवि से किसी व्यक्ति को पहचानने का ऐतिहासिक रूप से पहला तरीका भी है। क्षेत्रों की तुलना करने के लिए, पिक्सेल-दर-पिक्सेल तुलना जैसे सरल एल्गोरिदम का उपयोग किया जाता है।

इस पद्धति का नुकसान यह है कि इसमें भूखंडों को संग्रहीत करने और उनकी तुलना करने दोनों के लिए बहुत सारे संसाधनों की आवश्यकता होती है। इस तथ्य के कारण कि सबसे सरल तुलना एल्गोरिदम का उपयोग किया जाता है, छवियों को कड़ाई से स्थापित परिस्थितियों में लिया जाना चाहिए: कोण, प्रकाश व्यवस्था, भावनात्मक अभिव्यक्ति आदि में ध्यान देने योग्य परिवर्तन की अनुमति नहीं है।

चेहरे के टेम्पलेट में शामिल क्षेत्र

छिपे हुए मार्कोव मॉडल।

मार्कोव मॉडल विभिन्न प्रक्रियाओं और पैटर्न पहचान के मॉडलिंग के लिए एक शक्तिशाली उपकरण हैं। अपनी प्रकृति से, मार्कोव मॉडल किसी को संकेतों की स्थानिक-लौकिक विशेषताओं को सीधे ध्यान में रखने की अनुमति देते हैं, और इसलिए भाषण पहचान में व्यापक रूप से उपयोग किया जाता है, और हाल ही में - छवियों (विशेष रूप से, चेहरों की छवियां)। प्रत्येक मॉडल $\lambda = \langel \textbf(A), \textbf(B), \boldsymbol\pi \rangel$, $N$ का एक सेट है जिसमें कहा गया है $S = \(S_1 , S_2 , \ldots , S_N\ ) $, जिसके बीच संक्रमण संभव है। समय के प्रत्येक क्षण में सिस्टम कड़ाई से परिभाषित स्थिति में होता है। सबसे आम $\textit(first-order)$ मार्कोव मॉडल मानते हैं कि अगली स्थिति केवल वर्तमान स्थिति पर निर्भर करती है। प्रत्येक अवस्था में संक्रमण होने पर, एक अवलोकन योग्य प्रतीक उत्पन्न होता है जो सिम्युलेटेड सिस्टम के आउटपुट से भौतिक संकेत से मेल खाता है। प्रत्येक राज्य के लिए प्रतीकों का सेट $V = \(v_1 , v_2 , \ldots, v_M \)$, प्रतीकों की संख्या $M$। मॉडल द्वारा उत्पन्न आउटपुट निरंतर भी हो सकता है। ऐसे मॉडल भी हैं जिनमें सभी राज्यों के लिए प्रतीकों का सेट समान है। $t$ पर समय $q_t = S_j$ में एक प्रतीक प्रायिकता $b_(j k) = P (v_(k) | q_i = S_j)$ के साथ उत्पन्न होता है। ऐसी सभी संभावनाओं का सेट मैट्रिक्स $\textbf(B)= \(b_(j k)\)$ बनाता है।

मैट्रिक्स $\textbf(A) = ||a_(ij)||$ एक राज्य से दूसरे राज्य में संक्रमण की संभावना निर्धारित करता है: $a_(ij) = P (q_(i+1) = S_j | q_i = S_i) $, $1 \le i, j \le N$. ऐसा माना जाता है कि $A$ समय पर निर्भर नहीं करता। यदि प्रत्येक राज्य से एक संक्रमण में किसी अन्य राज्य तक पहुंचना संभव है, तो सभी $a_(ij) > 0$, और मॉडल को एर्गोडिक कहा जाता है। मॉडल में प्रारंभिक अवस्था $\boldsymbol\pi = \( \pi_i \)$ की संभावना है, जहां $\pi_i = P (q_1 = S_i)$। आमतौर पर वास्तविक प्रक्रियाओं में अवस्थाओं का क्रम अवलोकन से छिपा होता है और अज्ञात रहता है, और केवल सिस्टम का आउटपुट ज्ञात होता है, देखे गए प्रतीकों का क्रम $O = O_1 O_2 \ldots O_T$, जहां प्रत्येक अवलोकन $O_t$ एक प्रतीक है $V$ से, और $T$ - अनुक्रम में अवलोकनों की संख्या। इसलिए, ऐसे मॉडलों को $\textit(hidden)$ मार्कोव मॉडल (Hidden Markov models, $\textit(HMM)$) कहा जाता है।

ट्यून किए गए मापदंडों के साथ $\boldsymbol\lambda = \langel \textbf(A), \textbf(B) , \boldsymbol\pi \rangel$ मॉडल का उपयोग अवलोकनों का अनुक्रम उत्पन्न करने के लिए किया जा सकता है। ऐसा करने के लिए, प्रारंभिक संभावनाओं $\boldsymbol\pi$ के अनुसार, एक प्रारंभिक स्थिति को यादृच्छिक रूप से चुना जाता है, फिर प्रत्येक चरण पर संभाव्यता $\textbf(B)$ का उपयोग देखे गए प्रतीक को उत्पन्न करने के लिए किया जाता है, और संभावना $\ textbf(A)$ का उपयोग अगली शर्त को चुनने के लिए किया जाता है। एक मॉडल $\lambda$ द्वारा राज्यों $O$ का अनुक्रम उत्पन्न करने की संभावना $P$: $$ P(O|Q, \lambda) = \prod_(t-1)^T b_(q_t) (O_t) $ $ जहां $Q = q_1 q_2 \ldots q_T$ - अवस्थाओं का क्रम। अवलोकनों को सांख्यिकीय रूप से स्वतंत्र माना जाता है।

पैटर्न पहचान में छुपे हुए मार्कोव मॉडल का उपयोग इस प्रकार किया जाता है। प्रत्येक वर्ग $i$ का अपना मॉडल $\lambda_i$ है। मान्यता प्राप्त छवि (भाषण संकेत, छवि, आदि) को अवलोकनों के अनुक्रम $O$ के रूप में दर्शाया गया है। फिर प्रत्येक मॉडल $\lambda_i$ के लिए संभावना की गणना की जाती है कि यह अनुक्रम इस विशेष मॉडल द्वारा उत्पन्न किया जा सकता था। उच्चतम संभावना वाला मॉडल $\lambda_i$ को सबसे उपयुक्त माना जाता है, और छवि को वर्ग $j$ को सौंपा गया है।

इस संबंध में, कई प्रश्न उठते हैं, जिन्हें छिपे हुए मार्कोव मॉडल के तीन मुख्य कार्य कहा जाता है।

$O = O_1 O_2 \ldots O_T$ और ट्यून किया गया मॉडल $\boldsymbol\lambda = \langel\textbf(A), \textbf(B), \boldsymbol\pi\rangle$, संभाव्यता $P(O) का अनुमान कैसे लगाएं |\lambda )$ प्रेक्षणों के किसी दिए गए अनुक्रम के लिए इस मॉडल द्वारा उत्पन्न किया गया? इस कार्य को पहचान कार्य कहा जाता है।

  1. अवलोकनों का क्रम होना

$O = O_1 O_2 \ldots O_T$ और ट्यून किया गया मॉडल $\boldsymbol\lambda = \langel\textbf(A), \textbf(B), \boldsymbol\pi\rangle$, राज्यों के अनुक्रम का चयन कैसे करें $Q = q_1 q_2 \ ldots q_T$ ताकि यह इष्टतम हो (कुछ मानदंडों के अनुसार, यह समस्या विश्लेषणात्मक रूप से अघुलनशील है)? दूसरे शब्दों में, यह स्पष्टीकरण का कार्य है। मॉडल मापदंडों के बाद के सुधार के लिए इसकी आवश्यकता है।

  1. मॉडल पैरामीटर्स को कैसे समायोजित करें

$P(O|\lambda)$ को अधिकतम करने के लिए $\lambda$? अर्थात्, हम मॉडल को उसके वर्ग के साथ अधिक सुसंगत कैसे बना सकते हैं, जिनमें से एक छवि अवलोकनों का दिया गया अनुक्रम (या कई अलग-अलग अनुक्रम) है? यही सीखने का काम है.

पहली समस्या का एक सटीक विश्लेषणात्मक समाधान है जिसे फॉरवर्ड-बैकवर्ड प्रक्रिया कहा जाता है। अगली दो समस्याओं का कोई सटीक विश्लेषणात्मक समाधान नहीं है। दूसरी समस्या को हल करने के लिए विटरबी एल्गोरिदम का उपयोग किया जाता है, तीसरी समस्या के लिए बॉम-वेल्च एल्गोरिदम का उपयोग किया जाता है। ये दोनों विधियां ग्रेडिएंट डिसेंट की विविधताएं हैं और अनुकूलन विधियों का उपयोग करके हल की जाती हैं।

रैखिक मार्कोव मॉडल

गणनाओं को कम करने के लिए, वाक् पहचान में रैखिक मॉडल का उपयोग किया जाता है (चित्र)। 6. ऐसे मॉडलों में, प्रत्येक राज्य में केवल एक अगला राज्य होता है, और उसी राज्य में वापस संक्रमण भी संभव है। ऐसे मॉडल भाषण सिग्नल की अस्थायी विशेषताओं को ध्यान में रखते हैं: सिग्नल अनुभागों का एक निश्चित क्रम, उनकी सापेक्ष स्थिति, स्थानीय खिंचाव या संपीड़न की संभावना। यह उन्हें छवि पहचान में उपयोग करने की अनुमति देता है।

द्वि-आयामी मार्कोव मॉडल का सार यह है कि, एक-आयामी रैखिक एचएमएम के विपरीत, वे छवि विकृतियों और अनुभागों की सापेक्ष स्थिति को अलग-अलग क्षैतिज या लंबवत रूप से नहीं, बल्कि दोनों दिशाओं में एक साथ मॉडल करने की अनुमति देते हैं। कम्प्यूटेशनल जटिलता को कम करने के लिए, छद्म-2डी एचएमएम (छद्म-2डी हिडन मार्कोव मॉडल, $\textit(P2D-HMM)$) का उपयोग किया जाता है। इस तरह के मॉडल में निचले स्तर के कई रैखिक ऊर्ध्वाधर मॉडल और ऊपरी स्तर का एक रैखिक क्षैतिज मॉडल होता है, जिसका इनपुट निचले स्तर के मॉडल का आउटपुट होता है, चित्र। 7. हर

छद्म द्वि-आयामी छिपा हुआ मार्कोव मॉडल

अवलोकन नमूना साइटें निकालना

शीर्ष-स्तरीय मॉडल की स्थिति में संबंधित निचले-स्तरीय मॉडल की स्थितियों का अनुक्रम शामिल होता है। निचले स्तर के मॉडल एक दूसरे से संबंधित नहीं हैं। प्रारंभ में, ऊपरी स्तर के मॉडल ऊर्ध्वाधर थे। बाद के काम में, शीर्ष स्तर के मॉडल को क्षैतिज बनाया गया (जैसा कि चित्र में दिखाया गया है) ताकि निचले स्तर के ऊर्ध्वाधर मॉडल इस तथ्य को ध्यान में रख सकें कि आंखें अलग-अलग ऊंचाई पर हो सकती हैं। इस प्रकार, छद्म-द्वि-आयामी मॉडल स्थानीय विकृतियों और छवि क्षेत्रों की सापेक्ष स्थिति को ध्यान में रखना संभव बनाता है। लेकिन ऑप्टिकल प्रवाह और अन्य विरूपण मिलान विधियों के विपरीत, छद्म-द्वि-आयामी मॉडल विकृतियों की प्रकृति को ध्यान में रखता है, और छद्म-द्वि-आयामी एचएमएम सीखते हैं कि सीखने की प्रक्रिया के दौरान वास्तव में संभावित विकृतियां क्या हो सकती हैं। दूसरे शब्दों में, आंख के अनुरूप क्षेत्र का मिलान कभी नहीं किया जाएगा, उदाहरण के लिए, वह क्षेत्र जहां मुंह होगा।

एसएमएम की कार्यप्रणाली का एक उदाहरण. एचएमएम का इनपुट छवियों के वर्गाकार खंड हैं (चित्र 8)। यह पाया गया कि 75(\%) ओवरलैप के साथ निकाले गए क्षेत्रों ने सर्वोत्तम पहचान सटीकता दी।

एचएमएम के लिए, मॉडल का प्रारंभिक आरंभीकरण महत्वपूर्ण है। प्रशिक्षण सेट की सभी छवियों का उपयोग सभी मॉडलों के प्रारंभिक आरंभीकरण के रूप में किया जाता है। फिर प्रत्येक वर्ग मॉडल को उसकी छवियों के अनुरूप तैयार किया जाता है।

एचएमएम का नुकसान यह है कि एचएमएम में भेदभाव करने की क्षमता नहीं है, यानी सीखने का एल्गोरिदम केवल प्रत्येक मॉडल की अपनी कक्षाओं के प्रति प्रतिक्रिया को अधिकतम करता है, लेकिन अन्य वर्गों की प्रतिक्रिया को कम नहीं करता है और उन प्रमुख विशेषताओं को उजागर नहीं करता है जो एक वर्ग को दूसरे से अलग करती हैं। इस प्रकार, समान कक्षाएं खराब रूप से भिन्न हो सकती हैं और, जैसे-जैसे डेटाबेस का आकार बढ़ता है या व्यापक संदर्भ में उपयोग किया जाता है, एचएमएम अविश्वसनीय हो सकता है।

बहुपरत तंत्रिका नेटवर्क.

मल्टीलेयर न्यूरल नेटवर्क (एमएनएन) की वास्तुकला में क्रमिक रूप से जुड़ी हुई परतें होती हैं, जहां प्रत्येक परत का न्यूरॉन अपने इनपुट के साथ पिछली परत के सभी न्यूरॉन्स और अगले के आउटपुट से जुड़ा होता है। दो निर्णय परतों वाला एक तंत्रिका नेटवर्क किसी भी सटीकता के साथ किसी भी बहुआयामी फ़ंक्शन का अनुमान लगा सकता है। एक निर्णय परत वाला एक तंत्रिका नेटवर्क रैखिक पृथक्करण सतहों को बनाने में सक्षम है, जो विशेष रूप से उन समस्याओं की सीमा को सीमित करता है जिन्हें वे हल कर सकते हैं, ऐसा नेटवर्क "अनन्य या" प्रकार की समस्या को हल करने में सक्षम नहीं होगा; एक गैर-रेखीय सक्रियण फ़ंक्शन और दो निर्णायक परतों वाला एक तंत्रिका नेटवर्क समाधान स्थान में किसी भी उत्तल क्षेत्र के गठन की अनुमति देता है, और तीन निर्णायक परतों के साथ - गैर-उत्तल वाले सहित किसी भी जटिलता के क्षेत्र। साथ ही, मनसे अपनी सामान्यीकरण क्षमता नहीं खोती है। एमएनएन को बैकप्रॉपैगेशन एल्गोरिदम का उपयोग करके प्रशिक्षित किया जाता है, जो कुल नेटवर्क त्रुटि को कम करने के लिए वज़न के स्थान में एक ग्रेडिएंट डिसेंट विधि है। इस मामले में, त्रुटियां (अधिक सटीक रूप से, वजन के सुधार मूल्य) न्यूरॉन्स को जोड़ने वाले वजन के माध्यम से इनपुट से आउटपुट तक विपरीत दिशा में फैलती हैं। सिंगल-लेयर न्यूरल नेटवर्क (जिसे ऑटो-एसोसिएटिव मेमोरी कहा जाता है) का सबसे सरल अनुप्रयोग नेटवर्क को फीड की गई छवियों को फिर से बनाने के लिए प्रशिक्षित करना है। एक परीक्षण छवि को इनपुट के रूप में फीड करके और पुनर्निर्मित छवि की गुणवत्ता की गणना करके, आप मूल्यांकन कर सकते हैं कि नेटवर्क ने इनपुट छवि को कितनी अच्छी तरह पहचाना। इस पद्धति का सकारात्मक गुण यह है कि नेटवर्क विकृत और शोर वाली छवियों को पुनर्स्थापित कर सकता है, लेकिन यह अधिक गंभीर उद्देश्यों के लिए उपयुक्त नहीं है। एमएनएन का उपयोग प्रत्यक्ष छवि वर्गीकरण के लिए भी किया जाता है - इनपुट या तो किसी न किसी रूप में स्वयं छवि है, या आउटपुट पर छवि की पहले से निकाली गई प्रमुख विशेषताओं का एक सेट है, अधिकतम गतिविधि वाला न्यूरॉन मान्यता प्राप्त वर्ग में सदस्यता को इंगित करता है (चित्र)। .9).

अधिकतम गतिविधि वाला न्यूरॉन (यहां पहला) मान्यता प्राप्त वर्ग में सदस्यता का संकेत देता है। यदि यह गतिविधि एक निश्चित सीमा से नीचे है, तो यह माना जाता है कि प्रस्तुत छवि किसी भी ज्ञात वर्ग से संबंधित नहीं है। सीखने की प्रक्रिया एक निश्चित वर्ग से संबंधित इनपुट के लिए आपूर्ति की गई छवियों के पत्राचार को स्थापित करती है। इसे "पर्यवेक्षित शिक्षण" कहा जाता है। जब चेहरे की छवि से मानव पहचान पर लागू किया जाता है, तो यह दृष्टिकोण लोगों के एक छोटे समूह के लिए पहुंच नियंत्रण कार्यों के लिए अच्छा है। यह नेटवर्क को सीधे छवियों की तुलना करने की अनुमति देता है, लेकिन जैसे-जैसे कक्षाओं की संख्या बढ़ती है, नेटवर्क का प्रशिक्षण और चलने का समय तेजी से बढ़ता है, और इसलिए बड़े डेटाबेस में एक समान व्यक्ति को खोजने जैसे कार्यों के लिए प्रमुख विशेषताओं का एक कॉम्पैक्ट सेट निकालने की आवश्यकता होती है। जिसे खोज का आधार बनाया जाए।

विशेष रूप से, एमएनएन का उपयोग चेहरे की छवियों को चेहरे के कुछ विशिष्ट हिस्सों (नाक, मुंह, आंखें) के बीच की दूरी जैसी विशेषताओं के आधार पर वर्गीकृत करने के लिए किया जा सकता है। हाइब्रिड सिस्टम भी हैं, जैसे मार्कोव मॉडल के साथ संयोजन। शास्त्रीय एमएनएन में, इंटरलेयर न्यूरल कनेक्शन पूरी तरह से जुड़े हुए हैं, और छवि को एक-आयामी वेक्टर के रूप में दर्शाया गया है, हालांकि यह दो-आयामी है। कनवल्शनल न्यूरल नेटवर्क आर्किटेक्चर का लक्ष्य इन कमियों को दूर करना है। यह स्थानीय रिसेप्टर फ़ील्ड (न्यूरॉन्स की स्थानीय द्वि-आयामी कनेक्टिविटी प्रदान करता है), साझा वजन (छवि में कहीं भी कुछ विशेषताओं का पता लगाने प्रदान करता है) और स्थानिक उप-नमूनाकरण के साथ पदानुक्रमित संगठन का उपयोग करता है। कन्वेन्शनल न्यूरल नेटवर्क (सीएनएन) स्केल परिवर्तन, विस्थापन, घूर्णन और विकृतियों के लिए आंशिक प्रतिरोध प्रदान करता है। सीएनएन की वास्तुकला में कई परतें होती हैं, जिनमें से प्रत्येक में कई विमान होते हैं, और अगली परत के न्यूरॉन्स केवल स्थानीय क्षेत्र के आसपास से पिछली परत के न्यूरॉन्स की एक छोटी संख्या से जुड़े होते हैं (जैसा कि मानव दृश्य में होता है) कॉर्टेक्स)। एक तल के प्रत्येक बिंदु पर भार समान (संकेंद्रित परत) होता है। संकेंद्रित परत के बाद एक परत आती है जो स्थानीय औसत द्वारा इसके आयाम को कम करती है। फिर पुन: संकेंद्रित परत, इत्यादि। इस प्रकार, एक पदानुक्रमित संगठन प्राप्त किया जाता है। बाद की परतें अधिक सामान्य विशेषताएं निकालती हैं जो छवि विरूपण से कम प्रभावित होती हैं। सीएनएन को मानक बैकप्रॉपैगेशन विधि का उपयोग करके प्रशिक्षित किया जाता है। एमएनएस और सीएनएन की तुलना ने वर्गीकरण की गति और विश्वसनीयता दोनों के संदर्भ में बाद के महत्वपूर्ण फायदे दिखाए। सीएनएन की एक उपयोगी संपत्ति यह है कि पदानुक्रम की ऊपरी परतों के आउटपुट पर उत्पन्न विशेषताओं का उपयोग निकटतम पड़ोसी विधि (उदाहरण के लिए, यूक्लिडियन दूरी की गणना) का उपयोग करके वर्गीकरण के लिए किया जा सकता है, और सीएनएन छवियों के लिए ऐसी विशेषताओं को सफलतापूर्वक निकाल सकता है जो प्रशिक्षण सेट में नहीं हैं। सीएनएन को सीखने और संचालन की उच्च गति की विशेषता है। प्रकाश, पैमाने, स्थानिक घुमाव, स्थिति और विभिन्न भावनाओं में मामूली बदलाव के साथ चेहरों की छवियों वाले ओआरएल डेटाबेस पर सीएनएन का परीक्षण करने से लगभग 98(\%) पहचान सटीकता दिखाई दी, और ज्ञात चेहरों के लिए, उनकी छवियों के वेरिएंट प्रस्तुत किए गए जो नहीं थे प्रशिक्षण सेट में. यह परिणाम इस वास्तुकला को स्थानिक वस्तुओं की छवि पहचान के क्षेत्र में आगे के विकास के लिए आशाजनक बनाता है। एमएनएन का उपयोग एक निश्चित प्रकार की वस्तुओं का पता लगाने के लिए भी किया जाता है। इसके अलावा, कोई भी प्रशिक्षित एमएनएन, कुछ हद तक, यह निर्धारित कर सकता है कि छवियां "उनके" वर्गों से संबंधित हैं या नहीं, इसे कुछ वर्गों का विश्वसनीय रूप से पता लगाने के लिए विशेष रूप से प्रशिक्षित किया जा सकता है; इस मामले में, आउटपुट वर्ग वे वर्ग होंगे जो दिए गए छवि प्रकार से संबंधित हैं और नहीं हैं।


छवि वर्गीकरण के लिए बहुपरत तंत्रिका नेटवर्क

गैबोर वेवलेट नेटवर्क (जीडब्ल्यूएन)।

यह विधि गैबोर वेवलेट टेम्पलेट (जीडब्ल्यूटी) का उपयोग करके वास्तविक समय फेस ट्रैकिंग के लिए डिज़ाइन की गई है, जो गैबर वेवलेट्स का एक अलग रैखिक संयोजन है। यह ध्यान रखना महत्वपूर्ण है कि चेहरे के प्रतिनिधित्व की सटीकता GWN में गैबोर तरंगिकाओं की संख्या से नियंत्रित होती है, जिससे एक ही GWT द्वारा कई चेहरों का प्रतिनिधित्व किया जा सकता है। यह प्रतिनिधित्व ग्रेडिएंट डिसेंट विधि का उपयोग करके मनमाने ढंग से एफ़िन परिवर्तनों और एफ़िन मापदंडों के तेज़ अनुमान की अनुमति देता है। इस प्रकार, किसी चेहरे को ट्रैक करते समय, विधि इसके अभिविन्यास को भी निर्धारित करती है, लेकिन घूर्णन पर प्रतिबंध के साथ: मुख्य रूप से विमान में घूर्णन और ऊर्ध्वाधर अक्ष के चारों ओर मामूली स्थानिक घुमाव की अनुमति है।

हॉपफील्ड तंत्रिका नेटवर्क।

हॉपफील्ड एनएन (एचएनएस) एकल-परत है और पूरी तरह से जुड़ा हुआ है (न्यूरॉन्स के बीच कोई संबंध नहीं है), इसके आउटपुट इनपुट से जुड़े हुए हैं। एमएनएस के विपरीत, एनएससी विश्राम है - यानी, एक निश्चित प्रारंभिक स्थिति में स्थापित होने पर, यह स्थिर स्थिति तक पहुंचने तक कार्य करता है, जो इसका आउटपुट मूल्य होगा। एनएससी का उपयोग सहयोगी मेमोरी के रूप में और अनुकूलन समस्याओं को हल करने के लिए किया जाता है। पहले मामले में, तंत्रिका नेटवर्क को एक शिक्षक के बिना प्रशिक्षित किया जाता है (उदाहरण के लिए, हेब्ब नियम के अनुसार), दूसरे मामले में, न्यूरॉन्स के बीच का भार शुरू में हल की जा रही समस्या को एनकोड करता है। एनएससी समकालिक हो सकते हैं, जब सभी न्यूरॉन्स की एक साथ पुनर्गणना की जाती है, और अतुल्यकालिक, जब एक यादृच्छिक रूप से चयनित न्यूरॉन की पुनर्गणना की जाती है। ल्यपुनोव विधियों का उपयोग राष्ट्रीय कृषि प्रणाली के कामकाज की गतिशीलता का अध्ययन करने के लिए किया जाता है। एसिंक्रोनस एनएससी हमेशा स्थिर बिंदुओं पर अभिसरण करता है, और सिंक्रोनस एनएससी के आकर्षणकर्ता स्थिर स्थिर बिंदु और दो लंबाई के सीमा चक्र होते हैं। इस प्रकार, प्रारंभिक अवस्था से एनएससी नेटवर्क ऊर्जा के निकटतम स्थानीय न्यूनतम में परिवर्तित हो जाता है, न्यूरॉन्स की स्थिति जिसमें पहचान समस्याओं के लिए पुनर्स्थापित छवि और अनुकूलन समस्याओं का समाधान होगा। अनुकूलन समस्याओं के संबंध में वैश्विक न्यूनतम की खोज के लिए, एनएससी के स्टोकेस्टिक संशोधनों का उपयोग किया जाता है।

एक सहयोगी मेमोरी के रूप में एनएसएच का उपयोग उन छवियों को सटीक रूप से पुनर्स्थापित करना संभव बनाता है जिसके लिए नेटवर्क को प्रशिक्षित किया जाता है जब एक विकृत छवि इनपुट में फीड की जाती है। इस मामले में, नेटवर्क निकटतम (स्थानीय न्यूनतम ऊर्जा के अर्थ में) छवि को "याद" रखेगा और उसे पहचानेगा। इस कार्यप्रणाली को ऑटो-एसोसिएटिव मेमोरी के अनुक्रमिक अनुप्रयोग के रूप में भी सोचा जा सकता है। ऑटो-एसोसिएटिव मेमोरी के विपरीत, एनएसएच छवि को पूरी तरह से सटीक रूप से पुनर्स्थापित करेगा।

यद्यपि मानव चेहरों की छवियों के आधार पर पहचान प्रणालियों का विकास कई दशकों से चल रहा है, मानव चेहरों की छवियों के आधार पर एक प्रभावी पहचान एल्गोरिदम बनाने का कार्य अभी भी पूरा नहीं हुआ है।

अधिकांश आधुनिक स्वचालित चेहरा पहचान प्रणालियों के लिए, मुख्य कार्य किसी दिए गए चेहरे की छवि की डेटाबेस से चेहरे की छवियों के एक सेट के साथ तुलना करना है। इस मामले में स्वचालित चेहरा पहचान प्रणालियों की विशेषताओं का आकलन गलत पहचान से इनकार (डेटाबेस में मौजूद चेहरे की छवि के लिए, अज्ञात चेहरे के रूप में निर्णय लिया जाता है) और गलत पहचान की संभावनाओं का निर्धारण करके किया जाता है। त्रुटि संभावनाओं के अलावा, जटिल पृष्ठभूमि, प्रकाश परिवर्तनशीलता, हेयर स्टाइल परिवर्तन इत्यादि के साथ संयोजन के कारण छवि गड़बड़ी की मजबूती का उपयोग अक्सर स्वचालित चेहरा पहचान प्रणाली का मूल्यांकन करने के लिए किया जाता है।

व्यावहारिक स्वचालित चेहरा पहचान प्रणाली बनाने के लिए एक एल्गोरिदम या चेहरे की पहचान एल्गोरिदम के समूह का चुनाव किसी विशेष प्रणाली की प्रदर्शन विशेषताओं का आकलन करने के लिए एक प्रणाली पर आधारित होना चाहिए, जो इस विशेष प्रणाली की परिचालन स्थितियों से जुड़े प्रतिबंधों के अनुरूप हो, और है सीधे डिज़ाइन चरण में निर्धारित किया जाता है।



और क्या पढ़ना है