بینایی رایانه ای چیست؟

ساخت وبلاگ

بینایی رایانه ای ماشین ها را برای انجام این عملکردها آموزش می دهد، اما مجبور است این کار را در زمان بسیار کمتری با دوربین، داده و الگوریتم انجام دهد تا شبکیه ها، اعصاب بینایی و قشر بینایی را بتواند تشخیص دهد. از آنجا که یک سیستم آموزش دیده برای بازرسی محصولات یا تماشای یک دارایی تولید می تواند هزاران محصول یا فرآیند را در دقیقه تجزیه و تحلیل کند ، متوجه نقص یا مسائل نامحسوس شود، می تواند به سرعت از توانایی های انسانی پیشی بگیرد.

دید رایانه در صنایع مختلفی از انرژی و آب و برق گرفته تا تولید و خودروسازی مورد استفاده قرار می گیرد  و بازار در حال رشد است. پیش بینی می شود سود استفاده از این تکنولوژی تا سال 2022 به 48.6 میلیارد دلار برسد.

بینایی کامپیوتر به داده های زیادی نیاز دارد. تجزیه و تحلیل داده ها را بارها و بارها اجرا می کند تا زمانی که تفاوت ها را تشخیص دهد و در نهایت تصاویر را تشخیص دهد. به عنوان مثال، برای آموزش رایانه برای شناسایی تایرهای اتومبیل ، باید مقدار زیادی از تصاویر تایر و موارد مربوط به تایر را به آن اضافه کرد تا تفاوت ها را بیاموزد و یک تایر را تشخیص دهد، به خصوص لاستیکی را که هیچ نقصی ندارد.

برای تحقق این امر از دو فناوری اساسی استفاده می شود: نوعی یادگیری ماشین به نام یادگیری عمیق و یک شبکه عصبی کانولوشن (CNN).

یادگیری ماشینی از مدل های الگوریتمی استفاده می کند که رایانه را قادر می سازد تا در مورد زمینه داده های تصویری به خود بیاموزد. اگر داده های کافی از طریق مدل تغذیه شود ، کامپیوتر به داده ها نگاه می کند و به خود یاد می دهد که یک تصویر از تصویر دیگر را تشخیص دهد. الگوریتم ها به جای اینکه کسی برای تشخیص یک تصویر از آن برنامه نویسی کند، ماشین را قادر می سازد تا خودش یاد بگیرد.

CNN با تقسیم تصاویر به پیکسل هایی که به آنها برچسب داده می شود، به مدل یادگیری ماشین یا یادگیری عمیق کمک می کند تا نگاه کند. از برچسب ها برای انجام پیچش (با استفاده از یک ریاضی روی دو تابع برای تولید یک عملکرد سوم) استفاده می کند و پیش بینی هایی را درباره آنچه می بیند انجام می دهد.
شبکه عصبی پیچیدگی ها را اجرا می کند و صحت پیش بینی های خود را در یک سری تکرار تا زمان شروع پیش بینی ها بررسی می کند. سپس تصاویر را به روشی مشابه انسان شناسایی یا مشاهده می کند.

درست مانند ساختن انسان از فاصله دور با تصویر، یک CNN ابتدا لبه های سخت و اشکال ساده را تشخیص می دهد، سپس هنگام اجرای تکرار پیش بینی های خود اطلاعات را پر می کند. CNN برای درک تصاویر منفرد استفاده می شود. از یک شبکه عصبی مکرر (RNN) به روشی مشابه برای برنامه های ویدئویی استفاده می شود تا به کامپیوترها کمک کند درک کنند که چگونه تصاویر موجود در یک سری فریم ها به یکدیگر مرتبط هستند.

دانشمندان و مهندسان حدود 60 سال است که در تلاشند تا روش هایی برای دیدن و درک داده های بصری توسط ماشین ها ایجاد کنند. این آزمایش در سال 1959 آغاز شد ، زمانی که متخصصان مغز و اعصاب به گربه ای مجموعه ای از تصاویر را نشان دادند که سعی در پاسخ دهی در مغز آن داشت. آنها دریافتند که ابتدا به لبه ها یا خطوط سخت پاسخ می دهد و از نظر علمی، این بدان معنی است که پردازش تصویر با اشکال ساده مانند لبه های مستقیم شروع می شود.

تقریباً در همان زمان، اولین فناوری اسکن تصاویر رایانه ای توسعه یافت که رایانه ها را قادر می سازد تصاویر را دیجیتالی و بدست آورند. در سال 1963 هنگامی که کامپیوترها توانستند تصاویر دو بعدی را به اشکال سه بعدی تبدیل کنند ، به یک نقطه عطف دیگر رسید. در دهه 1960 ، هوش مصنوعی به عنوان یک زمینه آکادمیک تحصیلات ظهور کرد ، و همچنین آغاز تلاش AI برای حل مشکل بینایی انسان بود.

در سال 1974 ، فن آوری نویسه نویسی (OCR) معرفی شد که می توانست متن چاپ شده با هر نوع قلم یا حروف را تشخیص دهد. به همین ترتیب ، تشخیص شخصیت هوشمند (ICR) می تواند متن دست نوشته را با استفاده از شبکه های عصبی رمزگشایی کند. (از آن زمان ، OCR و ICR به پردازش اسناد و فاکتورها ، تشخیص پلاک خودرو ، پرداخت های تلفن همراه ، ترجمه ماشینی و سایر برنامه های رایج راه یافته اند.

در سال 1982 ، دانشمند علوم اعصاب دیوید مار ثابت کرد که بینایی به صورت سلسله مراتبی عمل می کند و الگوریتم هایی را برای ماشین آلات معرفی می کند تا لبه ها ، گوشه ها ، منحنی ها و اشکال اساسی مشابه را تشخیص دهد. همزمان ، دانشمند کامپیوتر Kunihiko Fukushima شبکه ای از سلول ها را ایجاد کرد که می تواند الگوها را تشخیص دهد. این شبکه که Neocognitron نام دارد ، شامل لایه های کانولوشن در یک شبکه عصبی است.

تا سال 2000 ، تمرکز مطالعه بر روی شناسایی اشیا بود و تا سال 2001 ، اولین برنامه های شناسایی چهره در زمان واقعی ظاهر شدند. استاندارد سازی چگونگی برچسب گذاری و حاشیه نویسی مجموعه داده های دیداری از دهه 2000 پدیدار شد. در سال 2010 ، مجموعه داده های ImageNet در دسترس قرار گرفت. این شامل میلیون ها تصویر برچسب گذاری شده در هزار کلاس شی object است و بنیادی برای CNN و مدل های یادگیری عمیق است که امروزه استفاده می شود. در سال 2012 ، تیمی از دانشگاه تورنتو وارد یک CNN در یک مسابقه شناسایی تصویر شد. این مدل با نام Alex Net میزان خطای تشخیص تصویر را به میزان قابل توجهی کاهش داد. پس از این موفقیت ، میزان خطاها فقط به چند درصد کاهش یافته است

سخن آخر

بینایی رایانه ای یک فناوری و تکنولوژی به روز است که در آینده نزدیک بسیار هم پرکاربرد خواهد شد. تکنولوژی رایانه یک علم نو است و سرمایه گذاری و پیشرفت علمی در آن می تواند بسیار مفید و پرکاربرد باشد.

فناوری و تکنولوژی...
ما را در سایت فناوری و تکنولوژی دنبال می کنید

برچسب : نویسنده : ملیکا fanavari-bartar بازدید : 204 تاريخ : دوشنبه 10 خرداد 1400 ساعت: 13:22