طراحی ماشینهایی با توانایی دید ماشینی در MIT برای شناسایی مستقل اشیاء
محققان MIT موفق به تولید سیستم دید ماشینی شدهاند که میتواند اشیاء را شناسایی کرده و با آنها تعامل داشته باشد.
شبکهی متراکم اشیاء (Dense Object Nets) که بهاختصار DON نامیده میشود، روشی نوین در زمینهی دید ماشینی است. شبکهی متراکم اشیاء در آزمایشگاه علوم رایانه و هوش مصنوعی انستیتوی فناوری ماساچوست (MIT) توسعه داده شده است. این شبکه، نقشهای بصری را تشکیل میدهد که در عمل مجموعهای از نقاط بصری است و بهصورت چندین مختصات هماهنگ شدهاند.
این سیستم، چندین مختصات منفرد را با یکدیگر هماهنگ میکند تا مجموعهای بزرگتر از مختصاتها را ایجاد کند. چنین کاری شبیه به چسباندن چندین تصویر بهیکدیگر برای ایجاد یک تصویر پانوراما است. این کار به شبکهی متراکم اشیاء اجازه میدهد تا درک بهتر و آگاهانهتری از شکلِ اشیاء و کارکرد آنها در محیط اطراف داشته باشد.
لوکاس مانوئلی، دانشجوی دکترا و نویسندهی مقالهی مربوط به این پروژه میگوید:
در بالاترین و سادهترین سطح، سیستمهای دید رایانهای صرفا اشیاء را شناسایی میکنند؛ اما در سطحی ثانویه و ظریفتر، دید رایانهای برچسبی را به هر پیکسل الحاق میکند. بنابراین [رایانه] میتواند مشخص کند که تمام پیکسلها بخشی از یک انسان، جاده یا پیادهرو هستند. همین دو سطح چیزی است که توسط بسیاری از سیستمهای رانندگی خودکار مورد استفاده قرار میگیرد.
اما اگر واقعا در تلاش هستید تا بهشکلی خاص (همچون برداشتن یک شئ به شکلی خاص یا برداشتن یک ماگ) با دید ماشینی تعامل داشته باشید، در این حالت داشتن چهارچوبی برای نشانهگذاری اشیاء یا ارتباط دادن پیکسلها به ماگ کافی نخواهد بود. کار سیستم ما این است که بهسطح ظریفتری از جرئیات اشیاء وارد میشود. اطلاعات [مورد استفاده در این سیستم] از آن دسته اطلاعاتی هستند که برای انجام کنترلهای پیشرفتهتر موردنیاز هستند.
شبکهی متراکم اشیاء به رباتها اجازه میدهد تا یک فنجان قهوه را پیدا کنند؛ خود را در جهت مناسب برای برداشتن فنجان قرار دهند و نسبت به این مسئله آگاه باشند که برای جلوگیری از ریختهشدن محتویات فنجان، قسمت پایینی آن باید همچنان رو به پایین بماند. علاوهبر این، این شبکه به رباتها اجازه میدهد تا شئ خاصی را از میان مجموعهای از اشیاء انتخاب کنند.
مانوئلی در مقالهی خود مینویسد:
بسیاری از روشهای کنترل [رباتها] نمیتوانند از زوایای مختلف بخشهای خاصی از یک شئ را شناسایی کنند. برای مثال، الگوریتمهای فعلی نمیتوانند از دستهی فنجان برای گرفتن آن استفاده کنند؛ بهویژه اگر فنجان در جهت خاصی همچون معکوس یا به پهلو قرار گرفته باشد.
در این سیستم از حسگرهایی استفاده میشود که علاوهبر طیف نوری قرمز، سبز و آبی، عمق را نیز اندازهگیری میکنند. نکتهی جذابتر این است که این سیستم میتواند به آموزش خود بپردازد. برای آموزش هوش مصنوعی در شبکهی متراکم اشیاء نیازی نیست تا سیستم توسط صدهاهزار تصویر از یک شئ تغذیه شود.
اگر میخواهید این سیستم یک چکمهی قهوهای رنگ را شناسایی کند، کافی است برای مدتی چکمهی قهوهای و ربات را در یک اتاق قرار دهید. این سیستم بهسادگی محل چکمهی قهوهای را مشخص کرده و تصاویرِ مرجع آن را ثبت میکند؛ از این تصاویر هم برای تولید مختصات مرجع استفاده میشود. پس از آن، یادگیری بهصورت خودکار انجام میشود؛ علاوهبر این، فرایند یادگیری کمتر از یک ساعت زمان نیاز دارد.
مانوئلی مینویسد:
رباتهای موجود در کارخانهها برای اینکه بهشکلی قابلاطمینان کار کنند، نیازمند اجزای تغذیهکنندهی پیچیدهای هستند که برای تغذیهی قطعات مورد استفاده قرار میگیرند؛ اما جای چنین سیستمی که بتواند موقعیت فضایی اشیاء را تشخیص دهد، از آنها تصویر تهیه کند و آنها را برداشته و تنظیم کند در کارخانهها خالی است.
البته این فناوری در مراحل اولیهی توسعه است و نمیتوانیم به این زودیها منتظر رباتهای خدمتکاری باشیم که میتوانند ماشینظرفشویی را برایمان خالی کنند. اما مانوئلی امیدوار است که با بهبود بینایی و توانایی شناسایی مکانی این رباتها، در نهایت آنها به عضوی از خانهها و انبارها تبدیل شوند.