هوش مصنوعی دیپ مایند با آموزشی ۴ ساعته به قهرمان شطرنج بدل شد
هوش مصنوعی دیپ مایند گوگل پس از غلبه بر قهرمان بازی Go، پس از تنها چند ساعت تمرین شطرنج موفق شد تا استاکفیش، نرمافزار بازی شطرنج را شکست دهد.
DeepMind یکی از شرکتهای فرعی گوگل در زمینه هوش مصنوعی است که با هدف ایجاد چیزی شبیه به موتور محرک برای هوش یا ماشینی با توانایی تفکر عمومی کار خود آغاز کرد. سیستم هوش مصنوعی دیپمایند با هدف استفاده در کاربردهای مختلف توسعه یافته است. این شرکت هنوز هم راه زیادی تا رسیدن به این هدف در پیش دارد؛ اما گزارشی که به تازگی منتشر شده نشان میدهد که حداقل در مسیر درستی حرکت میکند.
بنا بر این گزارش، سیستم هوش صمنوعی دیپمایند پس از آنکه توانست قهرمان جهانی بازی Go شکست دهد، چندین بازی دیگر را به خودش آموزش داده و در سطحی بسیار حرفهای به آنها مسلط شده است. این برنامه پس از هشت ساعت بازی مداوم با خودش هوش مصنوعی خود را به گونهای تقویت کرد که قویتر از زمانی شد که قهرمان بازی Go را شکست داده بود. هوش مصنوعی دیپمایند پس از آموزش چهار ساعته توانست بهترین نرمافزار بازی شطرنج، Stockfish را نیز شکست دهد. اما این پایان ماجرا نبود، چراکه هوش مصنوعی دیپمایند با آموزش و تمرینی دو ساعته یکی زا بهترین نرمافزار بازی موسوم به Shogi را نیز شکست داد. (Shogi مدل ژاپنی بازی شطرنج است که آن را روی سطحی بزرگتر بازی میکنند.)
جالب اینجاست که این برنامه هوش مصنوعی جدید که با نام AlphaZero معرفی شده، صرفا برای این بازیها طراحی نشده است. تنها چند اطلاعات پایهای مثل نوع حرکت اسب در شطرنج به برنامه داده شده و هیچ برنامهای برای تاکتیکها و استراتژیهای شطرنج در اختیار هوش مصنوعی قرار نگرفته است. هوش مصنوعی آلفازیرو بارها و بارها با خودش بازی کرد و با سرعتی چشمگیر به این سطح از توانایی رسید. این روش آموزش هوش مصنوعی با نام «یادگیری تقویتی» یا reinforcement learning شناخته میشود.
استفاده از روش یادگیری تقویتی چندان جدید نیست و مهندسان قبلا نیز از آن برای ایجاد AlphaGo Zero استفاده کردهاند؛ این برنامه مهر ماه گذشته رونمایی شد. اما بنابر گزارشهای اخیر، آلفا زیروی جدید، نسخهای عمومیتر از همان نرمافزار است؛ این بدان معناست که میتوان از آن در طیف گستردهتری از کارها استفاده کرد، بدون اینکه به آموزشهای قبلی نیاز داشته باشد.
جالب اینجاست این برنامه کامپیوتری پس از یک دوره خودآموزی ۲۴ ساعته توانست در سه بازی تختهای پیچیده دیگر نیز به تواناییهای ابرانسانی برسد. چنین چیزی در جهان هوش مصنوعی یک رکورد جدید به شمار میرود.
تمامی این مراحل نشان میدهد که هوش مصنوعی دیپ مایند یک قدم به ماشین تفکر عمومی که این کمپانی آرزوی آن را دارد، نزدیکتر شده است؛ اما چالشهای بزرگتری در راه است. زمانی که مدیرعامل دیپ مایند از آلفاگو زیرو رونمایی میکرد، به این نکته اشاره کرد که مدل آیندهی این برنامه میتواند به طیف وسیعی از برنامههای علمی کمک کند؛ از طراحی داروهای جدید گرفته تا کشف مادههای جدید. کاربردهایی نظیر کشف داروها و مادههای جدید فاصلهی زیادی با بازیهای تختهای و پیروزی در آنها دارند. اما به طور قطع میتوان گفت که هوش مصنوعی تنها به شطرنج محدود نخواهد بود.