

بسیاری از ما زمانی تلویزیون را با صدای خاموش تماشا کردهایم. اگرچه معمولاً می توان حداقل تا حدی داستان را ردیابی کرد، فقدان ضبط صدا توانایی ما را برای درک کامل آنچه اتفاق می افتد محدود می کند.
از دست دادن اطلاعات زیادی فقط با گوش دادن به صداهایی که از اتاق دیگری می آید به همین راحتی است. چندوجهی بودن ترکیب تصویر، صدا و سایر جزئیات به طور قابل توجهی درک ما را از آنچه در حال وقوع است، چه در تلویزیون و چه در دنیای واقعی، بهبود می بخشد.
به نظر می رسد همین امر در مورد هوش مصنوعی نیز صدق می کند. یک مدل جدید برای پاسخ به سؤالات، به نام MERLOT RESERVE، امکان پیشبینی خارج از چارچوب را فراهم میکند و درک چندوجهی قوی از عقل سلیم را آشکار میکند. اخیراً توسط تیمی از موسسه آلن برای هوش مصنوعی (AI2)، دانشگاه واشنگتن و دانشگاه ادینبورگ توسعه یافته است.
به عنوان بخشی از نسل جدیدی از برنامه های کاربردی هوش مصنوعی که امکان جستجوی معنایی، تجزیه و تحلیل و پاسخ به سؤالات (QA) را فراهم می کند، این سیستم آموزش داده شده است و باعث می شود 20 میلیون ویدیو در یوتیوب “تماشا” کند. قابلیت های نشان داده شده در حال حاضر توسط استارتاپ هایی مانند Twelve Labs و Clipr تجاری شده است.
MERLOT RESERVE (مخفف RESERVE) به معنای ارائه چندوجهی رویدادها، یادگیری در طول زمان، با نظارت مکرر رویدادها و بر اساس مدل قبلی MERLOT تیم است. او از قبل روی میلیونها ویدیو آموزش دیده بود و از ورودی ترکیبی تصاویر، صدا و رونوشتهای آنها یاد میگرفت. عکسهای منفرد به سیستم اجازه میدهند تا به صورت فضایی بیاموزند، در حالی که یادگیری در سطح ویدئو به آن اطلاعات زمانی میدهد و به آن در مورد روابط بین عناصری که در طول زمان تغییر میکنند آموزش میدهد.
روآن زلرز، دانشمند کامپیوتر و مدیر پروژه می گوید: «شیوه ای که هوش مصنوعی کارها را مدیریت می کند با روشی که مردم آن را انجام می دهند متفاوت است. اما اگر بخواهیم سیستمهای هوش مصنوعی قوی بسازیم، برخی از اصول کلی وجود دارد که اجتناب از آنها دشوار خواهد بود. من فکر میکنم چندوجهی بودن قطعاً در این سطل است.”

از آنجایی که ما در دنیایی پویا زندگی می کنیم، تیم می خواست با هم ماشین های ساختمانی را که از بینایی، زبان و صدا یاد می گیرند، کشف کنند. یکی از نمونه های روزنامه شخصی را نشان می دهد که در حال پختن پاپ کورن است. فقط از روی تصاویر و دیالوگ ها می توان صداهایی را تصور کرد که می تواند آنها را همراهی کند. صدای حرکت دانه های خام روی سطح فلزی قابلمه می تواند در نهایت به یک “پاپ” شدید تبدیل شود، زیرا آنها به ذرت بو داده سفید کرکی تبدیل می شوند.
چنین پیشبینیای به عنوان «یادگیری ورود مجدد» شناخته میشود، که در آن همبستگیهای قفلشده زمان به یک روش اجازه میدهد تا دیگران را آموزش دهد. برخی از روانشناسان رشد معتقدند که ما دانش بصری و جهانی را اغلب بدون معلم از این طریق می آموزیم. این اساس نام RESERVE است: نظارت مجدد رویدادها.
این مدل در بخشهای ویدیویی 40 ثانیهای آموزش داده میشود، جایی که قطعات متن و صدا توسط سیستم “ماسک” میشوند. سپس RESERVE با انتخاب قطعه ماسک شده مناسب از چهار گزینه با چندین گزینه یاد می گیرد. به دنبال آن، چهار دلیل ممکن برای توجیه پاسخ او انتخاب شد.
این رویکرد نه تنها به RESERVE اجازه میدهد تا بهروزترین نتایج را از آموزش نیمهکنترلشدهاش به دست آورد، بلکه پیشبینیهای قوی برای ضربههای صفر نیز انجام دهد. در این مورد، نمونهای از پیشبینی ضربه صفر میتواند سؤالی مانند «یک فرد چه کار میکند؟» باشد، این میتواند به صورت دستی یا خودکار بهعنوان عبارتی مانند «انسان است» بازنویسی شود. [MASK]سپس این مدل با انتخاب های زیادی در مورد طیف وسیعی از گزینه ها مانند “پخت پاپ کورن” یا “خوردن پاپ کورن” پیش بینی می کند.
RESERVE برای چندین مجموعه داده در مقیاس بزرگ که برای درک بصری در سطح دانش مورد استفاده قرار میگیرند، به خوبی تنظیم شد: VCR، TVQA و Kinetics-600. RESERVE بهره وری پیشرفته ای را نشان داد و به ترتیب 5٪، 7٪ و 1.5٪ از کارهای قبلی پیشی گرفت. با گنجاندن صدا، این مدل به دقت 91.1 درصد در Kinetics-600 دست می یابد.
VCR (Visual Commonsense Reasoning) یک مجموعه داده در مقیاس بزرگ بدون صدا است که برای درک بصری در سطح دانش استفاده می شود. TVQA مجموعه ای در مقیاس بزرگ از داده های کیفیت ویدیو است که بر اساس شش برنامه تلویزیونی محبوب (دوستان، نظریه بیگ بنگ، چگونه مادرت را ملاقات کردم، دکتر خانه، آناتومی گری، و قلعه). در نهایت، Kinetics-600 مجموعه ای از 650000 ویدیو است که صدها کلاس عمل انسانی را در بر می گیرد.
با توجه به مقاله مطالعاتی که در کنفرانس بین المللی IEEE/CVF در مورد بینایی کامپیوتری و تشخیص مدل در ماه ژوئن ارائه خواهد شد، RESERVE نسبت به مدل های رقیب پیشرفت های قابل توجهی را در عملکرد نشان می دهد. برای مثال، این به یک پنجم عملیات ممیز شناور مورد استفاده در مدل VisualBERT چندوجهی نیاز دارد.
تیم پروژه پیشبینی میکند که مدلهای ویدیویی از پیش آموزشدیده ممکن است روزی به کاربران کم بینا یا ناشنوا کمک کند یا برای به دست آوردن بینشی در مورد روند مشاهده ویدیو استفاده شود. با این حال، آنها همچنین تصدیق می کنند که مجموعه داده های مورد استفاده برای آموزش RESERVE انحرافات اجتناب ناپذیری را معرفی می کند که باید مورد توجه قرار گیرد.
علاوه بر کلمات گفتاری، صدا میتواند اطلاعات متنی زیادی را نیز ارائه دهد. این نباید برای ما تعجب آور باشد، بر اساس تجربه خودمان، اما جالب است که عملکرد هوش مصنوعی در نتیجه می تواند تا حد زیادی بهبود یابد. این ممکن است به دلیل این واقعیت باشد که ممکن است در هنگام همگام سازی اطلاعات اضافی، همبستگی های آماری جدیدی ایجاد شود.
“صوت زیاد است. زلرز گفت: این فقط صدا نیست، جلوه های صوتی است و شنیدن این جلوه های صوتی درک شما از جهان را بهبود می بخشد.
«یک چیز دیگر لحن صدا، پویایی ارتباطات انسانی است. اگر فقط به کلمات نگاه کنید، بدون زمینه صوتی، چیزهای زیادی را از دست خواهید داد. اما اگر کسی این کلمه را با یک احساس خاص بگوید، آنگاه مدل می تواند خیلی بهتر عمل کند. و در واقع، متوجه میشویم که چنین است.»
MERLOT و RESERVE بخشی از تیم Mosaic AI2 هستند که بر روی توسعه سیستمهایی تمرکز میکنند که میتوانند عقل سلیم ماشین را اندازهگیری و توسعه دهند. عقل سلیم ماشینی برای دهه ها منطقه مورد علاقه هوش مصنوعی بوده است. توانایی فاکتورسازی و پیشبینی ارتباطات دنیای واقعی بین اشیا و فرآیندهای مختلف، ابزار هوش مصنوعی ما را برای ما بسیار مفیدتر میکند.
با این حال، فقط بارگذاری یکسری حقایق و قوانین در مورد نحوه عملکرد جهان در یک سیستم و انتظار کارکرد آن کافی نیست. فقط دنیا برای انجام این کار بسیار پیچیده است. از سوی دیگر، ما از لحظه تولد با تعامل با محیط از طریق حواس مختلف خود یاد می گیریم. ما به تدریج درک درستی از آنچه در جهان اتفاق می افتد و چرایی آن را ایجاد می کنیم. برخی از پروژه های ماشین عقل سلیم از رویکرد مشابهی استفاده می کنند. برای MERLOT و RESERVE، گنجاندن روشهای اضافی اطلاعات بیشتری را درست مانند حواس ما فراهم میکند.
زلرز گفت: «فکر میکنم در میانمدت و بلندمدت، چیزی که واقعاً مرا هیجانزده میکند هوش مصنوعی است که با ما در بسیاری از روشها مانند صدا و حرکات صحبت میکند تا بتواند در مورد کارهایی که انجام میدهیم ارتباط برقرار کند». نویسندگان سند پروژه “مرکز MERLOT: دانش اسکریپت های عصبی از طریق بینایی، زبان و صدا” روآن زلرز، جیاسن لو، ژیمین لو، یونجه یو، یانپن ژائو، محمدرضا صالحی، آدیتیا کوسوپاتی، جک هسل و علی فرها هستند. . نسخه ی نمایشی برای RESERVE را می توان در AI2 پیدا کرد.