منو سایت

  • خانه
  • اخبار
  • مدل جدید هوش مصنوعی نشان می دهد که چگونه ماشین ها می توانند از بینایی، زبان و صدا با هم یاد بگیرند

مدل جدید هوش مصنوعی نشان می دهد که چگونه ماشین ها می توانند از بینایی، زبان و صدا با هم یاد بگیرند

 تاریخ انتشار :
/
  اخبار
مدل جدید هوش مصنوعی نشان می دهد که چگونه ماشین ها می توانند از بینایی، زبان و صدا با هم یاد بگیرند

مدل جدید هوش مصنوعی نشان می دهد که چگونه ماشین ها می توانند از بینایی، زبان و صدا با هم یاد بگیرند
تصویری که نشان می دهد چگونه ماشین ها از بینایی، زبان و صدا با هم یاد می گیرند.

بسیاری از ما زمانی تلویزیون را با صدای خاموش تماشا کرده‌ایم. اگرچه معمولاً می توان حداقل تا حدی داستان را ردیابی کرد، فقدان ضبط صدا توانایی ما را برای درک کامل آنچه اتفاق می افتد محدود می کند.

از دست دادن اطلاعات زیادی فقط با گوش دادن به صداهایی که از اتاق دیگری می آید به همین راحتی است. چندوجهی بودن ترکیب تصویر، صدا و سایر جزئیات به طور قابل توجهی درک ما را از آنچه در حال وقوع است، چه در تلویزیون و چه در دنیای واقعی، بهبود می بخشد.

به نظر می رسد همین امر در مورد هوش مصنوعی نیز صدق می کند. یک مدل جدید برای پاسخ به سؤالات، به نام MERLOT RESERVE، امکان پیش‌بینی خارج از چارچوب را فراهم می‌کند و درک چندوجهی قوی از عقل سلیم را آشکار می‌کند. اخیراً توسط تیمی از موسسه آلن برای هوش مصنوعی (AI2)، دانشگاه واشنگتن و دانشگاه ادینبورگ توسعه یافته است.

به عنوان بخشی از نسل جدیدی از برنامه های کاربردی هوش مصنوعی که امکان جستجوی معنایی، تجزیه و تحلیل و پاسخ به سؤالات (QA) را فراهم می کند، این سیستم آموزش داده شده است و باعث می شود 20 میلیون ویدیو در یوتیوب “تماشا” کند. قابلیت های نشان داده شده در حال حاضر توسط استارتاپ هایی مانند Twelve Labs و Clipr تجاری شده است.

MERLOT RESERVE (مخفف RESERVE) به معنای ارائه چندوجهی رویدادها، یادگیری در طول زمان، با نظارت مکرر رویدادها و بر اساس مدل قبلی MERLOT تیم است. او از قبل روی میلیون‌ها ویدیو آموزش دیده بود و از ورودی ترکیبی تصاویر، صدا و رونوشت‌های آنها یاد می‌گرفت. عکس‌های منفرد به سیستم اجازه می‌دهند تا به صورت فضایی بیاموزند، در حالی که یادگیری در سطح ویدئو به آن اطلاعات زمانی می‌دهد و به آن در مورد روابط بین عناصری که در طول زمان تغییر می‌کنند آموزش می‌دهد.

روآن زلرز، دانشمند کامپیوتر و مدیر پروژه می گوید: «شیوه ای که هوش مصنوعی کارها را مدیریت می کند با روشی که مردم آن را انجام می دهند متفاوت است. اما اگر بخواهیم سیستم‌های هوش مصنوعی قوی بسازیم، برخی از اصول کلی وجود دارد که اجتناب از آنها دشوار خواهد بود. من فکر می‌کنم چندوجهی بودن قطعاً در این سطل است.”

مدل جدید هوش مصنوعی نشان می دهد که چگونه ماشین ها می توانند از بینایی، زبان و صدا با هم یاد بگیرند
روآن زلرز، محقق دانشگاه واشنگتن و موسسه هوش مصنوعی آلن.

از آنجایی که ما در دنیایی پویا زندگی می کنیم، تیم می خواست با هم ماشین های ساختمانی را که از بینایی، زبان و صدا یاد می گیرند، کشف کنند. یکی از نمونه های روزنامه شخصی را نشان می دهد که در حال پختن پاپ کورن است. فقط از روی تصاویر و دیالوگ ها می توان صداهایی را تصور کرد که می تواند آنها را همراهی کند. صدای حرکت دانه های خام روی سطح فلزی قابلمه می تواند در نهایت به یک “پاپ” شدید تبدیل شود، زیرا آنها به ذرت بو داده سفید کرکی تبدیل می شوند.

چنین پیش‌بینی‌ای به عنوان «یادگیری ورود مجدد» شناخته می‌شود، که در آن همبستگی‌های قفل‌شده زمان به یک روش اجازه می‌دهد تا دیگران را آموزش دهد. برخی از روانشناسان رشد معتقدند که ما دانش بصری و جهانی را اغلب بدون معلم از این طریق می آموزیم. این اساس نام RESERVE است: نظارت مجدد رویدادها.

این مدل در بخش‌های ویدیویی 40 ثانیه‌ای آموزش داده می‌شود، جایی که قطعات متن و صدا توسط سیستم “ماسک” می‌شوند. سپس RESERVE با انتخاب قطعه ماسک شده مناسب از چهار گزینه با چندین گزینه یاد می گیرد. به دنبال آن، چهار دلیل ممکن برای توجیه پاسخ او انتخاب شد.

این رویکرد نه تنها به RESERVE اجازه می‌دهد تا به‌روزترین نتایج را از آموزش نیمه‌کنترل‌شده‌اش به دست آورد، بلکه پیش‌بینی‌های قوی برای ضربه‌های صفر نیز انجام دهد. در این مورد، نمونه‌ای از پیش‌بینی ضربه صفر می‌تواند سؤالی مانند «یک فرد چه کار می‌کند؟» باشد، این می‌تواند به صورت دستی یا خودکار به‌عنوان عبارتی مانند «انسان است» بازنویسی شود. [MASK]سپس این مدل با انتخاب های زیادی در مورد طیف وسیعی از گزینه ها مانند “پخت پاپ کورن” یا “خوردن پاپ کورن” پیش بینی می کند.

RESERVE برای چندین مجموعه داده در مقیاس بزرگ که برای درک بصری در سطح دانش مورد استفاده قرار می‌گیرند، به خوبی تنظیم شد: VCR، TVQA و Kinetics-600. RESERVE بهره وری پیشرفته ای را نشان داد و به ترتیب 5٪، 7٪ و 1.5٪ از کارهای قبلی پیشی گرفت. با گنجاندن صدا، این مدل به دقت 91.1 درصد در Kinetics-600 دست می یابد.

VCR (Visual Commonsense Reasoning) یک مجموعه داده در مقیاس بزرگ بدون صدا است که برای درک بصری در سطح دانش استفاده می شود. TVQA مجموعه ای در مقیاس بزرگ از داده های کیفیت ویدیو است که بر اساس شش برنامه تلویزیونی محبوب (دوستان، نظریه بیگ بنگ، چگونه مادرت را ملاقات کردم، دکتر خانه، آناتومی گری، و قلعه). در نهایت، Kinetics-600 مجموعه ای از 650000 ویدیو است که صدها کلاس عمل انسانی را در بر می گیرد.

با توجه به مقاله مطالعاتی که در کنفرانس بین المللی IEEE/CVF در مورد بینایی کامپیوتری و تشخیص مدل در ماه ژوئن ارائه خواهد شد، RESERVE نسبت به مدل های رقیب پیشرفت های قابل توجهی را در عملکرد نشان می دهد. برای مثال، این به یک پنجم عملیات ممیز شناور مورد استفاده در مدل VisualBERT چندوجهی نیاز دارد.

تیم پروژه پیش‌بینی می‌کند که مدل‌های ویدیویی از پیش آموزش‌دیده ممکن است روزی به کاربران کم بینا یا ناشنوا کمک کند یا برای به دست آوردن بینشی در مورد روند مشاهده ویدیو استفاده شود. با این حال، آنها همچنین تصدیق می کنند که مجموعه داده های مورد استفاده برای آموزش RESERVE انحرافات اجتناب ناپذیری را معرفی می کند که باید مورد توجه قرار گیرد.

علاوه بر کلمات گفتاری، صدا می‌تواند اطلاعات متنی زیادی را نیز ارائه دهد. این نباید برای ما تعجب آور باشد، بر اساس تجربه خودمان، اما جالب است که عملکرد هوش مصنوعی در نتیجه می تواند تا حد زیادی بهبود یابد. این ممکن است به دلیل این واقعیت باشد که ممکن است در هنگام همگام سازی اطلاعات اضافی، همبستگی های آماری جدیدی ایجاد شود.

“صوت زیاد است. زلرز گفت: این فقط صدا نیست، جلوه های صوتی است و شنیدن این جلوه های صوتی درک شما از جهان را بهبود می بخشد.

«یک چیز دیگر لحن صدا، پویایی ارتباطات انسانی است. اگر فقط به کلمات نگاه کنید، بدون زمینه صوتی، چیزهای زیادی را از دست خواهید داد. اما اگر کسی این کلمه را با یک احساس خاص بگوید، آنگاه مدل می تواند خیلی بهتر عمل کند. و در واقع، متوجه می‌شویم که چنین است.»

MERLOT و RESERVE بخشی از تیم Mosaic AI2 هستند که بر روی توسعه سیستم‌هایی تمرکز می‌کنند که می‌توانند عقل سلیم ماشین را اندازه‌گیری و توسعه دهند. عقل سلیم ماشینی برای دهه ها منطقه مورد علاقه هوش مصنوعی بوده است. توانایی فاکتورسازی و پیش‌بینی ارتباطات دنیای واقعی بین اشیا و فرآیندهای مختلف، ابزار هوش مصنوعی ما را برای ما بسیار مفیدتر می‌کند.

با این حال، فقط بارگذاری یکسری حقایق و قوانین در مورد نحوه عملکرد جهان در یک سیستم و انتظار کارکرد آن کافی نیست. فقط دنیا برای انجام این کار بسیار پیچیده است. از سوی دیگر، ما از لحظه تولد با تعامل با محیط از طریق حواس مختلف خود یاد می گیریم. ما به تدریج درک درستی از آنچه در جهان اتفاق می افتد و چرایی آن را ایجاد می کنیم. برخی از پروژه های ماشین عقل سلیم از رویکرد مشابهی استفاده می کنند. برای MERLOT و RESERVE، گنجاندن روش‌های اضافی اطلاعات بیشتری را درست مانند حواس ما فراهم می‌کند.

زلرز گفت: «فکر می‌کنم در میان‌مدت و بلندمدت، چیزی که واقعاً مرا هیجان‌زده می‌کند هوش مصنوعی است که با ما در بسیاری از روش‌ها مانند صدا و حرکات صحبت می‌کند تا بتواند در مورد کارهایی که انجام می‌دهیم ارتباط برقرار کند». نویسندگان سند پروژه “مرکز MERLOT: دانش اسکریپت های عصبی از طریق بینایی، زبان و صدا” روآن زلرز، جیاسن لو، ژیمین لو، یونجه یو، یانپن ژائو، محمدرضا صالحی، آدیتیا کوسوپاتی، جک هسل و علی فرها هستند. . نسخه ی نمایشی برای RESERVE را می توان در AI2 پیدا کرد.