• خانه
  • اخبار
  • ترکیب بینایی و زبان در هوش مصنوعی ممکن است کلید آینده ای بهتر برای این علم باشد

ترکیب بینایی و زبان در هوش مصنوعی ممکن است کلید آینده ای بهتر برای این علم باشد

 تاریخ انتشار :
/
  اخبار
ترکیب بینایی و زبان در هوش مصنوعی ممکن است کلید آینده ای بهتر برای این علم باشد

هوش مصنوعی پدیده ای است که در دهه اخیر بیش از هر زمان دیگری مورد توجه قرار گرفته است. بدون شک دلیل آن پیشرفت بشر در زمینه توسعه نرم افزار و سخت افزار است. با این حال، ترکیب بینایی و زبان در هوش مصنوعی ممکن است کلید آینده ای بهتر برای این علم باشد. اس ترنجی با من باش.

ترکیب بینایی و زبان در هوش مصنوعی این علم را متحول خواهد کرد

بسته به تئوری هوشی که به آن اعتقاد دارید، دستیابی به هوش مصنوعی در سطح انسان نیازمند سیستمی است که بتواند از روش‌های مختلفی مانند صدا، بینایی و متن برای فکر کردن به جهان استفاده کند. به عنوان مثال، هنگامی که عکسی از یک کامیون سرنگون شده و یک قایق پلیس در یک بزرگراه برفی نشان داده می شود، هوش مصنوعی در سطح انسان می تواند نتیجه بگیرد که یک وضعیت جاده خطرناک باعث تصادف شده است. یا با دویدن روی یک ربات وقتی از آنها خواسته می شود یک قوطی نوشابه را از یخچال خارج کند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می کنند تا قوطی را خارج کرده و به متقاضی تحویل دهند.

هوش مصنوعی امروزی محدود و سطحی است. اما تحقیقات جدید نشانه‌هایی از پیشرفت‌های امیدوارکننده در علوم انسانی در توسعه روبات‌هایی را نشان می‌دهد که می‌توانند گام‌هایی را از آموزش اولیه تا سیستم‌های مبتنی بر متن که از توضیحات یاد می‌گیرند بردارند. در این مقاله در مورد آخرین پیشرفت‌های هوش مصنوعی و حوزه وسیع‌تر علم و همچنین کارهای DeepMind، Google و OpenAI صحبت خواهیم کرد که می‌تواند به سیستم‌هایی منجر شود که قادر به تفکر هستند.

آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E، نسخه بهبود یافته OpenAI، DALL-E 2، تا حد زیادی چشمگیرترین پروژه ای است که از اعماق یک آزمایشگاه تحقیقاتی هوش مصنوعی بیرون آمده است. همانطور که دوین کالدوی می نویسد، DALL-E اصلی توانایی قابل توجهی در ایجاد تصاویری که متناسب با هر درخواستی باشد نشان داد (به عنوان مثال “سگ در کلاه”)، اکنون تصور کنید که DALL-E 2 دقیقاً این کار را انجام می دهد. از این هم فراتر می رود. تصاویر تولید شده توسط این هوش مصنوعی بسیار دقیق تر هستند. DALL-E 2 می تواند به طور هوشمند یک منطقه خاص در تصویر را جایگزین کند. به عنوان مثال، قرار دادن یک میز در یک تصویر روی یک کف مرمری پر از بازتاب های مناسب.

ترکیب بینایی و زبان در هوش مصنوعی

DALL-E 2 AI این هفته مورد توجه بیشتری قرار گرفت. اما روز پنجشنبه، محققان گوگل در یک پست وبلاگی در این شرکت هوش مصنوعی اعلام کردند که یک سیستم هوش بصری با هوش بالا به نام VDTTS (عروض بصری برای تبدیل متن به گفتار) توسعه داده اند. VDTTS می‌تواند گفتار را با همگام‌سازی واقعی صدا و لب ایجاد کند، که چیزی بیش از متن و فیلم ویدیویی از فردی که صحبت می‌کند نیست.

سخنرانی تولید شده توسط VDTTS، اگرچه مبنای کاملی برای دیالوگ های ضبط شده نیست، اما همچنان آنقدر خوب و شگفت انگیز است که مانند فردی با بیان و زمان متقاعد کننده صحبت می کند. گوگل می گوید روزی از آن در استودیو برای جایگزینی صدای اصلی استفاده خواهد کرد که ممکن است در شرایط نویز ضبط شده باشد.

البته درک بصری تنها یک قدم به دستیابی به هوش مصنوعی قدرتمندتر نزدیکتر است. مؤلفه دیگر درک زبان است که از بسیاری جهات عقب است. حتی با کنار گذاشتن جهت گیری های مستند هوش مصنوعی. در یک مثال قابل توجه، یک سیستم پیشرفته Google PalM (مدل زبان مسیرها)، طبق یک مقاله، 40 درصد از داده‌های مورد استفاده برای آموزش خود را حفظ کرد، که منجر به سرقت متن PALM به یادداشت‌های حق چاپ در آن شد.

Google Deep Mind در تلاش است تا راه حل های خلاقانه تری ایجاد کند

خوشبختانه، DeepMind، یک آزمایشگاه هوش مصنوعی که توسط Alphabet پشتیبانی می‌شود، یکی از آن‌هایی است که تکنیک‌هایی را برای حل این مشکل بررسی می‌کند. در یک مطالعه جدید، محققان DeepMind بررسی کردند که آیا سیستم‌های زبانی هوش مصنوعی که یاد می‌گیرند متن از بسیاری از الگوهای متنی موجود (کتاب‌های فکری و رسانه‌های اجتماعی) تولید کنند، می‌توانند از توضیح این متون بهره ببرند یا خیر.

پس از حاشیه نویسی ده ها کار زبانی (به این سؤالات پاسخ دهید که آیا جمله دوم یک عبارت استعاری صحیح است یا خیر)، همراه با توضیحات (مثلاً چشمان دیوید به معنای واقعی کلمه خنجر نبود، این استعاره ای است که نشان می دهد دیوید با دقت نگاه کرده است. ) و با ارزیابی عملکرد سیستم‌های مختلف روی آنها، تیم DeepMind دریافتند که نمونه‌ها عملکرد سیستم‌ها را بهبود می‌بخشند.

رویکرد DeepMind، در صورت موفقیت در دانشگاه، روزی می تواند در رباتیک اعمال شود و بخش های مهمی از یک ربات را تشکیل دهد که می تواند درخواست های مبهم (مانند جمع آوری زباله) را بدون دستورالعمل های گام به گام درک کند. پروژه جدید گوگل «آنطور که می توانم انجام بده، نه آنطور که می گویم» به آینده نگاه می کند، اما با برخی محدودیت ها.

ترکیب بینایی و زبان در هوش مصنوعی

همکاری بین Robotics گوگل و تیم رباتیک روزانه Do As I Can، Not As I Say Lab Alphabet، به دنبال این است که سیستم زبان هوش مصنوعی را قادر سازد تا بسته به شرایط، اقدامات “ممکن” و “مناسب” را برای یک ربات انجام دهد. پیشنهاد. عملکرد ربات به عنوان دست و چشم سیستم زبان عمل می کند، در حالی که سیستم دانش معنایی سطح بالایی از کار را ارائه می دهد، تئوری این است که سیستم زبان دانش مفید در مورد ربات را رمزگذاری می کند.

مطابق با TechCrunchسیستمی به نام SayCan با در نظر گرفتن احتمال مفید بودن یک مهارت و توانایی انجام موفقیت آمیز آن مهارت، انتخاب می کند که ربات در پاسخ به یک فرمان کدام مهارت را انجام دهد. به عنوان مثال، در پاسخ به کسی که می‌گوید: «برای خودم چای ریختم، می‌توانی چیزی برای تمیز کردن من بیاوری؟» SayCan می‌تواند ربات را هدایت کند تا اسفنج را پیدا کند، سپس اسفنج را برمی‌دارد و برای شخصی که آن را درخواست کرده است بیاورد. . .

SayCan توسط سخت افزار رباتیک نیرو می گیرد و در بیش از یک مورد، تیم تحقیقاتی رباتی را مشاهده کردند که آنها برای انجام آزمایش هایی انتخاب کردند که به طور تصادفی اشیا را رها کرد. با این حال، همراه با کار DALL-E 2 و DeepMind در درک زمینه، این بازتابی از این است که چگونه سیستم‌های هوش مصنوعی، در صورت ترکیب، می‌توانند ما را به آینده‌ای پیشرفته‌تر نزدیک‌تر کنند. نظر شما در مورد ترکیب بینایی و زبان در هوش مصنوعی چیست؟ آیا می توان به چنین سیستم هوش مصنوعی قدرتمندی دست یافت که به طور منطقی قابل درک و تجزیه و تحلیل باشد؟