
هوش مصنوعی پدیده ای است که در دهه اخیر بیش از هر زمان دیگری مورد توجه قرار گرفته است. بدون شک دلیل آن پیشرفت بشر در زمینه توسعه نرم افزار و سخت افزار است. با این حال، ترکیب بینایی و زبان در هوش مصنوعی ممکن است کلید آینده ای بهتر برای این علم باشد. اس ترنجی با من باش.
ترکیب بینایی و زبان در هوش مصنوعی این علم را متحول خواهد کرد
بسته به تئوری هوشی که به آن اعتقاد دارید، دستیابی به هوش مصنوعی در سطح انسان نیازمند سیستمی است که بتواند از روشهای مختلفی مانند صدا، بینایی و متن برای فکر کردن به جهان استفاده کند. به عنوان مثال، هنگامی که عکسی از یک کامیون سرنگون شده و یک قایق پلیس در یک بزرگراه برفی نشان داده می شود، هوش مصنوعی در سطح انسان می تواند نتیجه بگیرد که یک وضعیت جاده خطرناک باعث تصادف شده است. یا با دویدن روی یک ربات وقتی از آنها خواسته می شود یک قوطی نوشابه را از یخچال خارج کند، در اطراف افراد، مبلمان و حیوانات خانگی حرکت می کنند تا قوطی را خارج کرده و به متقاضی تحویل دهند.
هوش مصنوعی امروزی محدود و سطحی است. اما تحقیقات جدید نشانههایی از پیشرفتهای امیدوارکننده در علوم انسانی در توسعه روباتهایی را نشان میدهد که میتوانند گامهایی را از آموزش اولیه تا سیستمهای مبتنی بر متن که از توضیحات یاد میگیرند بردارند. در این مقاله در مورد آخرین پیشرفتهای هوش مصنوعی و حوزه وسیعتر علم و همچنین کارهای DeepMind، Google و OpenAI صحبت خواهیم کرد که میتواند به سیستمهایی منجر شود که قادر به تفکر هستند.
آزمایشگاه تحقیقاتی هوش مصنوعی DALL-E، نسخه بهبود یافته OpenAI، DALL-E 2، تا حد زیادی چشمگیرترین پروژه ای است که از اعماق یک آزمایشگاه تحقیقاتی هوش مصنوعی بیرون آمده است. همانطور که دوین کالدوی می نویسد، DALL-E اصلی توانایی قابل توجهی در ایجاد تصاویری که متناسب با هر درخواستی باشد نشان داد (به عنوان مثال “سگ در کلاه”)، اکنون تصور کنید که DALL-E 2 دقیقاً این کار را انجام می دهد. از این هم فراتر می رود. تصاویر تولید شده توسط این هوش مصنوعی بسیار دقیق تر هستند. DALL-E 2 می تواند به طور هوشمند یک منطقه خاص در تصویر را جایگزین کند. به عنوان مثال، قرار دادن یک میز در یک تصویر روی یک کف مرمری پر از بازتاب های مناسب.
DALL-E 2 AI این هفته مورد توجه بیشتری قرار گرفت. اما روز پنجشنبه، محققان گوگل در یک پست وبلاگی در این شرکت هوش مصنوعی اعلام کردند که یک سیستم هوش بصری با هوش بالا به نام VDTTS (عروض بصری برای تبدیل متن به گفتار) توسعه داده اند. VDTTS میتواند گفتار را با همگامسازی واقعی صدا و لب ایجاد کند، که چیزی بیش از متن و فیلم ویدیویی از فردی که صحبت میکند نیست.
سخنرانی تولید شده توسط VDTTS، اگرچه مبنای کاملی برای دیالوگ های ضبط شده نیست، اما همچنان آنقدر خوب و شگفت انگیز است که مانند فردی با بیان و زمان متقاعد کننده صحبت می کند. گوگل می گوید روزی از آن در استودیو برای جایگزینی صدای اصلی استفاده خواهد کرد که ممکن است در شرایط نویز ضبط شده باشد.
البته درک بصری تنها یک قدم به دستیابی به هوش مصنوعی قدرتمندتر نزدیکتر است. مؤلفه دیگر درک زبان است که از بسیاری جهات عقب است. حتی با کنار گذاشتن جهت گیری های مستند هوش مصنوعی. در یک مثال قابل توجه، یک سیستم پیشرفته Google PalM (مدل زبان مسیرها)، طبق یک مقاله، 40 درصد از دادههای مورد استفاده برای آموزش خود را حفظ کرد، که منجر به سرقت متن PALM به یادداشتهای حق چاپ در آن شد.
Google Deep Mind در تلاش است تا راه حل های خلاقانه تری ایجاد کند
خوشبختانه، DeepMind، یک آزمایشگاه هوش مصنوعی که توسط Alphabet پشتیبانی میشود، یکی از آنهایی است که تکنیکهایی را برای حل این مشکل بررسی میکند. در یک مطالعه جدید، محققان DeepMind بررسی کردند که آیا سیستمهای زبانی هوش مصنوعی که یاد میگیرند متن از بسیاری از الگوهای متنی موجود (کتابهای فکری و رسانههای اجتماعی) تولید کنند، میتوانند از توضیح این متون بهره ببرند یا خیر.
پس از حاشیه نویسی ده ها کار زبانی (به این سؤالات پاسخ دهید که آیا جمله دوم یک عبارت استعاری صحیح است یا خیر)، همراه با توضیحات (مثلاً چشمان دیوید به معنای واقعی کلمه خنجر نبود، این استعاره ای است که نشان می دهد دیوید با دقت نگاه کرده است. ) و با ارزیابی عملکرد سیستمهای مختلف روی آنها، تیم DeepMind دریافتند که نمونهها عملکرد سیستمها را بهبود میبخشند.
رویکرد DeepMind، در صورت موفقیت در دانشگاه، روزی می تواند در رباتیک اعمال شود و بخش های مهمی از یک ربات را تشکیل دهد که می تواند درخواست های مبهم (مانند جمع آوری زباله) را بدون دستورالعمل های گام به گام درک کند. پروژه جدید گوگل «آنطور که می توانم انجام بده، نه آنطور که می گویم» به آینده نگاه می کند، اما با برخی محدودیت ها.
همکاری بین Robotics گوگل و تیم رباتیک روزانه Do As I Can، Not As I Say Lab Alphabet، به دنبال این است که سیستم زبان هوش مصنوعی را قادر سازد تا بسته به شرایط، اقدامات “ممکن” و “مناسب” را برای یک ربات انجام دهد. پیشنهاد. عملکرد ربات به عنوان دست و چشم سیستم زبان عمل می کند، در حالی که سیستم دانش معنایی سطح بالایی از کار را ارائه می دهد، تئوری این است که سیستم زبان دانش مفید در مورد ربات را رمزگذاری می کند.
مطابق با TechCrunchسیستمی به نام SayCan با در نظر گرفتن احتمال مفید بودن یک مهارت و توانایی انجام موفقیت آمیز آن مهارت، انتخاب می کند که ربات در پاسخ به یک فرمان کدام مهارت را انجام دهد. به عنوان مثال، در پاسخ به کسی که میگوید: «برای خودم چای ریختم، میتوانی چیزی برای تمیز کردن من بیاوری؟» SayCan میتواند ربات را هدایت کند تا اسفنج را پیدا کند، سپس اسفنج را برمیدارد و برای شخصی که آن را درخواست کرده است بیاورد. . .
SayCan توسط سخت افزار رباتیک نیرو می گیرد و در بیش از یک مورد، تیم تحقیقاتی رباتی را مشاهده کردند که آنها برای انجام آزمایش هایی انتخاب کردند که به طور تصادفی اشیا را رها کرد. با این حال، همراه با کار DALL-E 2 و DeepMind در درک زمینه، این بازتابی از این است که چگونه سیستمهای هوش مصنوعی، در صورت ترکیب، میتوانند ما را به آیندهای پیشرفتهتر نزدیکتر کنند. نظر شما در مورد ترکیب بینایی و زبان در هوش مصنوعی چیست؟ آیا می توان به چنین سیستم هوش مصنوعی قدرتمندی دست یافت که به طور منطقی قابل درک و تجزیه و تحلیل باشد؟
برای دوستان خود ارسال کنید