

دانشمندان علوم زیستی یک مشکل داده دارند: اطلاعات تکه تکه، جدا شده و ناقص است. و این مانع استفاده کامل از فناوری هوش مصنوعی می شود.
گروهی از محققان در نشست برنامه های هوشمند که هفته گذشته توسط Madrona Venture Group در سیاتل برگزار شد، چالش های به کارگیری ابزارهای هوش مصنوعی در علوم زیستی را مورد بحث و بررسی قرار دادند.
هوش مصنوعی روشی را تغییر می دهد که شرکت های فناوری همه چیز را از فروش محصولات گرفته تا بسته های مسیریابی انجام می دهند. مدلهای «هستهای» هوش مصنوعی جدید مانند GPT-3 و DALL-E که میتوانند جملات یا تصاویر جدیدی تولید کنند، با استفاده از مجموعههای آموزشی عظیمی که از اینترنت کشیده شدهاند ساخته شدهاند.
مدیسون ماسالی، کارشناس، مدیر عامل Deepcell، استارت آپی که سلول های تک را به صورت بصری تجزیه و تحلیل و دسته بندی می کند، گفت: در علوم زیستی، “استانداردسازی داده ها بسیار چالش برانگیز است.”
ماسالی گفت که اطلاعات زیست شناسی سلولی تحت تأثیر تفاوت در جمع آوری، ذخیره سازی و پردازش نمونه قرار می گیرد که مانع از مقایسه بین مجموعه داده ها می شود. او گفت: “از نقطه جمع آوری نمونه تا به دست آوردن تصویر، ده ها مرحله وجود دارد که باعث تغییر در داده ها می شود.”
همه داده های علوم زیستی به هم ریخته نیستند. برای مثال، ساختارهای پروتئینی به روشهای استاندارد شده در پایگاههای داده استاندارد نشان داده میشوند. این آموزش ابزارهای هوش مصنوعی DeepMind’s AlphaFold و RoseTTAFold دانشگاه واشنگتن را فعال کرد که اخیراً مشکل طولانی مدت پیشبینی تاخوردگی پروتئین را باز کرده است. اخیراً، UW ProteinMPPN، یک ابزار طراحی پروتئین مبتنی بر هوش مصنوعی را منتشر کرده است.
اما حتی برای پروتئین ها، اطلاعات زیادی پشت دیوار است. لوکاس نیوون، مدیرعامل استارتآپ مهندسی پروتئین سیاتل Cyrus Biotechnology، گفت که سایروس با شرکتهای بزرگ داروسازی برای به اشتراک گذاشتن پایگاههای اطلاعاتی خود در مورد ساختار آنتیبادیها، که اساس بسیاری از درمانها است، تماس گرفته است. ده ها هزار چنین سازه ای در شرکت های مختلف بسته شده اند.
نیوون گفت که همه شرکت ها علاقه مند به ادغام داده ها بودند و مکانیسم هایی را برای به اشتراک گذاشتن ساختارهای خود مورد بحث قرار دادند. نیوون گفت: «و پس از آن هیچکس نمیخواست اولین سرمایهگذار اصلی باشد.
سایرس در تابستان امسال به خدمات وب آمازون و سایر شرکا پیوست تا یک غیرانتفاعی طراحی پروتئین منبع باز به نام OpenFold ایجاد کند که اکنون در حال مذاکره با شرکای بالقوه برای به اشتراک گذاشتن داده های ساختار آنتی بادی است.
“این ماده تاریک وجود دارد که فقط در کنار آن نشسته است. به معنای واقعی کلمه اینجاست.» نیوون گفت. و همه به آن اعتراف می کنند.»

به گفته اعضای پانل، مسائل مربوط به قابلیت اطمینان و سوگیری که بر مدلسازی هوش مصنوعی در کاربردهای فناوری تأثیر میگذارد، بر علوم زیستی نیز تأثیر میگذارد، اما به روشهای مختلف.
وقتی هوش مصنوعی یک پاراگراف بی معنی را بیرون می اندازد، کاربران می توانند بلافاصله آن را ببینند. جاناتان کارلسون، سرپرست تحقیقات علوم زیستی و جوجه کشی در Microsoft Health Futures، که بخشی از بخش تحقیقاتی غول فناوری است، گفت: اما اگر تشخیص نادرست یا ساختار پروتئین اشتباه را نشان دهد، ارزیابی آن دشوارتر است.
کارلسون افزود: بسیاری از مشکلاتی که در علوم زیستی می بینیم منحصر به فرد نیستند، اما بسیار حاد هستند.
آزمایش محصولات ساخته شده با هوش مصنوعی و سپس بازگرداندن داده ها به مدل اصولاً ساده به نظر می رسد، اما در علوم زیستی این فرآیند می تواند زمان بر باشد. Cyrus در حال آزمایش برخی از پروتئین های مهندسی شده خود با همکارانی است که در حال تولید موش های تراریخته جدید هستند، فرآیندی که می تواند بیش از یک سال طول بکشد. اما تیم Nivon همچنین از سیستمهای غربالگری سلولی و آزمایشگاهی با توان بالا استفاده میکند.
نیوون گفت که تلاشها برای بهینهسازی سیستمهای غربالگری امکان اصلاح سریعتر مدلهای هوش مصنوعی را فراهم میکند. او به Capsida Biotherapeutics اشاره میکند که به طور مکرر پروژههای ژن درمانی را با استفاده از مدلهای حیوانی طراحی و آزمایش میکند و بافتهایی را برداشت میکند تا ارزیابی کند که کدامیک به طور موثر به مکان مناسب در بدن میرسند.
ماسالی گفت که محققان مایلند داده های بیولوژیکی را بهتر به نتایج بالینی مرتبط کنند، اما موانع زیادی از جمله نیاز به حفاظت از حریم خصوصی وجود دارد. او گفت: «هیچ نیروی گوگلی وجود ندارد که شامل تمام دادههای سلامت یا زیستی در جهان باشد.
کارلسون آیندهای را پیشبینی میکند که در آن اطلاعات بیشتری از علوم زیستی شناسایی نشده و به قالبهای استاندارد شده و به هم پیوسته منتقل شوند. در نهایت، دادههای حاصل از آزمایشهای بالینی و آزمایشهای حیوانی را میتوان به طور مؤثر به شبکه بازگرداند تا به توسعه فرضیههای جدید و اصلاح سؤالات تحقیقاتی اساسی کمک کند.
کارلسون گفت: چگونه میتوانیم به آنجا برسیم، یک سؤال اصلی برای این رشته وجود دارد: «چگونه همکاری را در عین احترام نه تنها به مالکیت معنوی، بلکه به حریم خصوصی نیز فعال کنیم؟ وقتی حتی نمی توانیم داده ها را باز کنیم، واقعاً به چه معناست که بتوانیم مدل های بنیادی بزرگ بسازیم؟