منو سایت

  • خانه
  • اخبار
  • نظر: چرا دادگاه ها حق دارند در مورد لینکدین در نبرد جمع آوری داده ها تصمیم بگیرند؟

نظر: چرا دادگاه ها حق دارند در مورد لینکدین در نبرد جمع آوری داده ها تصمیم بگیرند؟

 تاریخ انتشار :
/
  اخبار
نظر: چرا دادگاه ها حق دارند در مورد لینکدین در نبرد جمع آوری داده ها تصمیم بگیرند؟

نظر: چرا دادگاه ها حق دارند در مورد لینکدین در نبرد جمع آوری داده ها تصمیم بگیرند؟
(تصویر بزرگ)

روش معمول “خراش” داده های در دسترس عموم در یک وب سایت مورد حمله قانونی قرار گرفته است. یک حکم دادگاه مهم (HiQ Labs v. LinkedIn) اخیراً حکم به قانونی بودن خراش داد، اما لینکدین گفت: «این پرونده هنوز به پایان نرسیده است».

به عنوان فردی که شخصاً در تحقیقات آکادمیک خود و در شرکت‌هایی که تأسیس کرده‌ام به خراش دادن تکیه کرده‌ام، می‌خواهم در حمایت از تصمیم دادگاه صحبت کنم و از شما دعوت کنم که به بحث بپیوندید.

Web scraping فرآیند استخراج داده ها از وب سایت ها است. موتورهای جستجوی وب در وب می خزند، از یک وب سایت به وب سایت دیگر حرکت می کنند، وب سایت ها را برای بازیابی و فهرست بندی محتوای آنها می خراشند. محتوا ممکن است مطالبی باشد (متن، تصاویر یا ویدیو) که اغلب موضوع حق چاپ است، یا ممکن است شامل حقایقی باشد (مثلاً قیمت یک محصول یا فهرستی از نویسندگان یک مقاله) که توسط حق چاپ قابل محافظت نباشد.

در این پست، من بر روی عمل خراش دادن حقایق تمرکز می‌کنم، که اغلب برای شرکت‌های بزرگی مانند لینکدین، آمازون و سایرین که داده‌ها را جمع‌آوری و جمع‌آوری می‌کنند، برای «بدون اطلاعات» مفید است.

نظر: چرا دادگاه ها حق دارند در مورد لینکدین در نبرد جمع آوری داده ها تصمیم بگیرند؟
اورن اتزیونی، مدیر عامل AI2. (عکس AI2)

مورد خرید مقایسه ای را در نظر بگیرید، که به افراد امکان می دهد به راحتی قیمت های مختلف یک محصول را در بین چندین فروشنده مقایسه کنند.

در سال 1996، من نت بات را تأسیس کردم، اولین شرکتی که خرید آنلاین را برای مقایسه به مصرف کنندگان ارائه داد. در استارت‌آپ‌های بعدی، من و همکارانم این ایده را به بلیط‌های هواپیما (در Farecast)، محصولات الکترونیکی (در Decide.com) و موارد دیگر گسترش دادیم. ما به مصرف‌کنندگان کمک کردیم تا بهترین قیمت را دریافت کنند، بفهمند بهترین زمان برای خرید یک محصول چه زمانی است، و افسانه‌های مربوط به ارزش تخفیف‌های جمعه سیاه را شکستیم و به هم سطح کردن شرایط برای مصرف‌کنندگان کمک کردیم.

همه این استارت‌آپ‌ها (و بسیاری دیگر) برای به دست آوردن اطلاعات کلیدی محصول و قیمت‌گذاری، در درجه اول به خراش دادن وب متکی هستند. بنابراین، خراش دادن یک مزیت برای مصرف کنندگانی است که می توانند قیمت محصول را با یکدیگر مقایسه کنند، که همچنین تامین کنندگان گران تر را تشویق می کند تا قیمت های رقابتی تری ارائه دهند.

خراش دادن وب نیز برای تحقیق خوب است. به عنوان مثال، در مقاله خود، Nature Nicholas J. DeVito، Georgia C. Richards و Peter Inglesby توضیح می دهند که چگونه برای تجزیه و تحلیل گزارش های پزشکی قانونی برای جلوگیری از مرگ و میر در آینده، بر خراش دادن تکیه می کنند.

در موسسه آلن برای هوش مصنوعی (AI2)، یکی از پروژه های پیشرو ما، Semantic Scholar، بر اساس توانایی جستجوی اطلاعات در مورد مقالات دانشگاهی ساخته شده است. بر اساس این فرضیه که داروی سرطان می‌تواند در میلیون‌ها مقاله تحقیقاتی به خاک سپرده شود، ما تصمیم گرفتیم یک مخزن پویا از محتوای آکادمیک ایجاد کنیم تا به محققان کمک کند تا با ادبیات علمی همگام شوند.

خراش دادن همچنین شفافیت و مسئولیت پذیری را ارتقا می دهد. Scraping داده هایی را که می توانند برای تجزیه و تحلیل های بی شماری مورد استفاده قرار دهند، دموکراتیزه می کند. برای مثال، روزنامه نگاران از خراش دادن به عنوان ابزاری در تحقیقات انقلابی، از جمله رسوایی فرزندخواندگی، شبکه های نظارتی و فروش غیرقانونی اسلحه استفاده کرده اند.

امروزه، ما اغلب درگیر خراش دادن وب سایت ها، به ویژه گوگل هستیم. به همین دلیل است که HiQ Labs v LinkedIn بسیار مهم است.

لینکدین ادعا می کند که دسترسی HiQ به داده های اعضا، حریم خصوصی اعضای آن را تهدید می کند، اما این فقط یک برگ انجیر است. آنچه واقعاً به داده ها، دسترسی و سود می رسد.

نظر دادگاه ناحیه نهم به این نتیجه رسید که «اقدامات خود لینکدین استدلال آن را مبنی بر اینکه کاربران انتظار محرمانه بودن در پروفایل های عمومی دارند، تضعیف می کند. محصول LinkedIn’s Recruiter به کارمندان این امکان را می دهد که مشتریان بالقوه را “ردیابی” کنند، “اخطار” دریافت کنند.[ed] هنگامی که مشتریان بالقوه تغییراتی در حساب های خود ایجاد می کنند و از آنها استفاده می کنند [alerts] به عنوان سیگنال هایی برای رسیدن به لحظه مناسب “بدون اطلاع مشتری بالقوه…”

در ادامه می‌گوید که لینکدین با بازاریابی محصولات جدید، راه‌هایی را برای استفاده از حجم وسیع داده‌های موجود در پروفایل‌های لینکدین بررسی کرده است. در ژوئن 2017، جف واینر، مدیر عامل لینکدین، که در CBS ظاهر شد، توضیح داد که لینکدین امیدوار است «از همه این داده‌های استثنایی که ما توانسته‌ایم جمع‌آوری کنیم، به لطف این که 500 میلیون نفر به سایت پیوستند، استفاده کند. “”

اگرچه با تصمیم دادگاه در این مورد موافقم، اما در مورد برخی موارد استفاده از داده های جعلی نگرانی دارم. برای مثال، HiQ Labs ادعا می‌کند که «یک توپ کریستالی را ارائه می‌کند که به … کمک می‌کند… شکاف‌های مهارتی یا ریسک‌های گردش مالی را ماه‌ها زودتر شناسایی کنیم…» برای مثال، محصول Keeper این شرکت، ریسک سایش را تجزیه و تحلیل می‌کند.

دیدن پتانسیل سوگیری در تحلیل او و تأثیر نامتناسب بر گروه های خاص، جهشی بزرگ نیست. ما قبلاً این بازی را در پیش‌بینی‌های تکرار، تصمیم‌گیری‌های استخدام، تصمیم‌های مالی و بسیاری راه‌های دیگر دیده‌ایم.

داده ها یک ارز کلیدی در جامعه ما هستند و خراش دادن دسترسی به این ارز را به صورت جهانی فراهم می کند. این به ما بستگی دارد که تصمیم بگیریم چگونه از آن استفاده کنیم.

همه طرفدار خراش دادن وب نیستند و اغلب از حفظ حریم خصوصی به عنوان دلیل اصلی یاد می کنند. این نگرانی توجیهاتی دارد.

به عنوان مثال، در مورد HiQ Labs v. LinkedIn، اگر یک کاربر LinkedIn حساب خود را ببندد، LinkedIn بر اساس سیاست حفظ حریم خصوصی خود در مورد نحوه پردازش داده های آن کاربر پس از بستن حساب، تعهدات خاصی دارد و LinkedIn مسئول اجرای این است. توافق اگر HiQ Labs قبلاً داده‌های این کاربر را از لینکدین پاک کرده باشد، تعهداتی مانند LinkedIn در قبال کاربر ندارد.

این یک چالش جزئی نیست، اما داده ها در زمان خراش دادن به صورت عمومی در دسترس بودند، و مزایا بیشتر از معایب در نظر گرفتن خراش دادن وب به عنوان یک عمل است.

به طور کلی، مزایای خراش دادن برای تحقیقات، رقابت و عموم مردم بیشتر از هزینه هاست. دادگاه ها باید مجدداً حمایت خود را از این رویه رایج تأیید کنند و از آن در برابر اختلافات حقوقی محافظت کنند.