

روش معمول “خراش” داده های در دسترس عموم در یک وب سایت مورد حمله قانونی قرار گرفته است. یک حکم دادگاه مهم (HiQ Labs v. LinkedIn) اخیراً حکم به قانونی بودن خراش داد، اما لینکدین گفت: «این پرونده هنوز به پایان نرسیده است».
به عنوان فردی که شخصاً در تحقیقات آکادمیک خود و در شرکتهایی که تأسیس کردهام به خراش دادن تکیه کردهام، میخواهم در حمایت از تصمیم دادگاه صحبت کنم و از شما دعوت کنم که به بحث بپیوندید.
Web scraping فرآیند استخراج داده ها از وب سایت ها است. موتورهای جستجوی وب در وب می خزند، از یک وب سایت به وب سایت دیگر حرکت می کنند، وب سایت ها را برای بازیابی و فهرست بندی محتوای آنها می خراشند. محتوا ممکن است مطالبی باشد (متن، تصاویر یا ویدیو) که اغلب موضوع حق چاپ است، یا ممکن است شامل حقایقی باشد (مثلاً قیمت یک محصول یا فهرستی از نویسندگان یک مقاله) که توسط حق چاپ قابل محافظت نباشد.
در این پست، من بر روی عمل خراش دادن حقایق تمرکز میکنم، که اغلب برای شرکتهای بزرگی مانند لینکدین، آمازون و سایرین که دادهها را جمعآوری و جمعآوری میکنند، برای «بدون اطلاعات» مفید است.

مورد خرید مقایسه ای را در نظر بگیرید، که به افراد امکان می دهد به راحتی قیمت های مختلف یک محصول را در بین چندین فروشنده مقایسه کنند.
در سال 1996، من نت بات را تأسیس کردم، اولین شرکتی که خرید آنلاین را برای مقایسه به مصرف کنندگان ارائه داد. در استارتآپهای بعدی، من و همکارانم این ایده را به بلیطهای هواپیما (در Farecast)، محصولات الکترونیکی (در Decide.com) و موارد دیگر گسترش دادیم. ما به مصرفکنندگان کمک کردیم تا بهترین قیمت را دریافت کنند، بفهمند بهترین زمان برای خرید یک محصول چه زمانی است، و افسانههای مربوط به ارزش تخفیفهای جمعه سیاه را شکستیم و به هم سطح کردن شرایط برای مصرفکنندگان کمک کردیم.
همه این استارتآپها (و بسیاری دیگر) برای به دست آوردن اطلاعات کلیدی محصول و قیمتگذاری، در درجه اول به خراش دادن وب متکی هستند. بنابراین، خراش دادن یک مزیت برای مصرف کنندگانی است که می توانند قیمت محصول را با یکدیگر مقایسه کنند، که همچنین تامین کنندگان گران تر را تشویق می کند تا قیمت های رقابتی تری ارائه دهند.
خراش دادن وب نیز برای تحقیق خوب است. به عنوان مثال، در مقاله خود، Nature Nicholas J. DeVito، Georgia C. Richards و Peter Inglesby توضیح می دهند که چگونه برای تجزیه و تحلیل گزارش های پزشکی قانونی برای جلوگیری از مرگ و میر در آینده، بر خراش دادن تکیه می کنند.
در موسسه آلن برای هوش مصنوعی (AI2)، یکی از پروژه های پیشرو ما، Semantic Scholar، بر اساس توانایی جستجوی اطلاعات در مورد مقالات دانشگاهی ساخته شده است. بر اساس این فرضیه که داروی سرطان میتواند در میلیونها مقاله تحقیقاتی به خاک سپرده شود، ما تصمیم گرفتیم یک مخزن پویا از محتوای آکادمیک ایجاد کنیم تا به محققان کمک کند تا با ادبیات علمی همگام شوند.
خراش دادن همچنین شفافیت و مسئولیت پذیری را ارتقا می دهد. Scraping داده هایی را که می توانند برای تجزیه و تحلیل های بی شماری مورد استفاده قرار دهند، دموکراتیزه می کند. برای مثال، روزنامه نگاران از خراش دادن به عنوان ابزاری در تحقیقات انقلابی، از جمله رسوایی فرزندخواندگی، شبکه های نظارتی و فروش غیرقانونی اسلحه استفاده کرده اند.
امروزه، ما اغلب درگیر خراش دادن وب سایت ها، به ویژه گوگل هستیم. به همین دلیل است که HiQ Labs v LinkedIn بسیار مهم است.
لینکدین ادعا می کند که دسترسی HiQ به داده های اعضا، حریم خصوصی اعضای آن را تهدید می کند، اما این فقط یک برگ انجیر است. آنچه واقعاً به داده ها، دسترسی و سود می رسد.
نظر دادگاه ناحیه نهم به این نتیجه رسید که «اقدامات خود لینکدین استدلال آن را مبنی بر اینکه کاربران انتظار محرمانه بودن در پروفایل های عمومی دارند، تضعیف می کند. محصول LinkedIn’s Recruiter به کارمندان این امکان را می دهد که مشتریان بالقوه را “ردیابی” کنند، “اخطار” دریافت کنند.[ed] هنگامی که مشتریان بالقوه تغییراتی در حساب های خود ایجاد می کنند و از آنها استفاده می کنند [alerts] به عنوان سیگنال هایی برای رسیدن به لحظه مناسب “بدون اطلاع مشتری بالقوه…”
در ادامه میگوید که لینکدین با بازاریابی محصولات جدید، راههایی را برای استفاده از حجم وسیع دادههای موجود در پروفایلهای لینکدین بررسی کرده است. در ژوئن 2017، جف واینر، مدیر عامل لینکدین، که در CBS ظاهر شد، توضیح داد که لینکدین امیدوار است «از همه این دادههای استثنایی که ما توانستهایم جمعآوری کنیم، به لطف این که 500 میلیون نفر به سایت پیوستند، استفاده کند. “”
اگرچه با تصمیم دادگاه در این مورد موافقم، اما در مورد برخی موارد استفاده از داده های جعلی نگرانی دارم. برای مثال، HiQ Labs ادعا میکند که «یک توپ کریستالی را ارائه میکند که به … کمک میکند… شکافهای مهارتی یا ریسکهای گردش مالی را ماهها زودتر شناسایی کنیم…» برای مثال، محصول Keeper این شرکت، ریسک سایش را تجزیه و تحلیل میکند.
دیدن پتانسیل سوگیری در تحلیل او و تأثیر نامتناسب بر گروه های خاص، جهشی بزرگ نیست. ما قبلاً این بازی را در پیشبینیهای تکرار، تصمیمگیریهای استخدام، تصمیمهای مالی و بسیاری راههای دیگر دیدهایم.
داده ها یک ارز کلیدی در جامعه ما هستند و خراش دادن دسترسی به این ارز را به صورت جهانی فراهم می کند. این به ما بستگی دارد که تصمیم بگیریم چگونه از آن استفاده کنیم.
همه طرفدار خراش دادن وب نیستند و اغلب از حفظ حریم خصوصی به عنوان دلیل اصلی یاد می کنند. این نگرانی توجیهاتی دارد.
به عنوان مثال، در مورد HiQ Labs v. LinkedIn، اگر یک کاربر LinkedIn حساب خود را ببندد، LinkedIn بر اساس سیاست حفظ حریم خصوصی خود در مورد نحوه پردازش داده های آن کاربر پس از بستن حساب، تعهدات خاصی دارد و LinkedIn مسئول اجرای این است. توافق اگر HiQ Labs قبلاً دادههای این کاربر را از لینکدین پاک کرده باشد، تعهداتی مانند LinkedIn در قبال کاربر ندارد.
این یک چالش جزئی نیست، اما داده ها در زمان خراش دادن به صورت عمومی در دسترس بودند، و مزایا بیشتر از معایب در نظر گرفتن خراش دادن وب به عنوان یک عمل است.
به طور کلی، مزایای خراش دادن برای تحقیقات، رقابت و عموم مردم بیشتر از هزینه هاست. دادگاه ها باید مجدداً حمایت خود را از این رویه رایج تأیید کنند و از آن در برابر اختلافات حقوقی محافظت کنند.