روش جدید محققان برای تشخیص داده های آموزشی در مدل های گوگل

یافته های یک پژوهش جدید به این ادعا که شرکت «اوپن ای آی» حداقل برخی از مدل های هوش مصنوعی خود را درباره محتوای دارای حق چاپ آموزش داده است، اعتبار می بخشند.

به گزارش لینک بگیر دات کام به نقل از ایسنا، شرکت «اوپن ای آی»(OpenAI) با بعضی از نویسندگان، برنامه نویسان و سایر صاحبان حقوق درگیر است که آنرا به استفاده بدون مجوز از آثار آنها شامل کتاب ها و پایگاه های رمز برای توسعه مدلهای خود متهم می کنند. اوپن ای آی مدت ها از استفاده منصفانه خود دفاع کرده است، اما شاکیان این موارد استدلال می کنند که در قانون حق چاپ آمریکا هیچ موردی جهت استفاده از داده های آموزشی وجود ندارد.
به نقل از تک کرانچ، این پژوهش که توسط محققان «دانشگاه واشنگتن»، «دانشگاه کپنهاگ» و «دانشگاه استنفورد» انجام شده است، متد جدیدی را برای شناسایی داده های آموزشی پیشنهاد می دهد که توسط مدلهای پشت یک API متعلق به شرکت هایی مانند اوپن ای آی حفظ شده اند.
مدلهای هوش مصنوعی مانند موتورهای پیشبینی هستند. مدل هایی که روی داده های زیادی آموزش دیده اند، الگوها را یاد می گیرند و بدین سان می توانند مقاله، عکس و خروجی های دیگر را تولید کنند. بیشتر خروجی ها کپی کلمه به کلمه داده های آموزشی نیستند، اما به علت روش یادگیری مدلها، بعضی از موارد ناگزیر کپی می شوند. مشخص شده است که مدلهای تصویری از فیلم هایی که روی آنها آموزش دیده اند، اسکرین شات می گیرند. همچنین، در موارد بسیاری مشاهده شده است که مدلهای زبانی از مقالات خبری دزدی می کنند.
محققان در این پروژه، چندین مدل شرکت اوپن ای آی همچون «GPT-4» و «GPT-3.5» را برای یافتن نشانه هایی از حفظ کردن با حذف کلمات از کتاب های داستانی و مقالات نیویورک تایمز بررسی کردند و از مدلها خواستند تا حدس بزنند کدام کلمات پوشانده شده اند. نویسندگان همکار به این نتیجه رسیدند که اگر مدلها به درستی حدس بزنند، احیانا این متن ها را در طول روند آموزش حفظ نموده اند.
بر مبنای نتایج آزمایش ها، GPT-4 نشانه هایی را از حفظ کردن قسمتهایی از کتاب های داستانی محبوب، همچون کتاب های الکترونیکی دارای حق چاپ نشان داد. همچنین، نتیجه آزمایش ها نشان داد که این مدل هوش مصنوعی، قسمتهایی را از مقالات نیویورک تایمز - البته با نرخ نسبتا پایین تر - حفظ نموده است.
«ابیلاشا راویچاندر»(Abhilasha Ravichander)، دانشجوی دانشگاه واشنگتن و از محققان این پروژه تصریح کرد که یافته ها، مدلهای دارای داده های متضاد را آشکار کردند. راویچاندر اظهار داشت: برای داشتن مدلهای زبانی بزرگ و قابل اعتماد باید مدل هایی داشته باشیم که بتوانیم آنها را تحت ارزیابی، ممیزی و بررسی علمی قرار دهیم. هدف پژوهش ما عرضه راهی جهت بررسی مدلهای زبانی بزرگ است، اما نیاز واقعی به شفافیت بیشتر داده ها در کل اکوسیستم احساس می شود.
اوپن ای آی مدت هاست که از محدودیت های کمتر در توسعه مدل هایی با استفاده از داده های دارای حق چاپ حمایت می کند. باآنکه این شرکت قراردادهای خاصی را برای صدور مجوز محتوا دارد و مکانیسم هایی را عرضه کرده که به صاحبان اثر امکان می دهند محتوای دارای حق چاپ را مشخص کنند، اما چندین بار دولت آمریکا را ترغیب کرده است تا قوانین استفاده منصفانه را در رابطه با نگاههای آموزشی هوش مصنوعی تدوین کند.

منبع: linkbegir.com

1404/01/16

21:48:13

5.0 / 5

تگهای مطلب: آموزش , گوگل , اوپن ای آی , هوش مصنوعی