- 2024-12-16
- 8 بازدید
- 0 دیدگاه
- هوش مصنوعی
دانشگاه هاروارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص داد
طبق یک گزارش جدید، دانشگاه هاروارد قصد دارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص دهد.
همانطور که میدانیم، دادهها ارزشمندتر از هر منبع طبیعی دیگری هستند و شاید همین مسئله دانشگاه هاروارد را به غول بعدی صنعت داده تبدیل کند. این دانشگاه بهتازگی از راهاندازی یک پایگاه داده عظیم خبر داد که شامل نزدیک به یک میلیون کتاب عمومی است. این کتابها میتوانند به عنوان منبع آموزشی بسیار ارزشمندی برای توسعه مدلهای هوش مصنوعی مورد استفاده قرار گیرند.
یک میلیون جلد کتاب دانشگاه هاروارد در اختیار آموزش هوش مصنوعی
این پروژه که در چارچوب برنامه Institutional Data Initiative دانشگاه هاروارد شکل گرفته، از حمایت مالی شرکتهای بزرگی مانند مایکروسافت و OpenAI نیز برخوردار است. کتابهای موجود در این پایگاه داده توسط گوگل اسکن شدهاند و به دلیل قدمت بسیار زیاد، از محدودیتهای حق چاپ خارج شدهاند.
وبسایت Wired در گزارشی در مورد این پروژه جدید، به تنوع گسترده کتابهای موجود در این پایگاه داده اشاره کرده است. از آثار کلاسیک نویسندگانی مانند شکسپیر، چارلز دیکنز و دانته گرفته تا کتابهای درسی ریاضی و فرهنگ لغتهای زبانهای کمتر شناخته شده مانند ولزی، همگی در این مجموعه گنجانده شدهاند. به طور کلی، حق چاپ یک اثر برای مدت زمانی برابر با طول عمر نویسنده به علاوه 70 سال معتبر است.
مدلهای زبانی پیشرفته مانند ChatGPT که قادر به تولید متنهایی شبیه به انسان هستند، برای آموزش خود به حجم عظیمی از دادههای با کیفیت بالا نیاز دارند. هرچه این مدلها به دادههای بیشتری دسترسی داشته باشند، توانایی آنها در تقلید از انسانها و ارائه اطلاعات دقیقتر بهبود مییابد. اما این نیاز شدید به دادهها چالشهای جدیدی را نیز ایجاد کرده است. شرکتهایی مانند OpenAI با محدودیتهایی در جمعآوری دادههای جدید مواجه هستند و این مسئله باعث شده است که آنها به دنبال راههای جدیدی برای دسترسی به دادههای مورد نیاز خود باشند.
گفتنی است روزنامههای مشهوری همچون وال استریت ژورنال و نیویورک تایمز، OpenAI و رقیب آن، Perplexity را به سرقت دادههای خود بدون کسب اجازه متهم کردهاند. طرفداران هوش مصنوعی در دفاع از این اقدامات، استدلالهای مختلفی را مطرح میکنند. یکی از این استدلالها این است که انسانها نیز با مطالعه و ترکیب اطلاعات موجود، آثار جدیدی خلق میکنند و هوش مصنوعی نیز به همین شکل عمل میکند. آنها معتقدند که فرایند یادگیری و تولید محتوا در انسان و هوش مصنوعی شباهت بسیاری دارد.
اما این مقایسه چندان دقیق نیست. انسانها قادر نیستند میلیاردها متن را با سرعت یک کامپیوتر پردازش کنند. وال استریت ژورنال در شکایت خود علیه Perplexity، این شرکت را متهم به «کپیبرداری در مقیاس بسیار بزرگه کرده است.
طرفداران هوش مصنوعی همچنین استدلال میکنند که هر محتوایی که به صورت عمومی در وب منتشر میشود، در واقع به عنوان مالکیت عمومی محسوب میشود و یک چتبات با درخواست کاربر، به این محتوا دسترسی پیدا میکند. البته باید منتظر ماند و دید دادگاهها در مورد این استدلالها چه تصمیمی میگیرند.
در پاسخ به این انتقادات، OpenAI با برخی از تولیدکنندگان محتوا قراردادهایی منعقد کرده است و Perplexity نیز برنامهای برای همکاری با ناشران راهاندازی کرده است. اما واضح است که این اقدامات تحت فشار انجام شده است.
یک میلیون کتاب برای برآورده کردن نیازهای آموزشی حوزه هوش مصنوعی کافی نخواهد بود، مخصوصا با توجه به قدمت این کتابها و عدم پوشش مفاهیم مدرن مانند اصطلاحات رایج در نسل Z. شرکتهای فعال در حوزه هوش مصنوعی برای ایجاد مزیت رقابتی، به دنبال دسترسی به دادههای منحصربهفرد و اختصاصی هستند. به همین دلیل، مدلهای هوش مصنوعی این شرکتها، تفاوتهای چشمگیری با یکدیگر دارند.
ارسال دیدگاه