دانشگاه هاروارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص داد

طبق یک گزارش جدید، دانشگاه هاروارد قصد دارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص دهد. همانطور که…
دانشگاه هاروارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص داد

طبق یک گزارش جدید، دانشگاه هاروارد قصد دارد یک میلیون جلد کتاب برای آموزش هوش مصنوعی اختصاص دهد.

همانطور که می‌دانیم، داده‌ها ارزشمندتر از هر منبع طبیعی دیگری هستند و شاید همین مسئله دانشگاه هاروارد را به غول بعدی صنعت داده تبدیل کند. این دانشگاه به‌تازگی از راه‌اندازی یک پایگاه داده عظیم خبر داد که شامل نزدیک به یک میلیون کتاب عمومی است. این کتاب‌ها می‌توانند به عنوان منبع آموزشی بسیار ارزشمندی برای توسعه مدل‌های هوش مصنوعی مورد استفاده قرار گیرند.

یک میلیون جلد کتاب دانشگاه هاروارد در اختیار آموزش هوش مصنوعی

این پروژه که در چارچوب برنامه Institutional Data Initiative دانشگاه هاروارد شکل گرفته، از حمایت مالی شرکت‌های بزرگی مانند مایکروسافت و OpenAI نیز برخوردار است. کتاب‌های موجود در این پایگاه داده توسط گوگل اسکن شده‌اند و به دلیل قدمت بسیار زیاد، از محدودیت‌های حق چاپ خارج شده‌اند.

وب‌سایت Wired در گزارشی در مورد این پروژه جدید، به تنوع گسترده کتاب‌های موجود در این پایگاه داده اشاره کرده است. از آثار کلاسیک نویسندگانی مانند شکسپیر، چارلز دیکنز و دانته گرفته تا کتاب‌های درسی ریاضی و فرهنگ لغت‌های زبان‌های کمتر شناخته شده مانند ولزی، همگی در این مجموعه گنجانده شده‌اند. به طور کلی، حق چاپ یک اثر برای مدت زمانی برابر با طول عمر نویسنده به علاوه 70 سال معتبر است.

مدل‌های زبانی پیشرفته مانند ChatGPT که قادر به تولید متن‌هایی شبیه به انسان هستند، برای آموزش خود به حجم عظیمی از داده‌های با کیفیت بالا نیاز دارند. هرچه این مدل‌ها به داده‌های بیشتری دسترسی داشته باشند، توانایی آن‌ها در تقلید از انسان‌ها و ارائه اطلاعات دقیق‌تر بهبود می‌یابد. اما این نیاز شدید به داده‌ها چالش‌های جدیدی را نیز ایجاد کرده است. شرکت‌هایی مانند OpenAI با محدودیت‌هایی در جمع‌آوری داده‌های جدید مواجه هستند و این مسئله باعث شده است که آن‌ها به دنبال راه‌های جدیدی برای دسترسی به داده‌های مورد نیاز خود باشند.

ChatGPT اطلاعات شخصی کاربران

گفتنی است روزنامه‌های مشهوری همچون وال استریت ژورنال و نیویورک تایمز، OpenAI و رقیب آن، Perplexity را به سرقت داده‌های خود بدون کسب اجازه متهم کرده‌اند. طرفداران هوش مصنوعی در دفاع از این اقدامات، استدلال‌های مختلفی را مطرح می‌کنند. یکی از این استدلال‌ها این است که انسان‌ها نیز با مطالعه و ترکیب اطلاعات موجود، آثار جدیدی خلق می‌کنند و هوش مصنوعی نیز به همین شکل عمل می‌کند. آن‌ها معتقدند که فرایند یادگیری و تولید محتوا در انسان و هوش مصنوعی شباهت بسیاری دارد.

اما این مقایسه چندان دقیق نیست. انسان‌ها قادر نیستند میلیاردها متن را با سرعت یک کامپیوتر پردازش کنند. وال استریت ژورنال در شکایت خود علیه Perplexity، این شرکت را متهم به «کپی‌برداری در مقیاس بسیار بزرگه کرده است.

طرفداران هوش مصنوعی همچنین استدلال می‌کنند که هر محتوایی که به صورت عمومی در وب منتشر می‌شود، در واقع به عنوان مالکیت عمومی محسوب می‌شود و یک چت‌بات با درخواست کاربر، به این محتوا دسترسی پیدا می‌کند. البته باید منتظر ماند و دید دادگاه‌ها در مورد این استدلال‌ها چه تصمیمی می‌گیرند.

در پاسخ به این انتقادات، OpenAI با برخی از تولیدکنندگان محتوا قراردادهایی منعقد کرده است و Perplexity نیز برنامه‌ای برای همکاری با ناشران راه‌اندازی کرده است. اما واضح است که این اقدامات تحت فشار انجام شده است.

یک میلیون کتاب برای برآورده کردن نیازهای آموزشی حوزه هوش مصنوعی کافی نخواهد بود، مخصوصا با توجه به قدمت این کتاب‌ها و عدم پوشش مفاهیم مدرن مانند اصطلاحات رایج در نسل Z. شرکت‌های فعال در حوزه هوش مصنوعی برای ایجاد مزیت رقابتی، به دنبال دسترسی به داده‌های منحصربه‌فرد و اختصاصی هستند. به همین دلیل، مدل‌های هوش مصنوعی این شرکت‌ها، تفاوت‌های چشمگیری با یکدیگر دارند.

منبع خبر