بهبود مدلهای یادگیری ماشینی (ML) برای آموزش زبان طبیعی در سالهای اخیر به یک موضوع اصلی در بخش هوش مصنوعی (AI) تبدیل شده است.
به گزارش کالاسودا و به نقل از venturebeat، مدلهای زبان بزرگ (LLM) همیشه یکی از پرطرفدارترین بخشها در تحقیقات هوش مصنوعی بودند.
مدلهای زبان به طور سنتی با استفاده از متون آنلاین از منابعی مانند ویکیپدیا، داستانهای خبری، مقالات علمی و رمانها آموزش داده میشوند.
با این حال، در سالهای اخیر، آموزش این مدلها با بهبود دقت و تطبیق پذیری بسیار اهمیت پیدا کرده است.
به گفته تیمی از پیشبینیکنندگان هوش مصنوعی، در این راستا نگرانی وجود دارد: ممکن است دادهها برای آموزش آنها تمام شود.
دادههای با کیفیت بالا که برای آموزش مدلهای زبان استفاده میشوند ممکن است در اوایل سال 2026 کاهش یابد.
در این راستا Kalyan Veeramachaneni، دانشمند اصلی در آزمایشگاه اطلاعات و سیستمهای تصمیم گیری MIT و رهبر گروه داده هوش مصنوعی آزمایشگاه، راه حلی را پیدا کردهاند.
دادههای با کیفیت بالا و دادههای با کیفیت پایین
به طور کلی دادههایی که برای آموزش مدلها استفاده میشود به دادههای با کیفیت بالا و دادههای با کیفیت پایین تقسیم میشوند.
دادههای باکیفیت عموماً بهعنوان منابعی تعریف میشوند که از فیلترهای مفید عبور کردهاند.
دادههای با کیفیت پایین شامل متنهای بدون فیلتر و تولید شده توسط کاربر مانند پستهای رسانههای اجتماعی هستند.
آموزش LLM با دادههای معیوب و با کیفیت پایین میتواند منجر به مشکلات زیادی شود.
از آنجایی که مدلهای ML برای یادگیری به دادههای آموزشی متکی هستند، کیفیت دادهها به طور چشمگیری بر کیفیت مدل تأثیر میگذارد.
در نتیجه، محققان فقط مدلهایی را با دادههای با کیفیت بالا آموزش میدهند.
بهدست آوردن دادههای با کیفیت بالا سخت است.
Veeramachaneni معتقد است که از نظر کیفیت مدل، LLM های فعلی نیاز به بهبود توانایی خود دارند.
Veeramachaneni و تیم تحقیقاتی گروه Data-to-AI MIT قصد دارند چنین مشکلاتی را از طریق Rewrite و Rollback خود حل کنند.
برای انجام این کار، از یک LLM آموزش دیده با کیفیت بالا استفاده میکند.
در ابتدا تلاش میکند تا کل جمله را بدون محدودیت بازنویسی کند، سپس سعی میکنند برخی از ویرایشها را به عقب برگرداند تا به حداقل تغییرات دست یابد.
همچنین میتوان از R&R برای تبدیل یک جمله با کیفیت پایین یا ضعیف به جملهای با کیفیت بهتر استفاده کرد.
لینک کوتاه: