آموزش مدل‌های زبان هوش مصنوعی توسط گروه MIT

توسط

۱۴۰۱-۰۹-۱۶

102

بهبود مدل‌های یادگیری ماشینی (ML) برای آموزش زبان طبیعی در سال‌های اخیر به یک موضوع اصلی در بخش هوش مصنوعی (AI) تبدیل شده است.

به گزارش کالاسودا و به نقل از venturebeat، مدل‌های زبان بزرگ (LLM) همیشه یکی از پرطرفدارترین بخش‌ها در تحقیقات هوش مصنوعی بودند.

مدل‌های زبان به طور سنتی با استفاده از متون آنلاین از منابعی مانند ویکی‌پدیا، داستان‌های خبری، مقالات علمی و رمان‌ها آموزش داده می‌شوند.

با این حال، در سال‌های اخیر، آموزش این مدل‌ها با بهبود دقت و تطبیق پذیری بسیار اهمیت پیدا کرده است.

به گفته تیمی از پیش‌بینی‌کنندگان هوش مصنوعی، در این راستا نگرانی وجود دارد: ممکن است داده‌ها برای آموزش آنها تمام شود.

داده‌های با کیفیت بالا که برای آموزش مدل‌های زبان استفاده می‌شوند ممکن است در اوایل سال 2026 کاهش یابد.

در این راستا Kalyan Veeramachaneni، دانشمند اصلی در آزمایشگاه اطلاعات و سیستم‌های تصمیم گیری MIT و رهبر گروه داده هوش مصنوعی آزمایشگاه، راه حلی را پیدا کرده‌اند.

داده‌های با کیفیت بالا و داده‌های با کیفیت پایین

به طور کلی داده‌هایی که برای آموزش مدل‌ها استفاده می‌شود به داده‌های با کیفیت بالا و داده‌های با کیفیت پایین تقسیم می‌شوند.

داده‌های باکیفیت عموماً به‌عنوان منابعی تعریف می‌شوند که از فیلترهای مفید عبور کرده‌اند.

داده‌های با کیفیت پایین شامل متن‌های بدون فیلتر و تولید شده توسط کاربر مانند پست‌های رسانه‌های اجتماعی هستند.

آموزش LLM با داده‌های معیوب و با کیفیت پایین می‌تواند منجر به مشکلات زیادی شود.

از آنجایی که مدل‌های ML برای یادگیری به داده‌های آموزشی متکی هستند، کیفیت داده‌ها به طور چشمگیری بر کیفیت مدل تأثیر می‌گذارد.

در نتیجه، محققان فقط مدل‌هایی را با داده‌های با کیفیت بالا آموزش می‌دهند.

به‌دست آوردن داده‌های با کیفیت بالا سخت است.

Veeramachaneni معتقد است که از نظر کیفیت مدل، LLM های فعلی نیاز به بهبود توانایی خود دارند.

Veeramachaneni و تیم تحقیقاتی گروه Data-to-AI MIT قصد دارند چنین مشکلاتی را از طریق Rewrite و Rollback خود حل کنند.

برای انجام این کار، از یک LLM آموزش دیده با کیفیت بالا استفاده می‌کند.

در ابتدا تلاش می‌کند تا کل جمله را بدون محدودیت بازنویسی کند، سپس سعی می‌کنند برخی از ویرایش‌ها را به عقب برگرداند تا به حداقل تغییرات دست یابد.

همچنین می‌توان از R&R برای تبدیل یک جمله با کیفیت پایین یا ضعیف به جمله‌ای با کیفیت بهتر استفاده کرد.

لینک کوتاه:

داده‌های با کیفیت بالا و داده‌های با کیفیت پایین

مقالات مرتبطمقالات نویسنده

مغز مجازی با ChatGPT-5

خودرو دو سر سیتروئن

شرکت آمریکایی جلوی فروش محصولات لنوو و موتورولا در آلمان را گرفت

مقالات مرتبط مقالات نویسنده