Quantum

Atlas

الگوریتم جدیدی که از هوش مصنوعی موجود در دقت و کاهش نیازهای محاسباتی GPT-2 بهتر عمل میکند.

۲۳ اسفند ۱۴۰۲ اخبار جهان ، آخرین تحولات محاسبات کوانتومی ، الگوریتم کوانتومی

خلاصه خبر:

شرکت Terra Quantum الگوریتم TQCompressor را معرفی کرده است که می‌تواند مدل‌های زبان بزرگ (LLM) را با حفظ عملکرد آنها کوچک کند. تکنیک فشرده‌سازی اندازه مجموعه داده‌های مورد نیاز برای پیش‌آموزش را تا ۳۵ درصد برای مدل کوچک GPT-2 کاهش می‌دهد. TQCompressedGPT-2، مدل فشرده شده، در کارهای تولید گفتار و پیش بینی عملکرد بهتری از سایر انواع فشرده داشت. این الگوریتم از تکنیک های شبکه تانسور برای بازسازی اتصالات بین نورون ها در LLM ها استفاده می کند. TQCompressor این پتانسیل را دارد که انرژی و هزینه های محاسبه شده مرتبط با LLM را به میزان قابل توجهی کاهش دهد. این تحقیق اثربخشی شبکه های تانسور را در توسعه LLM های کارآمدتر نشان می دهد. Terra Quantum قصد دارد مدل‌های هوش مصنوعی و پردازش زبان طبیعی (NLP) را با روش‌های الهام‌گرفته از کوانتوم تغییر دهد. الگوریتم فشرده سازی فرصت هایی را برای صنایع مختلف مانند مالی، بهداشت و درمان و آموزش باز می کند.

توضیحات تکمیلی:

Terra Quantum، یک شرکت پیشرو در فناوری کوانتومی، اخیراً از TQCompressor، یک الگوریتم نوآورانه که برای کوچک کردن مدل‌های زبان بزرگ (LLM) و حفظ عملکرد آنها طراحی شده است، رونمایی کرده است. هدف رسیدگی به نیازهای رو به رشد مدل های هوش مصنوعی مولد است که زمان، محاسبات و منابع انرژی قابل توجهی را مصرف می کنند، به ویژه در طول آموزش.

تکنیک فشرده سازی جدید ارائه شده توسط TQCompressor کاهش قابل توجهی را در اندازه مجموعه داده های مورد نیاز برای قبل از آموزش در مورد وظایف خاص در مقایسه با سایر روش های فشرده سازی رایج به همراه دارد. در یک مطالعه موردی اخیر، محققان از این الگوریتم برای فشرده سازی مدل کوچک GPT-2 استفاده کردند و به کاهش چشمگیر 35 درصدی در تعداد پارامترها دست یافتند. با وجود به کارگیری تا 97 درصد داده کمتر، مدل فشرده قابلیت تولید گفتار برتر را در مقایسه با سایر انواع فشرده رایج قبلی خود ChatGPT نشان داد.

محققان در کار خود با عنوان "TQCompressor: بهبود روش های تجزیه تانسور در شبکه های عصبی از طریق جایگشت"، مدل معیار GPT-2 را با موفقیت از 117 میلیون پارامتر به 81 میلیون فشرده کردند. سپس با ارائه مجموعه داده‌های مختلف، از جمله مجموعه بزرگی از مقالات ویکی‌پدیا، عملکرد آن را در مقایسه با سایر مدل‌های فشرده ارزیابی کردند. مدل Terra Quantum نتایج بهبود یافته ای را در پیش بینی کلمه بعدی در یک دنباله و ایجاد متن منسجم بر اساس درک زمینه ای نشان داد.

Markus Pflitsch، مدیر عامل Terra Quantum، بر پتانسیل الگوریتم فشرده سازی برای کاهش قابل توجه انرژی و هزینه های محاسبه شده مرتبط با LLM تاکید کرد. وی اظهار داشت که این پیشرفت پایه و اساس بهینه سازی معماری شبکه های عصبی را می گذارد که می تواند مدل های هوش مصنوعی مولد را ساده کند و به آنها اجازه می دهد بدون به خطر انداختن عملکرد استثنایی خود به اهداف پایداری برسند.

GPT-2 کوچک، مدلی که در مقاله مورد بررسی قرار گرفت، معماری زبانی مشابه GPT-2 و ChatGPT دارد. در حالی که GPT-2 دارای 1.5 میلیارد پارامتر است، نسخه "کوچک" دارای 117 میلیون پارامتر است که نشان دهنده کوچکترین پارامتر در بین انواع GPT-2 منتشر شده توسط OpenAI است. کاهش اندازه کلی این LLM ها راه را برای کاربرد آنها در طیف وسیع تری از موارد هموار می کند.

TQCompressor از یک تکنیک شبکه تانسور برای بازسازی اتصالات بین نورون ها در LLM ها و در عین حال حفظ یکپارچگی ساختاری آنها استفاده می کند. مدل فشرده، TQCompressedGPT-2، اکنون در Hugging Face در دسترس عموم است. این نشان دهنده یک مدل شبکه عصبی پیشرفته برای وظایف پردازش زبان طبیعی (NLP) است که کارایی و بیان بهتری را در مقایسه با GPT-2 ارائه می دهد.

به گفته الکسی ناوموف، مهندس هوش مصنوعی در Terra Quantum و نویسنده اصلی مقاله، شبکه‌های عصبی فشرده اغلب از کاهش بیانی رنج می‌برند، که به توانایی آنها در گرفتن و نمایش الگوها و روابط پیچیده در داده‌ها اشاره دارد. با این حال، بهینه‌سازی شبکه عصبی که توسط TQCompressor انجام می‌شود، فرآیند فشرده‌سازی مؤثرتری را ممکن می‌سازد که این افت در بیان را کاهش می‌دهد و امکان استقرار کارآمد و مؤثر مدل هوش مصنوعی را فراهم می‌کند.

با توجه به زمان، محاسبات و منابع انرژی قابل توجهی که برای آموزش مدل‌های بزرگ NLP مورد نیاز است، ظهور این مدل‌ها نگرانی‌های زیست‌محیطی را به همراه دارد. تکنیک های الهام گرفته شده از کوانتوم، مانند TQCompressor، یک راه حل بالقوه برای این مشکل ارائه می دهد. با کاهش نیازهای آموزشی LLM، الگوریتم پتانسیل شبکه‌های تانسور را برای ساده‌سازی برنامه‌های یادگیری ماشین و توسعه مدل‌های کارآمدتر نشان می‌دهد.

تحقیقات بیشتر می‌تواند کاربرد تکنیک‌های فشرده‌سازی Terra Quantum را برای موارد استفاده بزرگ‌تر از جمله ChatGPT بررسی کند. پتانسیل تحول آفرین هوش مصنوعی مولد، به ویژه هنگامی که با محاسبات کوانتومی ترکیب شود، می تواند تأثیر عمیقی بر صنایع مختلف مانند مالی، مراقبت های بهداشتی و آموزش داشته باشد. روش های شبکه تانسور کوانتومی Terra Quantum راه را برای این پیشرفت ها در هوش مصنوعی و NLP هموار می کند.

منبع

https://thequantuminsider.com/2024/03/07/researchers-say-new-algorithm-outperforms-existing-ai-compressors-in-accuracy-and-reduction-of-computational-demands-of-gpt-2/