خلاصه خبر:
شرکت Terra Quantum الگوریتم TQCompressor را معرفی کرده است که میتواند مدلهای زبان بزرگ (LLM) را با حفظ عملکرد آنها کوچک کند. تکنیک فشردهسازی اندازه مجموعه دادههای مورد نیاز برای پیشآموزش را تا ۳۵ درصد برای مدل کوچک GPT-2 کاهش میدهد. TQCompressedGPT-2، مدل فشرده شده، در کارهای تولید گفتار و پیش بینی عملکرد بهتری از سایر انواع فشرده داشت. این الگوریتم از تکنیک های شبکه تانسور برای بازسازی اتصالات بین نورون ها در LLM ها استفاده می کند. TQCompressor این پتانسیل را دارد که انرژی و هزینه های محاسبه شده مرتبط با LLM را به میزان قابل توجهی کاهش دهد. این تحقیق اثربخشی شبکه های تانسور را در توسعه LLM های کارآمدتر نشان می دهد. Terra Quantum قصد دارد مدلهای هوش مصنوعی و پردازش زبان طبیعی (NLP) را با روشهای الهامگرفته از کوانتوم تغییر دهد. الگوریتم فشرده سازی فرصت هایی را برای صنایع مختلف مانند مالی، بهداشت و درمان و آموزش باز می کند.
توضیحات تکمیلی:
Terra Quantum، یک شرکت پیشرو در فناوری کوانتومی، اخیراً از TQCompressor، یک الگوریتم نوآورانه که برای کوچک کردن مدلهای زبان بزرگ (LLM) و حفظ عملکرد آنها طراحی شده است، رونمایی کرده است. هدف رسیدگی به نیازهای رو به رشد مدل های هوش مصنوعی مولد است که زمان، محاسبات و منابع انرژی قابل توجهی را مصرف می کنند، به ویژه در طول آموزش.
تکنیک فشرده سازی جدید ارائه شده توسط TQCompressor کاهش قابل توجهی را در اندازه مجموعه داده های مورد نیاز برای قبل از آموزش در مورد وظایف خاص در مقایسه با سایر روش های فشرده سازی رایج به همراه دارد. در یک مطالعه موردی اخیر، محققان از این الگوریتم برای فشرده سازی مدل کوچک GPT-2 استفاده کردند و به کاهش چشمگیر 35 درصدی در تعداد پارامترها دست یافتند. با وجود به کارگیری تا 97 درصد داده کمتر، مدل فشرده قابلیت تولید گفتار برتر را در مقایسه با سایر انواع فشرده رایج قبلی خود ChatGPT نشان داد.
محققان در کار خود با عنوان "TQCompressor: بهبود روش های تجزیه تانسور در شبکه های عصبی از طریق جایگشت"، مدل معیار GPT-2 را با موفقیت از 117 میلیون پارامتر به 81 میلیون فشرده کردند. سپس با ارائه مجموعه دادههای مختلف، از جمله مجموعه بزرگی از مقالات ویکیپدیا، عملکرد آن را در مقایسه با سایر مدلهای فشرده ارزیابی کردند. مدل Terra Quantum نتایج بهبود یافته ای را در پیش بینی کلمه بعدی در یک دنباله و ایجاد متن منسجم بر اساس درک زمینه ای نشان داد.
Markus Pflitsch، مدیر عامل Terra Quantum، بر پتانسیل الگوریتم فشرده سازی برای کاهش قابل توجه انرژی و هزینه های محاسبه شده مرتبط با LLM تاکید کرد. وی اظهار داشت که این پیشرفت پایه و اساس بهینه سازی معماری شبکه های عصبی را می گذارد که می تواند مدل های هوش مصنوعی مولد را ساده کند و به آنها اجازه می دهد بدون به خطر انداختن عملکرد استثنایی خود به اهداف پایداری برسند.
GPT-2 کوچک، مدلی که در مقاله مورد بررسی قرار گرفت، معماری زبانی مشابه GPT-2 و ChatGPT دارد. در حالی که GPT-2 دارای 1.5 میلیارد پارامتر است، نسخه "کوچک" دارای 117 میلیون پارامتر است که نشان دهنده کوچکترین پارامتر در بین انواع GPT-2 منتشر شده توسط OpenAI است. کاهش اندازه کلی این LLM ها راه را برای کاربرد آنها در طیف وسیع تری از موارد هموار می کند.
TQCompressor از یک تکنیک شبکه تانسور برای بازسازی اتصالات بین نورون ها در LLM ها و در عین حال حفظ یکپارچگی ساختاری آنها استفاده می کند. مدل فشرده، TQCompressedGPT-2، اکنون در Hugging Face در دسترس عموم است. این نشان دهنده یک مدل شبکه عصبی پیشرفته برای وظایف پردازش زبان طبیعی (NLP) است که کارایی و بیان بهتری را در مقایسه با GPT-2 ارائه می دهد.
به گفته الکسی ناوموف، مهندس هوش مصنوعی در Terra Quantum و نویسنده اصلی مقاله، شبکههای عصبی فشرده اغلب از کاهش بیانی رنج میبرند، که به توانایی آنها در گرفتن و نمایش الگوها و روابط پیچیده در دادهها اشاره دارد. با این حال، بهینهسازی شبکه عصبی که توسط TQCompressor انجام میشود، فرآیند فشردهسازی مؤثرتری را ممکن میسازد که این افت در بیان را کاهش میدهد و امکان استقرار کارآمد و مؤثر مدل هوش مصنوعی را فراهم میکند.
با توجه به زمان، محاسبات و منابع انرژی قابل توجهی که برای آموزش مدلهای بزرگ NLP مورد نیاز است، ظهور این مدلها نگرانیهای زیستمحیطی را به همراه دارد. تکنیک های الهام گرفته شده از کوانتوم، مانند TQCompressor، یک راه حل بالقوه برای این مشکل ارائه می دهد. با کاهش نیازهای آموزشی LLM، الگوریتم پتانسیل شبکههای تانسور را برای سادهسازی برنامههای یادگیری ماشین و توسعه مدلهای کارآمدتر نشان میدهد.
تحقیقات بیشتر میتواند کاربرد تکنیکهای فشردهسازی Terra Quantum را برای موارد استفاده بزرگتر از جمله ChatGPT بررسی کند. پتانسیل تحول آفرین هوش مصنوعی مولد، به ویژه هنگامی که با محاسبات کوانتومی ترکیب شود، می تواند تأثیر عمیقی بر صنایع مختلف مانند مالی، مراقبت های بهداشتی و آموزش داشته باشد. روش های شبکه تانسور کوانتومی Terra Quantum راه را برای این پیشرفت ها در هوش مصنوعی و NLP هموار می کند.
منبع
https://thequantuminsider.com/2024/03/07/researchers-say-new-algorithm-outperforms-existing-ai-compressors-in-accuracy-and-reduction-of-computational-demands-of-gpt-2/