GSM-logo
خانهاخبار
همه چیز درباره جمنای نانو

همه چیز درباره جمنای نانو

از جدیدترین مدل هوش مصنوعی گوگل چه می‌دانید؟

۱۸ شهریور ۱۴۰۳

تبلیغات

home_header

ما از دستیارهای دیجیتالی مانند Google Assistant و Siri برای مدیریت وظایف، پاسخ به سوالات و سازماندهی امور استفاده می‌کنیم. اگرچه این دستیارها کارآمد هستند، اما با هوش مصنوعی پیشرفته‌ای که در فیلم‌های علمی-تخیلی می‌بینیم، مانند سیستم‌های هوشمند و شهودی که تقریباً شبیه به انسان عمل می‌کنند، فاصله زیادی دارند. با این حال، فصل جدیدی در کتاب هوش مصنوعی در حال ورق خوردن است. Gemini Nano گوگل در حال فراهم کردن بستری برای تعاملات هوشمندتر و سریع‌تر با دستگاه شماست، چه آخرین مدل گوگل پیکسل باشد و چه یک گوشی هوشمند اندرویدی دیگر. بیایید نگاهی دقیق‌تر به Gemini Nano بیندازیم.

Gemini Nano چیست؟

Gemini Nano یک مدل هوش مصنوعی کوچک اما قدرتمند است که برای استفاده روی دستگاه‌های کم‌مصرف طراحی شده است. طبق معیارهای عملکرد، این مدل زبانی بزرگ در وظایفی مانند خلاصه‌سازی متن و درک مطلب به خوبی عمل می‌کند و همچنین در عملیات پیچیده‌تر مانند استدلال، مسائل STEM، و کدنویسی نیز موفق است.

این مدل در دو نسخه ارائه می‌شود: Nano-1 با 1.8 میلیارد پارامتر که برای دستگاه‌های کم‌حافظه مناسب است و Nano-2 با 3.25 میلیارد پارامتر که برای محیط‌های با حافظه بیشتر طراحی شده است. Gemini Nano بر روی دستگاه‌های اندرویدی که از سرویس سیستم Android AICore استفاده می‌کنند، کار می‌کند. این مدل در سری‌های Google Pixel 9، Pixel 8 Pro، Pixel 8، Pixel 8a، سری Samsung Galaxy S24، Galaxy Z Fold 6 و Z Flip 6 در دسترس است و پشتیبانی از دستگاه‌های بیشتر و مرورگر گوگل کروم نیز به زودی عرضه می‌شود.

Gemini Nano: مدلی چندوجهی و چندزبانه

مدل‌های Gemini با استفاده از یک مجموعه‌داده چندوجهی و چندزبانه ساخته شده‌اند که شامل داده‌هایی از وب‌سایت‌ها، کتاب‌ها، کدها، تصاویر، صدا و ویدیو است. هوش مصنوعی‌های چندوجهی مانند جمنای نانو می‌توانند به طور همزمان انواع مختلف داده‌ها از جمله متن، تصویر، صدا و ویدیو را پردازش و درک کنند.

این توانایی به آن امکان می‌دهد که وظایفی را انجام دهد که نیاز به درک یکپارچه و جامع از رسانه‌های مختلف دارند، و در نتیجه خروجی‌های دقیق‌تر و غنی‌تری تولید کند. به لطف قابلیت‌های چندزبانه خود، Gemini Nano می‌تواند محتوا را به زبان‌های مختلف درک، پردازش و تولید کند، که این امر آن را به یکی از کاربردی‌ترین هوش مصنوعی های موجود تبدیل می‌کند.

gemini-performance.jpg

این ویژگی امکان برقراری ارتباط بین‌زبانی آسان را فراهم می‌کند و امکان ترجمه و تولید محتوا به صورت همزمان به زبان‌های مختلف را برای پاسخگویی به نیازهای مخاطبان متنوع فراهم می‌کند. جمنای در بیش از 40 زبان در دسترس است و گوگل در حال آموزش دادن آن برای پاسخگویی به زبان‌های بیشتر است.

Gemini Nano به‌صورت لوکال بر روی دستگاه شما کار می‌کند

Gemini Nano با انجام پردازش داده‌ها به صورت لوکال بر روی دستگاه شما، بدون ارسال داده به سرورهای ابری، عمل می‌کند. این موضوع تضمین می‌کند که اطلاعات حساس شما در گوشی باقی می‌ماند واز حریم خصوصی شما محافظت کرده و از انتقال یا ذخیره‌سازی داده‌ها به‌صورت خارجی جلوگیری می‌کند.

این موضوع به‌ویژه هنگام استفاده از برنامه‌های پیام‌رسانی رمزگذاری‌شده انتها به انتها اهمیت دارد، زیرا پیشنهادات و اصلاحات بدون ترک دستگاه شما انجام می‌شود. همچنین این بدین معناست که Gemini Nano برای عملکرد مؤثر به اتصال فعال به اینترنت نیاز ندارد و شما می‌توانید به‌صورت آفلاین نیز از آن استفاده کنید.

چگونگی یادگیری جمنای نانو از مدل‌های بزرگ‌تر Gemini

در هسته خود، مدل‌های Gemini بر اساس چارچوب رمزگذار Transformer ساخته شده‌اند که برای آموزش پایدار در مقیاس بزرگ و استنتاج کارآمد در واحدهای پردازش تانسور (TPU) گوگل بهینه شده‌اند. با این حال، نسخه‌های Nano-1 و Nano-2 هر دو از مدل‌های بزرگ‌تر Gemini مشتق شده‌اند، که به همین دلیل است که با وجود اندازه کوچک خود عملکرد فوق‌العاده‌ای دارند. در یادگیری ماشین، "مشتق شدن" به فرآیندی به نام "تقطیر دانش" اشاره دارد. این تکنیک شامل آموزش یک مدل کوچکتر (که اغلب به عنوان مدل دانش‌آموز شناخته می‌شود) برای تقلید از رفتار و عملکرد یک مدل بزرگتر و پیچیده‌تر (که به عنوان مدل معلم شناخته می‌شود) است.

مدل‌های بزرگ‌تر Gemini (Gemini Pro و Gemini Ultra)، که بر روی مجموعه‌داده‌های بزرگ آموزش دیده‌اند و دارای دانش عمیق هستند، به‌عنوان معلمان عمل می‌کنند. این مدل‌ها اغلب برای استقرار در دستگاه‌های با منابع محدود، مانند گوشی‌های هوشمند، بیش از حد بزرگ هستند. مدل دانش‌آموز، در اینجا Gemini Nano، نسخه کوچک‌تری از مدل معلم است. در طول فرآیند آموزش، مدل دانش‌آموز آموزش می‌بیند تا خروجی‌های مدل معلم را با دقت بالا تکرار کند، اما با تعداد پارامترهای کمتر.

 مدل دانش‌آموز از خروجی‌های ارائه شده توسط مدل معلم نیز استفاده می‌کند که این موضوع به یادگیری بیشتر این مدل منجر می‌شود که در نوع خود بسیار جذاب است. این امر به مدل دانش‌آموز کمک می‌کند تا دانش و الگوهای معلم را به‌خوبی درک کند تا در انجام وظایف عملکرد خوبی داشته باشد، حتی اگر اندازه کوچکتری داشته باشد. این فرآیند یادگیری موجب می‌شود که Gemini Nano بخش زیادی از دقت و قابلیت‌های مدل‌های بزرگ‌تر Gemini را حفظ کند، اما در قالبی فشرده و مناسب برای استفاده بر روی دستگاه‌ها استفاده شود.

AICore: مرکز فرماندهی هوش مصنوعی برای اندروید

AICore یک ماژول در سطح سیستم در سیستم‌عامل اندروید است که به‌عنوان مرکز فرماندهی برای مدیریت وظایف هوش مصنوعی عمل می‌کند. هنگامی که یک برنامه اندرویدی نیاز به انجام عملیات مرتبط با هوش مصنوعی دارد، از طریق Google AI Edge SDK با AICore تعامل می‌کند. معماری AICore شامل چندین ویژگی ایمنی داخلی است تا اطمینان حاصل شود که وظایف هوش مصنوعی با استانداردهای ایمنی گوگل مطابقت دارند و با اصول Private Compute Core گوگل هم‌خوانی دارند. 

ادغام Gemini Nano در مرورگر کروم توسط گوگل

در رویداد Google I/O 2024، گوگل اعلام کرد که Gemini Nano به زودی در مرورگر کروم در دسترس خواهد بود. شما می‌توانید Gemini Nano را از طریق Chrome Canary، نسخه آزمایشی این مرورگر، بررسی کنید. با ادغام Gemini Nano در برنامه دسکتاپ کروم، گوگل قابلیت‌های هوش مصنوعی مرورگر را بهبود بخشیده است و کروم را در موقعیتی قرار داده است تا مانند مایکروسافت اج با Copilot از Gemini Nano بهره‌مند شود.

google-pixel-9-pro-xl-gemini-live-demo-1.jpg

برای توسعه‌دهندگان، ادغام هوش مصنوعی در کروم به این معناست که آن‌ها می‌توانند برنامه‌های وبی توسعه دهند که از قابلیت‌های قدرتمند هوش مصنوعی استفاده می‌کنند بدون اینکه به راه‌حل‌های مبتنی بر ابر وابسته باشند. آن‌ها می‌توانند از API‌ها برای وظایفی مانند ترجمه یا خلاصه‌سازی استفاده کنند که به‌صورت محلی روی دستگاه‌های کاربران اجرا می‌شود و به دستگاه‌های کاربران اجازه می‌دهد تا بخشی از بار منابع را به‌جای سرورهایشان تحمل کنند.

کاربردهای فعلی Gemini Nano در اندروید چیست؟

چندین ویژگی توسط Gemini Nano در آخرین گوشی‌های Google Pixel پشتیبانی می‌شود و احتمالاً ویژگی‌های جدیدی نیز در آینده معرفی خواهند شد. این ویژگی‌ها شامل:

برنامه Recorder: برنامه Recorder از Gemini Nano برای خلاصه‌سازی مکالمات ضبط شده، مصاحبه‌ها، ارائه‌ها و سخنرانی‌ها به نکات اصلی استفاده می‌کند. این کار به‌صورت لوکال و بدون نیاز به اتصال اینترنت انجام می‌شود.

تصاویر صفحه در Pixel: با برنامه Pixel Screenshots، پردازش تصویر توسط Gemini Nano محتوای تصاویر صفحه شما را تحلیل می‌کند، متن را استخراج کرده و آن را قابل جستجو می‌کند. همچنین این برنامه از Gemini Nano برای تولید پاسخ به سوالات شما بر اساس محتوای تصاویر استفاده می‌کند.

Gboard: با بهره‌گیری از Gemini Nano، Gboard پیشنهادات هوشمند و مرتبط به متن را به‌صورت محلی و سریع ارائه می‌دهد و تجربه ارتباط را در پلتفرم‌های مختلف بهبود می‌بخشد.

Google Gemini در برابر Apple Intelligence: چه کسی در هوش مصنوعی روی دستگاه پیشرو است؟

رقابت در حوزه هوش مصنوعی روی دستگاه در حال شدت گرفتن است. هر دو سیستم iOS و Android عملیات روی دستگاه را به‌صورت لوکال انجام می‌دهند و تنها در مواقع ضروری به سرورهای ابری متصل می‌شوند. در حالی که مدل Gemini گوگل تمامی پردازش‌ها را به‌صورت داخلی انجام می‌دهد، Apple Intelligence این کار را به ChatGPT می‌سپارد. این یک رقابت جالب بین این دو غول فناوری است، که البته می‌توان گفت که گوگل در این زمینه پیشتاز است و از نظر امنیت گزینه امن‌تری است زیرا اطلاعات به یک شرکت ثانویه نمی‌دهد.

برچسب‌ها: