همه چیز درباره جمنای نانو
از جدیدترین مدل هوش مصنوعی گوگل چه میدانید؟
ما از دستیارهای دیجیتالی مانند Google Assistant و Siri برای مدیریت وظایف، پاسخ به سوالات و سازماندهی امور استفاده میکنیم. اگرچه این دستیارها کارآمد هستند، اما با هوش مصنوعی پیشرفتهای که در فیلمهای علمی-تخیلی میبینیم، مانند سیستمهای هوشمند و شهودی که تقریباً شبیه به انسان عمل میکنند، فاصله زیادی دارند. با این حال، فصل جدیدی در کتاب هوش مصنوعی در حال ورق خوردن است. Gemini Nano گوگل در حال فراهم کردن بستری برای تعاملات هوشمندتر و سریعتر با دستگاه شماست، چه آخرین مدل گوگل پیکسل باشد و چه یک گوشی هوشمند اندرویدی دیگر. بیایید نگاهی دقیقتر به Gemini Nano بیندازیم.
Gemini Nano چیست؟
Gemini Nano یک مدل هوش مصنوعی کوچک اما قدرتمند است که برای استفاده روی دستگاههای کممصرف طراحی شده است. طبق معیارهای عملکرد، این مدل زبانی بزرگ در وظایفی مانند خلاصهسازی متن و درک مطلب به خوبی عمل میکند و همچنین در عملیات پیچیدهتر مانند استدلال، مسائل STEM، و کدنویسی نیز موفق است.
این مدل در دو نسخه ارائه میشود: Nano-1 با 1.8 میلیارد پارامتر که برای دستگاههای کمحافظه مناسب است و Nano-2 با 3.25 میلیارد پارامتر که برای محیطهای با حافظه بیشتر طراحی شده است. Gemini Nano بر روی دستگاههای اندرویدی که از سرویس سیستم Android AICore استفاده میکنند، کار میکند. این مدل در سریهای Google Pixel 9، Pixel 8 Pro، Pixel 8، Pixel 8a، سری Samsung Galaxy S24، Galaxy Z Fold 6 و Z Flip 6 در دسترس است و پشتیبانی از دستگاههای بیشتر و مرورگر گوگل کروم نیز به زودی عرضه میشود.
Gemini Nano: مدلی چندوجهی و چندزبانه
مدلهای Gemini با استفاده از یک مجموعهداده چندوجهی و چندزبانه ساخته شدهاند که شامل دادههایی از وبسایتها، کتابها، کدها، تصاویر، صدا و ویدیو است. هوش مصنوعیهای چندوجهی مانند جمنای نانو میتوانند به طور همزمان انواع مختلف دادهها از جمله متن، تصویر، صدا و ویدیو را پردازش و درک کنند.
این توانایی به آن امکان میدهد که وظایفی را انجام دهد که نیاز به درک یکپارچه و جامع از رسانههای مختلف دارند، و در نتیجه خروجیهای دقیقتر و غنیتری تولید کند. به لطف قابلیتهای چندزبانه خود، Gemini Nano میتواند محتوا را به زبانهای مختلف درک، پردازش و تولید کند، که این امر آن را به یکی از کاربردیترین هوش مصنوعی های موجود تبدیل میکند.
این ویژگی امکان برقراری ارتباط بینزبانی آسان را فراهم میکند و امکان ترجمه و تولید محتوا به صورت همزمان به زبانهای مختلف را برای پاسخگویی به نیازهای مخاطبان متنوع فراهم میکند. جمنای در بیش از 40 زبان در دسترس است و گوگل در حال آموزش دادن آن برای پاسخگویی به زبانهای بیشتر است.
Gemini Nano بهصورت لوکال بر روی دستگاه شما کار میکند
Gemini Nano با انجام پردازش دادهها به صورت لوکال بر روی دستگاه شما، بدون ارسال داده به سرورهای ابری، عمل میکند. این موضوع تضمین میکند که اطلاعات حساس شما در گوشی باقی میماند واز حریم خصوصی شما محافظت کرده و از انتقال یا ذخیرهسازی دادهها بهصورت خارجی جلوگیری میکند.
این موضوع بهویژه هنگام استفاده از برنامههای پیامرسانی رمزگذاریشده انتها به انتها اهمیت دارد، زیرا پیشنهادات و اصلاحات بدون ترک دستگاه شما انجام میشود. همچنین این بدین معناست که Gemini Nano برای عملکرد مؤثر به اتصال فعال به اینترنت نیاز ندارد و شما میتوانید بهصورت آفلاین نیز از آن استفاده کنید.
چگونگی یادگیری جمنای نانو از مدلهای بزرگتر Gemini
در هسته خود، مدلهای Gemini بر اساس چارچوب رمزگذار Transformer ساخته شدهاند که برای آموزش پایدار در مقیاس بزرگ و استنتاج کارآمد در واحدهای پردازش تانسور (TPU) گوگل بهینه شدهاند. با این حال، نسخههای Nano-1 و Nano-2 هر دو از مدلهای بزرگتر Gemini مشتق شدهاند، که به همین دلیل است که با وجود اندازه کوچک خود عملکرد فوقالعادهای دارند. در یادگیری ماشین، "مشتق شدن" به فرآیندی به نام "تقطیر دانش" اشاره دارد. این تکنیک شامل آموزش یک مدل کوچکتر (که اغلب به عنوان مدل دانشآموز شناخته میشود) برای تقلید از رفتار و عملکرد یک مدل بزرگتر و پیچیدهتر (که به عنوان مدل معلم شناخته میشود) است.
مدلهای بزرگتر Gemini (Gemini Pro و Gemini Ultra)، که بر روی مجموعهدادههای بزرگ آموزش دیدهاند و دارای دانش عمیق هستند، بهعنوان معلمان عمل میکنند. این مدلها اغلب برای استقرار در دستگاههای با منابع محدود، مانند گوشیهای هوشمند، بیش از حد بزرگ هستند. مدل دانشآموز، در اینجا Gemini Nano، نسخه کوچکتری از مدل معلم است. در طول فرآیند آموزش، مدل دانشآموز آموزش میبیند تا خروجیهای مدل معلم را با دقت بالا تکرار کند، اما با تعداد پارامترهای کمتر.
مدل دانشآموز از خروجیهای ارائه شده توسط مدل معلم نیز استفاده میکند که این موضوع به یادگیری بیشتر این مدل منجر میشود که در نوع خود بسیار جذاب است. این امر به مدل دانشآموز کمک میکند تا دانش و الگوهای معلم را بهخوبی درک کند تا در انجام وظایف عملکرد خوبی داشته باشد، حتی اگر اندازه کوچکتری داشته باشد. این فرآیند یادگیری موجب میشود که Gemini Nano بخش زیادی از دقت و قابلیتهای مدلهای بزرگتر Gemini را حفظ کند، اما در قالبی فشرده و مناسب برای استفاده بر روی دستگاهها استفاده شود.
AICore: مرکز فرماندهی هوش مصنوعی برای اندروید
AICore یک ماژول در سطح سیستم در سیستمعامل اندروید است که بهعنوان مرکز فرماندهی برای مدیریت وظایف هوش مصنوعی عمل میکند. هنگامی که یک برنامه اندرویدی نیاز به انجام عملیات مرتبط با هوش مصنوعی دارد، از طریق Google AI Edge SDK با AICore تعامل میکند. معماری AICore شامل چندین ویژگی ایمنی داخلی است تا اطمینان حاصل شود که وظایف هوش مصنوعی با استانداردهای ایمنی گوگل مطابقت دارند و با اصول Private Compute Core گوگل همخوانی دارند.
ادغام Gemini Nano در مرورگر کروم توسط گوگل
در رویداد Google I/O 2024، گوگل اعلام کرد که Gemini Nano به زودی در مرورگر کروم در دسترس خواهد بود. شما میتوانید Gemini Nano را از طریق Chrome Canary، نسخه آزمایشی این مرورگر، بررسی کنید. با ادغام Gemini Nano در برنامه دسکتاپ کروم، گوگل قابلیتهای هوش مصنوعی مرورگر را بهبود بخشیده است و کروم را در موقعیتی قرار داده است تا مانند مایکروسافت اج با Copilot از Gemini Nano بهرهمند شود.
برای توسعهدهندگان، ادغام هوش مصنوعی در کروم به این معناست که آنها میتوانند برنامههای وبی توسعه دهند که از قابلیتهای قدرتمند هوش مصنوعی استفاده میکنند بدون اینکه به راهحلهای مبتنی بر ابر وابسته باشند. آنها میتوانند از APIها برای وظایفی مانند ترجمه یا خلاصهسازی استفاده کنند که بهصورت محلی روی دستگاههای کاربران اجرا میشود و به دستگاههای کاربران اجازه میدهد تا بخشی از بار منابع را بهجای سرورهایشان تحمل کنند.
کاربردهای فعلی Gemini Nano در اندروید چیست؟
چندین ویژگی توسط Gemini Nano در آخرین گوشیهای Google Pixel پشتیبانی میشود و احتمالاً ویژگیهای جدیدی نیز در آینده معرفی خواهند شد. این ویژگیها شامل:
برنامه Recorder: برنامه Recorder از Gemini Nano برای خلاصهسازی مکالمات ضبط شده، مصاحبهها، ارائهها و سخنرانیها به نکات اصلی استفاده میکند. این کار بهصورت لوکال و بدون نیاز به اتصال اینترنت انجام میشود.
تصاویر صفحه در Pixel: با برنامه Pixel Screenshots، پردازش تصویر توسط Gemini Nano محتوای تصاویر صفحه شما را تحلیل میکند، متن را استخراج کرده و آن را قابل جستجو میکند. همچنین این برنامه از Gemini Nano برای تولید پاسخ به سوالات شما بر اساس محتوای تصاویر استفاده میکند.
Gboard: با بهرهگیری از Gemini Nano، Gboard پیشنهادات هوشمند و مرتبط به متن را بهصورت محلی و سریع ارائه میدهد و تجربه ارتباط را در پلتفرمهای مختلف بهبود میبخشد.
Google Gemini در برابر Apple Intelligence: چه کسی در هوش مصنوعی روی دستگاه پیشرو است؟
رقابت در حوزه هوش مصنوعی روی دستگاه در حال شدت گرفتن است. هر دو سیستم iOS و Android عملیات روی دستگاه را بهصورت لوکال انجام میدهند و تنها در مواقع ضروری به سرورهای ابری متصل میشوند. در حالی که مدل Gemini گوگل تمامی پردازشها را بهصورت داخلی انجام میدهد، Apple Intelligence این کار را به ChatGPT میسپارد. این یک رقابت جالب بین این دو غول فناوری است، که البته میتوان گفت که گوگل در این زمینه پیشتاز است و از نظر امنیت گزینه امنتری است زیرا اطلاعات به یک شرکت ثانویه نمیدهد.
برچسبها: