گوگل با Gemini 1.5 Pro، مرزهای هوش مصنوعی را جابهجا میکند
گوگل با معرفی مدل هوش مصنوعی Gemini 1.5 Pro، انقلابی در دنیای پردازش صدا ایجاد کرده است. این مدل قدرتمند، قادر به پردازش و تجزیه و تحلیل صوت، رونوشت با کیفیت بالا، و جستجو و تحلیل محتوای صوتی و تصویری است.
در دنیای پیشرفتهی فناوری، توسعهی مدلهای هوش مصنوعی جایگاه ویژهای دارد. مدلهای هوش مصنوعی تولیدکننده متن «جِمینی» (Gemini) شرکت گوگل به سه دسته نانو، پرو و اولترا تقسیم میشوند.
این شرکت در ماه فوریه از Gemini 1.5 رونمایی کرد و اکنون تأیید شده است که نسخه Gemini 1.5 Pro برای پیشنمایش عمومی در دسترس قرار گرفته و ویژگی قابل توجهی به دست آورده است.
گوگل تأیید کرد که Gemini 1.5 Pro اکنون از پردازش صوت پشتیبانی میکند. این غول جستجو میگوید این پشتیبانی شامل صدای موجود در فایلهای ویدیویی و گفتار میشود.
به طور دقیقتر، گوگل توضیح داده است: «این قابلیت به کاربران امکان تجزیه و تحلیل چندرسانهای (cross-modal) یکپارچه را میدهد و بینشهایی را در سراسر متن، تصاویر، ویدیوها و صدا ارائه میکند. همچنین رونوشت (transcription) با کیفیت بالا را ارائه میدهد و میتواند برای جستجو و تجزیه و تحلیل محتوای صوتی و تصویری، مانند استفاده از آن برای جستجو، تحلیل و پاسخ به سؤالات در تماسهای درآمدزایی یا جلسات سرمایهگذاری، مورد استفاده قرار گیرد.»
گوگل، بهعنوان یکی از رهبران جهانی در زمینهی تکنولوژی و هوش مصنوعی، بهروزرسانیهای مهمی را در مدلهای خود ارائه کرده است.
این شرکت اظهار کرده است که مدل هوش مصنوعی Gemini 1.5 Pro باعث شکست مدل Gemini 1.0 Pro در ۸۷ درصد از معیارهای سنجش شده و تقریباً بهاندازهی مدل قدرتمندتر Gemini 1.0 Ultra عمل میکند. این بهمعنای ارتقاء چشمگیری در تواناییهای پردازشی و هوش مصنوعی گوگل است.
مدل Gemini 1.5 Pro اصطلاحاً برای کاربران محیط کاری (Workspace) طراحی شده است، اما در نهایت امکان استفاده از آن از طریق دستیار صوتی و سایر راههای دسترسی به کاربران عادی نیز ارائه خواهد شد.
این ارتقاء بازدهی در پردازش صدا و ایجاد امکانات جدید برای کاربران عادی، منجر به ارتقاء تجربه کاربری در زمینهی هوش مصنوعی میشود.
هماکنون، گوگل در گوشیهای پیکسل، ابزارهای پیشرفتهای را در زمینهی صدا ارائه میدهد که با استفاده از فناوریهای هوش مصنوعی پشتیبانی میشوند.
این ابزارها از جمله رونوشت صوت در برنامههای ضبط صدا و ابزار پاککننده جادویی صدا (Audio Magic Eraser) میشوند. این موارد نشان میدهد که گوگل به طور مداوم در جهت بهبود تجربهی کاربری در زمینهی هوش مصنوعی تلاش میکند.
ما منتظریم تا ببینیم آیا قابلیتهای پردازشی صدای Gemini 1.5 Pro به مدلهای آینده از هوش مصنوعی در دستگاههای On-device AI منتقل خواهد شد یا خیر. این گام میتواند به ارائه ویژگیهای صوتی پیشرفتهتر در آینده برای گوشیهای هوشمند منجر شود.
برچسبها: