گوگل با Gemini 1.5 Pro، مرزهای هوش مصنوعی را جابه‌جا می‌کند

گوگل با معرفی مدل هوش مصنوعی Gemini 1.5 Pro، انقلابی در دنیای پردازش صدا ایجاد کرده است. این مدل قدرتمند، قادر به پردازش و تجزیه و تحلیل صوت، رونوشت با کیفیت بالا، و جستجو و تحلیل محتوای صوتی و تصویری است.

۲۵ فروردین ۱۴۰۳

تبلیغات

در دنیای پیشرفته‌ی فناوری، توسعه‌ی مدل‌های هوش مصنوعی جایگاه ویژه‌ای دارد. مدل‌های هوش مصنوعی تولیدکننده متن «جِمینی» (Gemini) شرکت گوگل به سه دسته نانو، پرو و اولترا تقسیم می‌شوند.

این شرکت در ماه فوریه از Gemini 1.5 رونمایی کرد و اکنون تأیید شده است که نسخه Gemini 1.5 Pro برای پیش‌نمایش عمومی در دسترس قرار گرفته و ویژگی قابل توجهی به دست آورده است.

گوگل تأیید کرد که Gemini 1.5 Pro اکنون از پردازش صوت پشتیبانی می‌کند. این غول جستجو می‌گوید این پشتیبانی شامل صدای موجود در فایل‌های ویدیویی و گفتار می‌شود.

به طور دقیق‌تر، گوگل توضیح داده است: «این قابلیت به کاربران امکان تجزیه و تحلیل چندرسانه‌ای (cross-modal) یکپارچه را می‌دهد و بینش‌هایی را در سراسر متن، تصاویر، ویدیوها و صدا ارائه می‌کند. همچنین رونوشت (transcription) با کیفیت بالا را ارائه می‌دهد و می‌تواند برای جستجو و تجزیه و تحلیل محتوای صوتی و تصویری، مانند استفاده از آن برای جستجو، تحلیل و پاسخ به سؤالات در تماس‌های درآمدزایی یا جلسات سرمایه‌گذاری، مورد استفاده قرار گیرد.»

گوگل، به‌عنوان یکی از رهبران جهانی در زمینه‌ی تکنولوژی و هوش مصنوعی، به‌روزرسانی‌های مهمی را در مدل‌های خود ارائه کرده است.

این شرکت اظهار کرده است که مدل هوش مصنوعی Gemini 1.5 Pro باعث شکست مدل Gemini 1.0 Pro در ۸۷ درصد از معیارهای سنجش شده و تقریباً به‌اندازه‌ی مدل قدرتمندتر Gemini 1.0 Ultra عمل می‌کند. این به‌معنای ارتقاء چشم‌گیری در توانایی‌های پردازشی و هوش مصنوعی گوگل است.

مدل Gemini 1.5 Pro اصطلاحاً برای کاربران محیط کاری (Workspace) طراحی شده است، اما در نهایت امکان استفاده از آن از طریق دستیار صوتی و سایر راه‌های دسترسی به کاربران عادی نیز ارائه خواهد شد.

این ارتقاء بازدهی در پردازش صدا و ایجاد امکانات جدید برای کاربران عادی، منجر به ارتقاء تجربه کاربری در زمینه‌ی هوش مصنوعی می‌شود.

هم‌اکنون، گوگل در گوشی‌های پیکسل، ابزارهای پیشرفته‌ای را در زمینه‌ی صدا ارائه می‌دهد که با استفاده از فناوری‌های هوش مصنوعی پشتیبانی می‌شوند.

این ابزارها از جمله رونوشت صوت در برنامه‌های ضبط صدا و ابزار پاک‌کننده جادویی صدا (Audio Magic Eraser) می‌شوند. این موارد نشان می‌دهد که گوگل به طور مداوم در جهت بهبود تجربه‌ی کاربری در زمینه‌ی هوش مصنوعی تلاش می‌کند.

ما منتظریم تا ببینیم آیا قابلیت‌های پردازشی صدای Gemini 1.5 Pro به مدل‌های آینده از هوش مصنوعی در دستگاه‌های On-device AI منتقل خواهد شد یا خیر. این گام می‌تواند به ارائه ویژگی‌های صوتی پیشرفته‌تر در آینده برای گوشی‌های هوشمند منجر شود.

برچسب‌ها:

گوگل

تبلیغات

پربازدیدترین مطالب

گلکسی S26 اولترا ظاهراً از دوربین جدیدی بهره خواهد برد

۲۰ فروردین ۱۴۰۴

با تعرفه‌‌های ترامپ، آیا اکنون زمان تعویض دستگاه قبل از گرانی بی‌سابقه است؟

۲۰ فروردین ۱۴۰۴

کارهایی که قبل از دریافت به‌روزرسانی One UI 7 باید روی گوشی خود انجام دهید

۲۰ فروردین ۱۴۰۴

موتو جی استایلوس 2025 با بهبودهای فراوان معرفی شد

۲۰ فروردین ۱۴۰۴

جدیدترین‌ اخبار

گلکسی S26 اولترا ظاهراً از دوربین جدیدی بهره خواهد برد

گزارش شده دوربین جدید پرچمدار سامسونگ جایگزین سنسور تله‌فوتو ۱۰ مگاپیکسلی مدل‌های قبلی (با زوم ۳ برابری) خواهد شد.

بیشتر بخوانید

با تعرفه‌‌های ترامپ، آیا اکنون زمان تعویض دستگاه قبل از گرانی بی‌سابقه است؟

همانطور می‌دانید ترامپ هفته گذشته تعرفه‌های عجیب و غریبی را بر کالاهای وارداتی از خیلی کشورها، از جمله کشورهای موثر در تولیدات دستگاه‌هایی مانند مک و آیفون اعمال کرد. اگر وضعیت به همین روال ادامه یابد تقریبا باید منتظر دو برابر شدن قیمت دلاری این محصولات باشیم.

بیشتر بخوانید