GSM-logo
خانهاخبار
در دوره تاریکی دستیارهای هوشمند، سیری روشنایی نور می‌شود؟

در دوره تاریکی دستیارهای هوشمند، سیری روشنایی نور می‌شود؟

دستیارهای صوتی محبوب روزگاری درخشیدند، اما حالا در عصر رکود به سر می برند. دیگر آن تازگی و نوآوری اولیه را ندارند و در مقابل رقبای قدرتمند که از هوش مصنوعی مولد (Generative AI) بهره می‌برند، رنگ باخته‌اند.

۲۰ خرداد ۱۴۰۳

تبلیغات

home_header

فردا کنفرانس WWDC 2024 برگزار می‌شود و سرنوشت زیادی به سخنرانی اصلی آن گره خورده است. اهمیت این رویداد فراتر از نوسانات کوتاه‌مدت بازار است. فشار بر روی تیم کوک، مدیرعامل اپل، و همکارانش برای ارائه عملکردی درخشان، به معنای واقعی کلمه، حتی از زمان معرفی Vision Pro در سال گذشته هم بیشتر است. در آن زمان نیز انتظارات بالا بود، اما حالا بحث بر سر احیای دستیار صوتی سیری و بازگرداندن جایگاه آن است.

روز دوشنبه، اپل نقاب از برنامه‌های هوش مصنوعی خود برخواهد داشت. در چند سال گذشته، با روی آوردن رقبایی مانند گوگل (با دستیار صوتی Google Assistant) و مایکروسافت (با دستیار صوتی Cortana) به هوش مصنوعی مولد، عملکرد اپل در این حوزه زیر سوال بوده است. اجماعی گسترده در صنعت وجود دارد که سیستم‌های مبتنی بر مدل‌های زبان بزرگ مانند چت‌گپت و جِمینی، انقلابی در نحوه تعامل ما با دستگاه‌ها ایجاد خواهند کرد. انتظار می‌رود اپل از این فناوری برای ارتقای چشمگیر قابلیت‌های دستیار صوتی سیری خود استفاده کند.

اپل انتظار می‌رود که از همکاری با OpenAI برای آوردن هوش مصنوعی پیشرفته این شرکت به آیفون و مک رونمایی کند. استراتژی کوتاه مدت اپل، یکپارچه سازی عمیق بین قابلیت‌های موجود و هوش مصنوعی مولد (Generative AI) است که سیری در مرکز آن قرار دارد. از زمان معرفی سیری در سال ۲۰۱۱، اپل تلاش کرده تا این دستیار صوتی را به جزء جدایی ناپذیر تمام سیستم عامل‌های خود تبدیل کند.

با این حال، در ۱۳ سال گذشته، سیری نتوانسته به انقلابی که اپل وعده داده بود، دست یابد. دلایل زیادی برای این امر وجود دارد، اگرچه دلیل اصلی، توانایی است. مفهوم یک دستیار صوتی مصنوعی، ده‌ها سال پیش از سیری وجود داشت، اما هیچ کس به دلایلی نتوانسته بود آن را به طور کامل پیاده‌سازی کند. با تبدیل شدن تلفن‌های هوشمند به دستگاه‌های چندمنظوره توسط سازندگان تلفن و توسعه‌دهندگان برنامه، وظایف این دستیارها به طور فزاینده‌ای پیچیده شده است.

کنفرانس اپل

با وجود تمام دستاوردهای قابل توجه موسسه تحقیقاتی استنفورد (Stanford Research Institute)، فناوری مورد نیاز برای یک تجربه روان و بدون مشکل هنوز آماده نبود. نورمن وینارسکی، یکی از بنیانگذاران سیری، در سال ۲۰۱۸ به این مشکل اساسی اشاره کرد و گفت که برنامه اولیه اپل ساخت یک دستیار بسیار محدودتر بود که کارهایی مانند سرگرمی و سفر را مدیریت می‌کرد. وینارسکی در آن زمان خاطرنشان کرد: «این‌ها مشکلات سختی هستند و وقتی با شرکتی با یک میلیارد کاربر سروکار دارید، مشکلات حتی سخت‌تر می‌شوند. احتمالاً آنها به دنبال سطحی از کمال هستند که نمی‌توانند به آن دست یابند.»

هوش مصنوعی مولد نیز هنوز به آن سطح از کمال نرسیده است – حداقل فعلاً. توهم‌زایی (حصول نتایج غیرواقعی) همچنان یک مشکل است. به همین دلیل است که حتی پس از هیاهوی عظیم چند سال گذشته، همچنان احساس می‌کنیم که در مرحله ابتدایی کار قرار داریم. در واقع، به نظر ما گوگل در برخی موارد بیش از حد تهاجمی عمل کرده است. بهترین نمونه از این موضوع، تصمیم این شرکت برای نمایش نتایج Gemini در بالای نتایج جستجو است.

وقتی چیزی در موتور جستجوی غالب دنیا بالاتر از منابع معتبر اولویت‌بندی می‌شود، باید تا حد امکان کارها را درست انجام دهد، نه اینکه به مردم بگوید چسب بخورند. گوگل نتایج ج Gemini را محصول "آزمایشگاه‌های جستجو" خود برچسب‌گذاری می‌کند، اما مطمئناً اکثر کاربران متوجه نمی‌شوند که این برچسب از نظر بلوغ محصول به چه معناست، و تمایلی به کلیک کردن برای اطلاعات بیشتر ندارند.

در چند سال گذشته، من با چندین محقق ملاقات کرده‌ام که از اصطلاح «جادو» برای توصیف نتایج «جعبه سیاه» پیرامون مدل‌های زبان بزرگ استفاده کرده‌اند. این حرف به معنای نادیده گرفتن کارهای شگفت‌انگیزی که در این زمینه انجام می‌شود نیست، بلکه بیشتر به این معناست که ما هنوز چیزهای زیادی در مورد این فناوری نمی‌دانیم.

آرتور سی. کلارک به بهترین شکل آن را بیان کرد: «هر فناوری به اندازه کافی پیشرفته از جادو غیرقابل تشخیص است.»

با این حال، گوگل در ادغام ج Gemini با اندروید هدفمندتر عمل کرده است. به جای اینکه دستیار گوگل را به طور کامل جایگزین کند، ج Gemini را به عنوان یک پلتفرم هوش مصنوعی مولد در برنامه‌های مختلف ادغام کرده است. کاربران همچنین می‌توانند با اختصاص دادن دکمه دستیار در دستگاه‌های Pixel به ج Gemini، آن را به عنوان دستیار پیش فرض خود انتخاب کنند. این پیاده‌سازی حداقل تا کنون نیازمند اقدام آگاهانه از سوی کاربر است.

وقتی چیزی در موتور جستجوی غالب دنیا بالاتر از منابع معتبر اولویت‌بندی می‌شود، باید تا حد امکان کارها را درست انجام دهد، نه اینکه به مردم بگوید چسب بخورند. گوگل نتایج ج Gemini را محصول "آزمایشگاه‌های جستجو" خود برچسب‌گذاری می‌کند، اما مطمئناً اکثر کاربران متوجه نمی‌شوند که این برچسب از نظر بلوغ محصول به چه معناست، و تمایلی به کلیک کردن برای اطلاعات بیشتر ندارند.

در چند سال گذشته،  با چندین محقق برخورد کرده‌ایم که از اصطلاح «جادو» برای توصیف نتایج «جعبه سیاه» پیرامون مدل‌های زبان بزرگ استفاده کرده‌اند. این حرف به معنای نادیده گرفتن کارهای شگفت‌انگیزی که در این زمینه انجام می‌شود نیست، بلکه بیشتر به این معناست که ما هنوز چیزهای زیادی در مورد این فناوری نمی‌دانیم. آرتور سی. کلارک به بهترین شکل آن را بیان کرد: «هر فناوری به اندازه کافی پیشرفته از جادو غیرقابل تشخیص است.»

با این حال، گوگل در ادغام  Gemini با اندروید هدفمندتر عمل کرده است. به جای اینکه دستیار گوگل را به طور کامل جایگزین کند، Gemini را به عنوان یک پلتفرم هوش مصنوعی مولد در برنامه‌های مختلف ادغام کرده است. کاربران همچنین می‌توانند با اختصاص دادن دکمه دستیار در دستگاه‌های Pixel به ج Gemini، آن را به عنوان دستیار پیش فرض خود انتخاب کنند. این پیاده‌سازی حداقل تا کنون نیازمند اقدام آگاهانه از سوی کاربر است.

با اینکه  Gemini هنوز به طور کامل اندروید را تسخیر نکرده است، اما به طور واضح گوگل در حال برنامه ریزی برای روزی در آینده‌ای نه چندان دور است که  Gemini به طور کامل جایگزین دستیار گوگل شود. من تا حدی انتظار داشتم در کنفرانس Google I/O ماه گذشته چنین اعلامیه‌ای صورت بگیرد، با این حال خوشحالم که در نهایت تصمیم گرفتند به  Gemini زمان بیشتری برای پخته شدن بدهند.

اینکه آیا نام Assistant باقی می‌ماند، در نهایت یک تصمیم تجاری در حوزه برندسازی است. اپل از طرف دیگر به شدت به نام Siri وابسته است. آن‌ها در نهایت بیش از یک دهه است که این محصول را به مصرف‌کنندگان معرفی کرده‌اند. با این حال، به زودی هوش مصنوعی مولد، فضای دستیارهای هوشمند را در خواهد بلعید.

دستیارهای صوتی به طور کلی با یک بحران وجودی مواجه هستند. اسپیکرهای هوشمند به عنوان پیشگامانی برای پلتفرم‌هایی مانند سیری، الکسا و دستیار گوگل عمل می‌کنند. فروش این دستگاه‌ها پس از رونق گرفتن در دوران همه‌گیری، کاهش یافته است. نمی‌توان گفت این دسته از محصولات محکوم به فنا هستند، اما بدون پیشرفت‌های اساسی، در درازمدت به همین سرنوشت دچار خواهند شد.

هوش مصنوعی مولد قرار است جانشین منطقی دستیارهای صوتی باشد، اما نسل اول دستگاه‌های سخت‌افزاری ساخته شده بر پایه این مدل‌ها، از جمله Humane Ai Pin و Rabbit R1، تنها گواه بر این هستند که این دسته از محصولات تا تبدیل شدن به یک تجربه کاربری ثابت و قابل‌اعتماد برای کاربران عادی، هنوز راه زیادی در پیش دارند.

اپل در نهایت روز دوشنبه (در کنفرانس WWDC) استراتژی خود را آشکار خواهد کرد. در حالی که شایعات حاکی از انتقال تعدادی از کارمندان به بخش هوش مصنوعی مولد پس از شکست پروژه خودرو برقی اپل است، همه نشانه‌ها حاکی از آن است که این شرکت نسبت به رقبا عقب افتاده است. بنابراین، منطقی‌ترین حرکت برای اپل، همکاری با یک قدرت پیشرو مانند OpenAI است.

مدتی کوتاه پس از اعلام خرید سیری، از استیو جابز پرسیده شد که آیا اپل سعی دارد گوگل را در بازی خودش شکست دهد. جابز پاسخ داد: «این یک شرکت هوش مصنوعی است. ما وارد تجارت جستجو نمی‌شویم. برای ما اهمیتی ندارد. شرکت‌های دیگر این کار را به خوبی انجام می‌دهند.»

رویکرد اپل به هوش مصنوعی مولد در حال حاضر در همان مرحله است. در این مرحله، اپل نمی‌تواند OpenAI را در بازی خودش شکست دهد، بنابراین به جای آن با آنها همکاری می‌کند. اما حتی بهترین مدل‌های فعلی نیز پیش از اینکه برای جایگزینی کامل دستیارهای هوشمند کنونی آماده شوند، راه درازی در پیش دارند.

برچسب‌ها: