در دوره تاریکی دستیارهای هوشمند، سیری روشنایی نور میشود؟
دستیارهای صوتی محبوب روزگاری درخشیدند، اما حالا در عصر رکود به سر می برند. دیگر آن تازگی و نوآوری اولیه را ندارند و در مقابل رقبای قدرتمند که از هوش مصنوعی مولد (Generative AI) بهره میبرند، رنگ باختهاند.
فردا کنفرانس WWDC 2024 برگزار میشود و سرنوشت زیادی به سخنرانی اصلی آن گره خورده است. اهمیت این رویداد فراتر از نوسانات کوتاهمدت بازار است. فشار بر روی تیم کوک، مدیرعامل اپل، و همکارانش برای ارائه عملکردی درخشان، به معنای واقعی کلمه، حتی از زمان معرفی Vision Pro در سال گذشته هم بیشتر است. در آن زمان نیز انتظارات بالا بود، اما حالا بحث بر سر احیای دستیار صوتی سیری و بازگرداندن جایگاه آن است.
روز دوشنبه، اپل نقاب از برنامههای هوش مصنوعی خود برخواهد داشت. در چند سال گذشته، با روی آوردن رقبایی مانند گوگل (با دستیار صوتی Google Assistant) و مایکروسافت (با دستیار صوتی Cortana) به هوش مصنوعی مولد، عملکرد اپل در این حوزه زیر سوال بوده است. اجماعی گسترده در صنعت وجود دارد که سیستمهای مبتنی بر مدلهای زبان بزرگ مانند چتگپت و جِمینی، انقلابی در نحوه تعامل ما با دستگاهها ایجاد خواهند کرد. انتظار میرود اپل از این فناوری برای ارتقای چشمگیر قابلیتهای دستیار صوتی سیری خود استفاده کند.
اپل انتظار میرود که از همکاری با OpenAI برای آوردن هوش مصنوعی پیشرفته این شرکت به آیفون و مک رونمایی کند. استراتژی کوتاه مدت اپل، یکپارچه سازی عمیق بین قابلیتهای موجود و هوش مصنوعی مولد (Generative AI) است که سیری در مرکز آن قرار دارد. از زمان معرفی سیری در سال ۲۰۱۱، اپل تلاش کرده تا این دستیار صوتی را به جزء جدایی ناپذیر تمام سیستم عاملهای خود تبدیل کند.
با این حال، در ۱۳ سال گذشته، سیری نتوانسته به انقلابی که اپل وعده داده بود، دست یابد. دلایل زیادی برای این امر وجود دارد، اگرچه دلیل اصلی، توانایی است. مفهوم یک دستیار صوتی مصنوعی، دهها سال پیش از سیری وجود داشت، اما هیچ کس به دلایلی نتوانسته بود آن را به طور کامل پیادهسازی کند. با تبدیل شدن تلفنهای هوشمند به دستگاههای چندمنظوره توسط سازندگان تلفن و توسعهدهندگان برنامه، وظایف این دستیارها به طور فزایندهای پیچیده شده است.
با وجود تمام دستاوردهای قابل توجه موسسه تحقیقاتی استنفورد (Stanford Research Institute)، فناوری مورد نیاز برای یک تجربه روان و بدون مشکل هنوز آماده نبود. نورمن وینارسکی، یکی از بنیانگذاران سیری، در سال ۲۰۱۸ به این مشکل اساسی اشاره کرد و گفت که برنامه اولیه اپل ساخت یک دستیار بسیار محدودتر بود که کارهایی مانند سرگرمی و سفر را مدیریت میکرد. وینارسکی در آن زمان خاطرنشان کرد: «اینها مشکلات سختی هستند و وقتی با شرکتی با یک میلیارد کاربر سروکار دارید، مشکلات حتی سختتر میشوند. احتمالاً آنها به دنبال سطحی از کمال هستند که نمیتوانند به آن دست یابند.»
هوش مصنوعی مولد نیز هنوز به آن سطح از کمال نرسیده است – حداقل فعلاً. توهمزایی (حصول نتایج غیرواقعی) همچنان یک مشکل است. به همین دلیل است که حتی پس از هیاهوی عظیم چند سال گذشته، همچنان احساس میکنیم که در مرحله ابتدایی کار قرار داریم. در واقع، به نظر ما گوگل در برخی موارد بیش از حد تهاجمی عمل کرده است. بهترین نمونه از این موضوع، تصمیم این شرکت برای نمایش نتایج Gemini در بالای نتایج جستجو است.
وقتی چیزی در موتور جستجوی غالب دنیا بالاتر از منابع معتبر اولویتبندی میشود، باید تا حد امکان کارها را درست انجام دهد، نه اینکه به مردم بگوید چسب بخورند. گوگل نتایج ج Gemini را محصول "آزمایشگاههای جستجو" خود برچسبگذاری میکند، اما مطمئناً اکثر کاربران متوجه نمیشوند که این برچسب از نظر بلوغ محصول به چه معناست، و تمایلی به کلیک کردن برای اطلاعات بیشتر ندارند.
در چند سال گذشته، من با چندین محقق ملاقات کردهام که از اصطلاح «جادو» برای توصیف نتایج «جعبه سیاه» پیرامون مدلهای زبان بزرگ استفاده کردهاند. این حرف به معنای نادیده گرفتن کارهای شگفتانگیزی که در این زمینه انجام میشود نیست، بلکه بیشتر به این معناست که ما هنوز چیزهای زیادی در مورد این فناوری نمیدانیم.
آرتور سی. کلارک به بهترین شکل آن را بیان کرد: «هر فناوری به اندازه کافی پیشرفته از جادو غیرقابل تشخیص است.»
با این حال، گوگل در ادغام ج Gemini با اندروید هدفمندتر عمل کرده است. به جای اینکه دستیار گوگل را به طور کامل جایگزین کند، ج Gemini را به عنوان یک پلتفرم هوش مصنوعی مولد در برنامههای مختلف ادغام کرده است. کاربران همچنین میتوانند با اختصاص دادن دکمه دستیار در دستگاههای Pixel به ج Gemini، آن را به عنوان دستیار پیش فرض خود انتخاب کنند. این پیادهسازی حداقل تا کنون نیازمند اقدام آگاهانه از سوی کاربر است.
وقتی چیزی در موتور جستجوی غالب دنیا بالاتر از منابع معتبر اولویتبندی میشود، باید تا حد امکان کارها را درست انجام دهد، نه اینکه به مردم بگوید چسب بخورند. گوگل نتایج ج Gemini را محصول "آزمایشگاههای جستجو" خود برچسبگذاری میکند، اما مطمئناً اکثر کاربران متوجه نمیشوند که این برچسب از نظر بلوغ محصول به چه معناست، و تمایلی به کلیک کردن برای اطلاعات بیشتر ندارند.
در چند سال گذشته، با چندین محقق برخورد کردهایم که از اصطلاح «جادو» برای توصیف نتایج «جعبه سیاه» پیرامون مدلهای زبان بزرگ استفاده کردهاند. این حرف به معنای نادیده گرفتن کارهای شگفتانگیزی که در این زمینه انجام میشود نیست، بلکه بیشتر به این معناست که ما هنوز چیزهای زیادی در مورد این فناوری نمیدانیم. آرتور سی. کلارک به بهترین شکل آن را بیان کرد: «هر فناوری به اندازه کافی پیشرفته از جادو غیرقابل تشخیص است.»
با این حال، گوگل در ادغام Gemini با اندروید هدفمندتر عمل کرده است. به جای اینکه دستیار گوگل را به طور کامل جایگزین کند، Gemini را به عنوان یک پلتفرم هوش مصنوعی مولد در برنامههای مختلف ادغام کرده است. کاربران همچنین میتوانند با اختصاص دادن دکمه دستیار در دستگاههای Pixel به ج Gemini، آن را به عنوان دستیار پیش فرض خود انتخاب کنند. این پیادهسازی حداقل تا کنون نیازمند اقدام آگاهانه از سوی کاربر است.
با اینکه Gemini هنوز به طور کامل اندروید را تسخیر نکرده است، اما به طور واضح گوگل در حال برنامه ریزی برای روزی در آیندهای نه چندان دور است که Gemini به طور کامل جایگزین دستیار گوگل شود. من تا حدی انتظار داشتم در کنفرانس Google I/O ماه گذشته چنین اعلامیهای صورت بگیرد، با این حال خوشحالم که در نهایت تصمیم گرفتند به Gemini زمان بیشتری برای پخته شدن بدهند.
اینکه آیا نام Assistant باقی میماند، در نهایت یک تصمیم تجاری در حوزه برندسازی است. اپل از طرف دیگر به شدت به نام Siri وابسته است. آنها در نهایت بیش از یک دهه است که این محصول را به مصرفکنندگان معرفی کردهاند. با این حال، به زودی هوش مصنوعی مولد، فضای دستیارهای هوشمند را در خواهد بلعید.
دستیارهای صوتی به طور کلی با یک بحران وجودی مواجه هستند. اسپیکرهای هوشمند به عنوان پیشگامانی برای پلتفرمهایی مانند سیری، الکسا و دستیار گوگل عمل میکنند. فروش این دستگاهها پس از رونق گرفتن در دوران همهگیری، کاهش یافته است. نمیتوان گفت این دسته از محصولات محکوم به فنا هستند، اما بدون پیشرفتهای اساسی، در درازمدت به همین سرنوشت دچار خواهند شد.
هوش مصنوعی مولد قرار است جانشین منطقی دستیارهای صوتی باشد، اما نسل اول دستگاههای سختافزاری ساخته شده بر پایه این مدلها، از جمله Humane Ai Pin و Rabbit R1، تنها گواه بر این هستند که این دسته از محصولات تا تبدیل شدن به یک تجربه کاربری ثابت و قابلاعتماد برای کاربران عادی، هنوز راه زیادی در پیش دارند.
اپل در نهایت روز دوشنبه (در کنفرانس WWDC) استراتژی خود را آشکار خواهد کرد. در حالی که شایعات حاکی از انتقال تعدادی از کارمندان به بخش هوش مصنوعی مولد پس از شکست پروژه خودرو برقی اپل است، همه نشانهها حاکی از آن است که این شرکت نسبت به رقبا عقب افتاده است. بنابراین، منطقیترین حرکت برای اپل، همکاری با یک قدرت پیشرو مانند OpenAI است.
مدتی کوتاه پس از اعلام خرید سیری، از استیو جابز پرسیده شد که آیا اپل سعی دارد گوگل را در بازی خودش شکست دهد. جابز پاسخ داد: «این یک شرکت هوش مصنوعی است. ما وارد تجارت جستجو نمیشویم. برای ما اهمیتی ندارد. شرکتهای دیگر این کار را به خوبی انجام میدهند.»
رویکرد اپل به هوش مصنوعی مولد در حال حاضر در همان مرحله است. در این مرحله، اپل نمیتواند OpenAI را در بازی خودش شکست دهد، بنابراین به جای آن با آنها همکاری میکند. اما حتی بهترین مدلهای فعلی نیز پیش از اینکه برای جایگزینی کامل دستیارهای هوشمند کنونی آماده شوند، راه درازی در پیش دارند.
برچسبها: