آیا اپل سرانجام سیری واقعی را عرضه میکند؟
دستیار صوتی اپل همیشه قرار بود فراتر از آن چیزی باشد که هست. حالا، ۱۳ سال بعد، به نظر میرسد که سیری بالاخره برای این نقش آماده شده است.
زمانی که اپل برای اولین بار سیری را در سال ۲۰۱۱ و در کنار آیفون ۴اس معرفی کرد، با یک سری تبلیغات جذاب نحوهی استفاده از این دستیار صوتی جدید را به نمایش گذاشت. در یکی از تبلیغات، زویی دشانل [بازیگر] از گوشی خود در مورد سفارش سوپ گوجه فرنگی سوال میپرسد، در تبلیغ دیگری، جان مالکوویچ [بازیگر] به دنبال نصیحتهایی در مورد زندگی است و در تبلیغی دیگر، مارتین اسکورسیزی [کارگردان] برنامهی خود را از صندلی عقب یک تاکسی در نیویورک تغییر میدهد. این تبلیغات قابلیتهایی مانند تنظیم یادآور، نمایش آبوهوا، تنظیم آلارم و موارد دیگر را به نمایش گذاشتند. هدف تبلیغات این بود که سیری را به عنوان یک همراه مفید و همیشگی معرفی کند، همراهی که میتوانست بدون نیاز به باز کردن اپلیکیشن یا لمس زیاد گوشی، هر کاری را برای شما انجام دهد. تنها کافی بود که سوال خود را بپرسید.
سیری برای اپل اهمیت ویژهای داشت. در مراسم معرفی آیفون ۴اس، فیل شیلر، مدیر بازاریابی اپل، سیری را به عنوان بهترین ویژگی این گوشی جدید معرفی کرد. او گفت: «برای دههها، متخصصان فناوری ما را با رویای صحبت کردن با تکنولوژی و انجام کارها توسط آن دستخوش سرگرمی قرار دادهاند، اما این رویا هرگز به واقعیت تبدیل نشد!» او ادامه داد: «تنها کاری که ما واقعاً میخواهیم انجام دهیم، این است که به هر روشی که میخواهیم با دستگاه خود صحبت کنیم و اطلاعات و کمک دریافت نماییم.» شیلر با اعتماد به نفس همیشگی اپل اعلام کرد که این شرکت، این مشکل را حل کرده است.
با این حال، اپل این مشکل را حل نکرده بود. در ۱۳ سالی که از راهاندازی اولیه میگذرد، سیری برای اکثر مردم به یکی از دو مورد تبدیل شده است: یا روشی برای تنظیم تایمر و یا یک ویژگی بیفایده که باید به هر قیمتی از آن اجتناب کرد. سیری برای مدت طولانی عملکرد ضعیفی داشته است، آنقدر طولانی که به نظر میرسد اپل سالهاست آن را فراموش کرده یا به سادگی وانمود کرده است که وجود ندارد.
اما شاید بالاخره هفتهی آینده در WWDC، اگر شایعات و گزارشها درست باشند، برای اولین بار با سیری واقعی (یا حداقل چیزی بسیار نزدیکتر به آن) ملاقات کنیم. طبق گزارشهای بلومبرگ، نیویورک تایمز و سایر منابع، اپل قرار است دستیار صوتی خود را به طور کلی بازنگری کند و سیری را با استفاده از مدلهای زبان بزرگ [مدلهای هوش مصنوعی که با حجم عظیمی از متن آموزش داده شدهاند] قابل اعتمادتر کند، البته بدون اینکه قابلیتهای جدید زیادی به آن اضافه شود. حتی همین هم یک پیشرفت محسوب میشود. اما به نظر میرسد اپل همچنین در حال کار روی نسخهای از سیری است که ممکن است به زودی راهاندازی شود و در واقع درون برنامهها ادغام شود. این یعنی دستیار صوتی میتواند به نمایندگی از شما روی دستگاهتان اقداماتی انجام دهد. حداقل در تئوری، به زودی سیری تقریباً هر کاری را که میتوانید با گوشی خود انجام دهید، برایتان انجام خواهد داد.
قطعا این همان تصویری بوده که اپل از ابتدا برای سیری در نظر داشته است. حتی میتوان آن را در تبلیغات آیفون ۴اس دید: این افراد مشهور از سیری کمک میخواهند، اما سیری تقریباً هیچوقت کار را به طور کامل انجام نمیدهد. سیری برای دشانل لیستی از رستورانهایی که تحویل غذا دارند ارائه میدهد، اما پیشنهاد سفارش غذا یا نمایش منو را نمیدهد. به اسکورسیزی میگوید ترافیک وجود دارد اما مسیریابی او را تغییر نمیدهد – و مگر نباید از قبل بداند که او برای جلسه دیر میرسد؟ سیری به مالکوویچ میگوید با مردم مهربان باشد و کتاب خوبی بخواند، اما هیچ کمک عملی ارائه نمیدهد. تا به حال، استفاده از سیری مانند داشتن یک دستیار مجازی است که تنها کارش جستجوی اینترنتی برای شماست. که خب، این هم کاری است! اما چیز زیادی نیست.
دو دلیل اصلی وجود دارد که سیری هرگز به پتانسیل خود در این زمینه دست نیافت. دلیل اول ساده است: فناوری زیربنایی به اندازه کافی خوب نبود. اگر از سیری استفاده کرده باشید، میدانید که چقدر اوقات نامها را اشتباه میشنود، دستورات را بد متوجه میشود و در نهایت با پاسخ «چیزیهایی در وب پیدا کردم» به شما جواب میدهد، در حالی که تنها خواستهی شما پخش یک پادکست بوده است. در اینجاست که مدلهای زبان بزرگ به طور قطع بسیار هیجانانگیز هستند، زیرا شاهد پیشرفت چشمگیر ابزارهای تبدیل گفتار به متن مانند Whisper بودهایم و اینکه این مدلها تا چه حد گستردهتری میتوانند زبان را درک کنند. آنها بینقص نیستند، اما نسبت به آنچه قبلاً داشتیم، پیشرفت بزرگی به شمار میروند – به همین دلیل است که آمازون نیز الکسا را به سمت مدلهای زبان بزرگ هدایت میکند و دستیار گوگل در حال تحت الشعاع قرار گرفتن توسط جِمینی است.
دلیل دوم که سیری هرگز به طور کامل کارآمد نبود، صرفاً این است که نه اپل و نه توسعهدهندگان شخص ثالث هرگز به درستی متوجه نشدند که سیری چگونه باید کار کند. شما چگونه قرار است از قابلیتهای سیری مطلع شوید یا چگونه باید از آن سوال بپرسید؟ چگونه توسعهدهندگان باید سیری را با برنامههای خود ادغام کنند؟ حتی حالا، اگر بخواهید وظیفهای را به لیست کارهای خود در یک برنامه اضافه کنید، سیری نمیتواند به سادگی تشخیص دهد که از کدام برنامه استفاده میکنید. شما مجبورید بگویید «سلام سیری، به من یادآوری کن که در Todoist به چمن آب بدهم»، که جملهای عجیب و بیمعنی است و طبق تجربه من، به هر حال نصف اوقات هم با شکست مواجه میشود. اگر میخواهید یک کار چند مرحلهای انجام دهید، تنها گزینه شما دست و پنجه نرم کردن با Shortcuts است که ابزاری بسیار قدرتمند است، اما تقریباً به نوشتن کد توسط شما نیاز دارد. این برای اکثر مردم بیش از حد پیچیده است.
هوش مصنوعی همچنین ممکنه به اپل فرصتی بده تا کل این مشکل رو دور بزنه. پژوهشگرهای اپل اوایل امسال مقاله ای منتشر کردن که در اون جزئیات سیستمی به نام Ferret-UI رو شرح میدادن، سیستمی که از یک مدل هوش مصنوعی برای درک جزئیات کوچیک یک تصویر روی صفحه استفاده میکنه. پژوهشگرها حتی توضیح میدن که چطور یک برنامه کلی که از سیری استفاده میکنه ممکنه کار کنه: مدل GPT-4 شرکت OpenAI در درک کلی ماهیت یک تصویر عملکرد خوبی داره، و بعد Ferret میتونه بخشهای کوچیک و جزئیات رو درک کنه. در عمل، این ممکنه به این معنی باشه که یه سیستم بگه "این برنامهی Ticketmasterه!" و اون یکی بگه "اون دکمهی خرید همونجا است."
باید نسبت به هر ادعایی که اپل در مورد سیری مطرح میکند، شک و تردید داشته باشیم. بیش از یک دهه پیش، شیلر روی صحنه ایستاد و اعلام کرد که اپل دستیار صوتی بهتری ساخته است، در حالی که اینطور نبود. ممکن است الان هم همین اتفاق بیفتد، زیرا هیاهوی هوش مصنوعی همچنان خیلی سریعتر از فناوری واقعی حرکت میکند. شرکتهای Humane، Rabbit، گوگل و سایرین همگی روی ایدههای مشابهی کار میکنند – «عامل» واژهی کلیدی داغ دنیای هوش مصنوعی در این تابستان است – و هنوز هیچکس نشان نداده است که برای این کار آماده باشد.
اما اگر اپل در این زمینه به موفقیت رسیده باشد، این میتواند اولین باری باشد که سیری واقعی را میبینیم – سیریای که سالها پیش به ما وعده داده بودند. شاید در تبلیغ بعدی، سوپ گوجه فرنگی دشانل به طور جادویی در خانهاش ظاهر شود و برنامهی Headspace برای برقراری آرامش درونی مالکوویچ فعال شود. شاید بالاخره، سیریای را به دست بیاوریم که اپل همیشه میخواست بسازد.