کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به یک برنامه جدید تشخیص صدا که توسط کوالکام ارائه شده کرده است.
برنامهای توسط کوالکام ارائه شد که به صورت کلی روی یک گوشی هوشمند قابل اجرا است که شامل دو نوع شبکه عصبی است؛ یک شبکهی عصبی تکرار شونده (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودیهای دستگاه استفاده میکند و یک شبکه عصبی پیچیده، که الگوی ارتباطی بین نورونها را در مغز انسان شبیه سازی میکند. به گفته لوت، این سیستم به طور متوسط ۹۵ درصد توانایی تشخیص کلمات و عبارات را دارد.
او گفت:
این اپلیکیشن، الگوی استفاده از گوشیهوشمند توسط کاربر را یاد گرفته، بنابراین میتواند رفتار خودش را بر اساس رفتار شما شخصی سازی کرده و به شما ارائه دهد.
لوت توضیح داد که اکثر سیستمهای تشخیص صدای امروزی بیشتر پردازش خود را در محیط ابری (Cloud) انجام میدهند. این سیستمها از قبیل میکروفونها و تراشهها در گوشیها، اسپیکرهای هوشمند خانگی مانند گوگل هوم و اسپیکرهای هوشمند آمازون اکو و رایانههای ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات از پیش تعریف شده” مانند OK Google” و Hey Cortana” هستند که برای هر کدام از این کلمات از قبل برنامهریزی شده و هیچ گونه تجزیه و تحلیلی انجام نمیدهند و پردازش اصلی را به الگوریتمهای قابل اجرا روی سرورهای قدرتمند ابری میسپارند.
بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس Assassin’s Alexa Assistant شرکت آمازون و دستیار گوگل قبل از ارسال صداها برای تجزیه و تحلیل به فضای ابری، صداها را به اجزای کوچکتر تقسیم کرده و آنها را تا زمانی که کاربر تصمیم به حذف آنها بگیرد ذخیره میکنند. هر دو شرکت اعلام کردهاند که از دستورات صوتی استفاده میکنند تا خدمات خود را ارتقا دهند و پاسخهای شخصی بیشتری را ارائه دهند.
مقالههای مرتبط:
اما در بعضی موارد، ضبط و ذخیرهسازی صدا در سرورهای ابری نگرانیهایی را در خصوص حریم خصوصی برای کاربر به ارمغان میآورند. در سال ۲۰۱۶، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به دادههای صوتی از سخنران اکو آمازون بودند که در نهایت با اجازه متهم دادههای صوتی به اشتراک گذاشته شدند.
لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آنجایی که لازم نیست که دادهها را به محیط ابری بفرستد، فورا به فرمانها پاسخ میدهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص میگوید:
تلاشهای بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکههای عصبی از سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش میتوان تعامل با دستگاهها را بسیار طبیعیتر کرد.
سال ۲۰۱۶ گوگل یک سیستم شناسایی آفلاین آفیس را ایجاد کرد که در آن زمان ۷ برابر سریعتر از سیستم آنلاین خود بود. این مدل که تقریبا ۲۰۰۰ ساعت از دادههای صوتی را در برداشت، دارای حجمی به اندازه ۲۰.۳ مگابایت بوده و دارای دقت ۸۶.۵ درصد است که روی تلفن هوشمند مورد استفاده قرار میگیرد.
البته، تشخیص صدا در دستگاه دارای مجموعهای از محدودیتها است. الگوریتمهای طراحی شده برای کار کردن به صورت آفلاین نمیتوانند به جستجوی پاسخ سوالات در اینترنت بپردازند و از پیشرفتهایی که ممکن است در سیستمهای مبتنی بر پردازش ابری با مجموعه دادههای متنوع انجام شده را از دست بدهند.
اما لوت معتقد است که راهکار کوالکام روشی است که آینده را در اختیار دارد. بسیاری از موارد به شکل ابری اتفاق میافتد، اما فکر میکنیم که باید به طور مستقیم روی دستگاه اتفاق بیفتد.