مطالب اینترنتی




کوالکام اپلیکیشنی ساخته است که به صورت آفلاین و بدون نیاز به اینترنت قابلیت تشخیص صدا با دقت ۹۵ درصد را دارد.

کریس لوت، یکی از محققان هوش مصنوعی در کوالکام، در کنفرانس یادگیری عمیق در بوستون، نگاهی اجمالی به یک برنامه جدید تشخیص صدا که توسط کوالکام ارائه شده کرده است.

برنامه‌ای توسط کوالکام ارائه شد که به صورت کلی روی یک گوشی هوشمند قابل اجرا است که شامل دو نوع شبکه عصبی است؛ یک شبکه‌ی عصبی تکرار شونده (Recurrent Neural Network) که از حافظه داخلی برای پردازش ورودی‌های دستگاه استفاده می‌کند و یک شبکه عصبی پیچیده، که الگوی ارتباطی بین نورون‌ها را در مغز انسان شبیه سازی می‌کند. به گفته لوت، این سیستم به طور متوسط ۹۵ درصد توانایی تشخیص کلمات و عبارات را دارد.

او گفت:

این اپلیکیشن، الگوی استفاده از گوشی‌هوشمند توسط کاربر را یاد گرفته، بنابراین می‌تواند رفتار خودش را بر اساس رفتار شما شخصی سازی کرده و به شما ارائه دهد.

لوت توضیح داد که اکثر سیستم‌های تشخیص صدای امروزی بیشتر پردازش خود را در محیط ابری (Cloud) انجام می‌دهند. این سیستم‌ها از قبیل میکروفون‌ها و تراشه‌ها در گوشی‌ها، اسپیکرهای هوشمند خانگی مانند گوگل هوم و اسپیکرهای هوشمند آمازون اکو و رایانه‌های ویندوزی با دستیار کورتانا مایکروسافت برای گوش دادن به کلمات از پیش تعریف شده” مانند OK Google” و Hey Cortana” هستند که برای هر کدام از این کلمات از قبل برنامه‌ریزی شده و هیچ گونه تجزیه و تحلیلی انجام نمی‌دهند و پردازش اصلی را به الگوریتم‌های قابل اجرا روی سرورهای قدرتمند ابری می‌سپارند.

Qualcomm

بعضی از کاربران نگران حریم خصوصی با انتشار صدای خود در محیط ابری هستند. هر دو سرویس Assassin’s Alexa Assistant شرکت آمازون و دستیار گوگل قبل از ارسال صداها برای تجزیه و تحلیل به فضای ابری، صداها را به اجزای کوچک‌تر تقسیم کرده و آن‌ها را تا زمانی که کاربر تصمیم به حذف آن‌ها بگیرد ذخیره می‌کنند. هر دو شرکت اعلام کرده‌اند که از دستورات صوتی استفاده می‌کنند تا خدمات خود را ارتقا دهند و پاسخ‌های شخصی بیشتری را ارائه دهند.

مقاله‌های مرتبط:

اما در بعضی موارد، ضبط و ذخیره‌سازی صدا در سرورهای ابری نگرانی‌هایی را در خصوص حریم خصوصی برای کاربر به ارمغان می‌آورند. در سال ۲۰۱۶، کارآگاهان در آریزونا برای تحقیق در مورد یک قتل، به دنبال دسترسی به داده‌های صوتی از سخنران اکو آمازون بودند که در نهایت با اجازه متهم داده‌های صوتی به اشتراک گذاشته شدند.

لوت معتقد است علاوه بر حریم خصوصی، پردازش صوتی در دستگاه نیز مزایایی دارد. از آنجایی که لازم نیست که داده‌ها را به محیط ابری بفرستد، فورا به فرمان‌ها پاسخ می‌دهد و به این دلیل که اتصال به اینترنت نیازی ندارد، بسیار قابل اعتماد است. لوت در این خصوص می‌گوید:

تلاش‌های بسیاری در حال انجام است تا یک سیستم مبتنی بر شبکه‌های عصبی از سمت کاربر قادر به انجام پردازش باشد. با استفاده از این روش می‌توان تعامل با دستگاه‌ها را بسیار طبیعی‌تر کرد.

سال ۲۰۱۶ گوگل یک سیستم شناسایی آفلاین آفیس را ایجاد کرد که در آن زمان ۷ برابر سریع‌تر از سیستم آنلاین خود بود. این مدل که تقریبا ۲۰۰۰ ساعت از داده‌های صوتی را در بر‌داشت، دارای حجمی به اندازه ۲۰.۳ مگابایت بوده و دارای دقت ۸۶.۵ درصد است که روی تلفن هوشمند مورد استفاده قرار می‌گیرد.

البته، تشخیص صدا در دستگاه دارای مجموعه‌ای از محدودیت‌ها است. الگوریتم‌های طراحی شده برای کار کردن به صورت آفلاین نمی‌توانند به جستجوی پاسخ‌ سوالات در اینترنت بپردازند و از پیشرفت‌هایی که ممکن است در سیستم‌های مبتنی بر پردازش ابری با مجموعه داده‌های متنوع انجام شده را از دست بدهند.

اما لوت معتقد است که راهکار کوالکام روشی است که آینده را در اختیار دارد. بسیاری از موارد به شکل ابری اتفاق می‌افتد، اما فکر می‌کنیم که باید به طور مستقیم روی دستگاه اتفاق بیفتد.



لینک منبع

مطلب سیستم هوش مصنوعی آفلاین کوالکام صدا را با دقت ۹۵ درصد تشخیص می‌دهد در سایت مفیدستان.


آخرین جستجو ها