ناوري هوش مصنوعي گوگل موسوم به DeepMind گام بلندي رو به جلو برداشته و توانسته با دقتي بيسابقه برخي اصوات و مكالمات انساني را درك و دقيقا از آنها تقليد كند.
به گزارش ايتنا از فارس، فناوري مذكوري از سيستمي موسوم به WaveNet براي توليد صدا از طريق نمونهبرداري از صداي واقعي انسان و مدلسازي امواج صوتي استفاده ميكند.
اصوات انساني آزمايشي توليد شده به اين شيوه به زبانهاي چيني و انگليسي نشان ميدهد كه هوش مصنوعي گوگل از پخش ماشيني صداي انسان بسيار فراتر رفته و توانسته صداي افراد مختلف را با دقت و با توجه به ويژگيهاي خاص موجود در صداي آنها بازسازي و تقليد كند. اگر چه اصوات طراحي شده هنوز تفاوتهايي با اصوات واقعي انسانها دارند.
برنامههاي تبديل متن به صوت و تقليد صداي انسان در دنياي رايانه از اهميت بسياري زيادي برخوردارند، زيرا در توليد برنامههاي دستيار صوتي و ديگر برنامههاي مبتني بر هوش مصنوعي كاربرد دارند. اين برنامه ها در نرمافزارهايي مانند سيري، كورتانا، آلكسا و Google Assistant مورد استفاده قرار گرفتهاند.
در حال حاضر اگر سوالي از طريق اين نرمافزارها مطرح شود، صدايي ضبط شده و مصنوعي با تبديل متن پاسخ به صدا به كاربر پاسخ ميدهد، اما فناوريهاي جديد ابداع انواع صداهاي طبيعي و انساني با تنها و لهجههاي مختلف را ممكن ميكند.
سيستم جديد گوگل مبتني بر ورود صداي واقعي است، اما ميتواند با يادگيري ويژگيهاي صوت دريافتي به طور مستقل صدايي مشابه با آن را با كلماتي جديد خلق كرده و پخش نمايد. البته WaveNet فعلا تنها قادر به درك ويژگيهاي صوت و نه محتواي صحبتهاي فرد است ولي قرار است درك آن در اين زمينه نيز ارتقا يابد.
|