خدمات سایت


متن کامل خبر

هوش مصنوعی Voicebox متا معرفی شد؛ تبدیل متن به صدا و امکان صحبت به زبان‌های خارجی

آرشیو
هوش مصنوعی جدید متا همان توانمندی‌هایی را درزمینه تبدیل متن به صدا ارائه می‌کند که DALL-E درزمینه تولید تصویر دارد.
1402/03/27 11:51:00 ق.ظ

متا حالا از ابزار هوش مصنوعی مولد جدیدی به‌ نام Voicebox رونمایی کرده است که می‌تواند کارهای مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی‌های مهم این مدل دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. این ابزار می‌تواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام می‌دهند.



هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن به‌عنوان «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد می‌کند. این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

ازجمله قابلیت‌های مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونه‌ای 2 ثانیه‌ای از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.


مدل هوش مصنوعی متا Voicebox چه قابلیت‌هایی دیگری دارد؟

دامنه وسیع داده‌های ورودی به این سیستم کمک می‌کند تا صداهایی بسازد که از نظر مکالمه‌ای طبیعی‌ترند. متا می‌گوید: «نتایج ما نشان می‌دهد مدل‌های تشخیص گفتاری که روی صداهای ساخته‌شده با Voicebox آموزش داده می‌شوند، تقریباً به‌خوبی مدل‌هایی عمل می‌کنند که با صداهای واقعی تعلیم داده شده باشند.» به‌علاوه، صداهایی که توسط کامپیوتر تولید شدند، فقط با 1 درصد خطای تنزل روبه‌رو بودند، درحالی‌که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.

مدل هوش مصنوعی Voicebox می‌تواند صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا می‌گویند برای مثال کاربر می‌تواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.

مدل Voicebox به‌لطف روش جدید تعلیم متا موسوم به «هماهنگ‌ساز جریان» (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (1.9 درصد در مقایسه با 5.9 درصد) و سرعت آن هم تا 20 برابر سریع‌تر است.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آن‌ها درحال‌حاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتی‌شان دچار مشکل شده است، NPCهای درون بازی‌ها و دستیارهای صوتی استفاده کنند.

منبع : دیجیاتو
به این خبر امتیاز بدهید :
برچسب های خبر:
کلمات کلیدی :
  • Voicebox,
هیچ نظری برای این خبر ثبت نشده است! اولین نفری باشید که نظری را ارسال می کند!
Captcha




نمایشگاه ایران اکسپو ۲۰۲۴ با حضور ایرانسل آغاز به کار کرد image نمایشگاه ایران اکسپو ۲۰۲۴ با حضور ایرانسل آغاز به کار کرد 1403/02/09

ششمین نمایشگاه توانمندی‌های صادراتی ایران، موسوم به ایران اکسپو ۲۰۲۴ توسط رئیس جمهور افتتاح شد. ایرانسل نیز در این رویداد حضوری پررنگ و جدی دارد.

امتیاز:
تعداد بازدید: 52

گوگل خواستار رد شکایت وزارت دادگستری آمریکا علیه کسب‌وکار تبلیغات خود شد image گوگل خواستار رد شکایت وزارت دادگستری آمریکا علیه کسب‌وکار تبلیغات خود شد 1403/02/09

گوگل اعتقاد دارد که وزارت دادگستری شواهدی مبنی بر عملکرد ضدرقابتی کسب‌وکار آن‌ها ارائه نکرده است.

امتیاز:
تعداد بازدید: 53

اپل آیدی شما بی‌دلیل قفل شده است؟ تنها نیستید image اپل آیدی شما بی‌دلیل قفل شده است؟ تنها نیستید 1403/02/08

برخی از کاربران در شبکه‌های اجتماعی می‌گویند که اپل آیدی آن‌ها به‌طور ناگهانی قفل شده است.

امتیاز:
تعداد بازدید: 64

باگ عجیب یوتیوب موزیک صدای کاربران آیفون را درآورد image باگ عجیب یوتیوب موزیک صدای کاربران آیفون را درآورد 1403/02/05

برخی کاربران نسخه‌ی iOS یوتیوب موزیک با باگ آزاردهنده‌ای در این برنامه مواجه شده‌اند.

امتیاز:
تعداد بازدید: 80

مجلس سنای آمریکا سرانجام لایحه «ممنوعیت یا فروش تیک تاک» را تصویب کرد image مجلس سنای آمریکا سرانجام لایحه «ممنوعیت یا فروش تیک تاک» را تصویب کرد 1403/02/05

اکنون «جو بایدن»، رئیس جمهور آمریکا برای قانونی‌شدن لایحه، باید آن را امضا کند و ByteDance یک سال فرصت دارد تا تیک‌تاک را بفروشد.

امتیاز:
تعداد بازدید: 48

در آستانه رونمایی آیپد ایر ۲۰۲۴، موجودی مدل فعلی کاهش یافت image در آستانه رونمایی آیپد ایر ۲۰۲۴، موجودی مدل فعلی کاهش یافت 1403/02/04

موجودی مدل‌های فعلی آیپد در فروشگاه‌های اپل کاهش یافته است تا جای خود را به مدل‌های جدید بدهد.

امتیاز:
تعداد بازدید: 47

مدل آزمایشی بسیار کمیاب GTX 2070 به تصویر کشیده شد image مدل آزمایشی بسیار کمیاب GTX 2070 به تصویر کشیده شد 1403/02/03

یکی از نمونه‌های آزمایشی کارت گرافیک GTX 2070 پس از ۶ سال به نمایش درآمد.

امتیاز:
تعداد بازدید: 52

اسپیکر عرضه‌نشده اپل در دست بسکتبالیست معروف‌ دیده شد image اسپیکر عرضه‌نشده اپل در دست بسکتبالیست معروف‌ دیده شد 1403/02/02

ظاهراً اپل در حال احیای یکی از اسپیکرهای نمادین و معروف برند بیتس است.

امتیاز:
تعداد بازدید: 38

نرم‌افزار گوگل چت احتمالاً به اسلک و مایکروسافت تیمز متصل می‌شود image نرم‌افزار گوگل چت احتمالاً به اسلک و مایکروسافت تیمز متصل می‌شود 1403/02/02

گوگل چت قرار است با نرم‌افزارهای مایکروسافت تیمز و اسلک ارتباط برقرار کند.

امتیاز:
تعداد بازدید: 30

کوتاه‌تر شدن مراحل درخواست خودرو در تپسی image کوتاه‌تر شدن مراحل درخواست خودرو در تپسی 1403/02/01

شرکت تپسی در اولین اقدام خود در سال ۱۴۰۳ از قابلیت جدیدی در مرحله‌ی درخواست خودرو رونمایی کرد.

امتیاز:
تعداد بازدید: 35