خدمات سایت


متن کامل خبر

هوش مصنوعی Voicebox متا معرفی شد؛ تبدیل متن به صدا و امکان صحبت به زبان‌های خارجی

آرشیو
هوش مصنوعی جدید متا همان توانمندی‌هایی را درزمینه تبدیل متن به صدا ارائه می‌کند که DALL-E درزمینه تولید تصویر دارد.
1402/03/27 11:51:00 ق.ظ

متا حالا از ابزار هوش مصنوعی مولد جدیدی به‌ نام Voicebox رونمایی کرده است که می‌تواند کارهای مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی‌های مهم این مدل دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. این ابزار می‌تواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام می‌دهند.



هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن به‌عنوان «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد می‌کند. این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

ازجمله قابلیت‌های مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونه‌ای 2 ثانیه‌ای از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.


مدل هوش مصنوعی متا Voicebox چه قابلیت‌هایی دیگری دارد؟

دامنه وسیع داده‌های ورودی به این سیستم کمک می‌کند تا صداهایی بسازد که از نظر مکالمه‌ای طبیعی‌ترند. متا می‌گوید: «نتایج ما نشان می‌دهد مدل‌های تشخیص گفتاری که روی صداهای ساخته‌شده با Voicebox آموزش داده می‌شوند، تقریباً به‌خوبی مدل‌هایی عمل می‌کنند که با صداهای واقعی تعلیم داده شده باشند.» به‌علاوه، صداهایی که توسط کامپیوتر تولید شدند، فقط با 1 درصد خطای تنزل روبه‌رو بودند، درحالی‌که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.

مدل هوش مصنوعی Voicebox می‌تواند صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا می‌گویند برای مثال کاربر می‌تواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.

مدل Voicebox به‌لطف روش جدید تعلیم متا موسوم به «هماهنگ‌ساز جریان» (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (1.9 درصد در مقایسه با 5.9 درصد) و سرعت آن هم تا 20 برابر سریع‌تر است.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آن‌ها درحال‌حاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتی‌شان دچار مشکل شده است، NPCهای درون بازی‌ها و دستیارهای صوتی استفاده کنند.

منبع : دیجیاتو
به این خبر امتیاز بدهید :
برچسب های خبر:
کلمات کلیدی :
  • Voicebox,
هیچ نظری برای این خبر ثبت نشده است! اولین نفری باشید که نظری را ارسال می کند!
Captcha




انویدیا دانشکده هوش مصنوعی احداث می‌کند image انویدیا دانشکده هوش مصنوعی احداث می‌کند 1403/09/01

تأسیس دانشکده‌ی هوش مصنوعی انویدیا در اندونزی، در جریان سفر هفته‌ی گذشته‌ی مدیرعامل تیم سبز به این کشور مطرح شده است.

امتیاز:
تعداد بازدید: 0

پاوربانک بسیار باریک شیائومی با طراحی جذاب و ظرفیت ۵ هزار میلی‌آمپرساعت معرفی شد image پاوربانک بسیار باریک شیائومی با طراحی جذاب و ظرفیت ۵ هزار میلی‌آمپرساعت معرفی شد 1403/08/28

شیائومی پاوربانک جدید خود را با طراحی ظریف و ظرفیت ۵ هزار میلی‌آمپرساعتی رونمایی کرد.

امتیاز:
تعداد بازدید: 30

ال‌جی مانیتور گیمینگ ۴۸۰ هرتزی با قیمت ۱۰۰۰ دلار معرفی کرد image ال‌جی مانیتور گیمینگ ۴۸۰ هرتزی با قیمت ۱۰۰۰ دلار معرفی کرد 1403/08/28

ال‌جی به‌تازگی از مانیتور گیمینگ جدید خود با نام UltraGear 27GX790A یا به‌اختصار GX7 رونمایی کرده است. این مانیتور که به نمایشگر اولد ۴۸۰ هرتزی مجهز است، با قیمت هزار دلار روانه بازار می‌شود.

امتیاز:
تعداد بازدید: 30

هکرهای چینی با موفقیت به اپراتور آمریکایی تی‌موبایل نفوذ کردند image هکرهای چینی با موفقیت به اپراتور آمریکایی تی‌موبایل نفوذ کردند 1403/08/27

گروهی از هکرهای چینی موفق شدند با چندین حملات گسترده به زیرساخت‌های اپراتور آمریکایی تی‌موبایل، به آن نفوذ کنند.

امتیاز:
تعداد بازدید: 33

چین بزرگ‌ترین مزرعه خورشیدی دریایی جهان را راه‌اندازی کرد؛ تأمین برق 2.67 میلیون خانه image چین بزرگ‌ترین مزرعه خورشیدی دریایی جهان را راه‌اندازی کرد؛ تأمین برق 2.67 میلیون خانه 1403/08/26

بزرگ‌ترین پروژه خورشیدی دریایی جهان با توان 1 گیگاواتی در چین راه‌اندازی شد. این پروژه در آینده می‌تواند برق 2.67 میلیون خانه را تأمین کند.

امتیاز:
تعداد بازدید: 40

عمر اپ‌های ایمیل و تقویم ویندوز ۱۱ تا پایان ۲۰۲۴ به پایان می‌رسد image عمر اپ‌های ایمیل و تقویم ویندوز ۱۱ تا پایان ۲۰۲۴ به پایان می‌رسد 1403/08/23

ردموندی‌ها از کاربران ویندوز خواسته‌اند تا به‌جای Mail از برنامه Outlook در ویندوز 11 استفاده کنند.

امتیاز:
تعداد بازدید: 38

برای نخستین‌بار در بیش از یک‌ دهه، احتمالاً تمام مک‌های اپل با تراشه M4 به‌روز می‌شوند image برای نخستین‌بار در بیش از یک‌ دهه، احتمالاً تمام مک‌های اپل با تراشه M4 به‌روز می‌شوند 1403/08/20

به‌نظر می‌رسد اپل قصد دارد برای نخستین‌بار در بیش از یک‌ دهه، تمام مک‌هایش را با تراشه‌ی M4 به‌روز کند.

امتیاز:
تعداد بازدید: 58

پرونده قتل باب لی، مدیر فقید صنعت فناوری، وارد فاز جدیدی شد image پرونده قتل باب لی، مدیر فقید صنعت فناوری، وارد فاز جدیدی شد 1403/08/20

شواهد جدیدی از پرونده‌ی قتل باب لی، مدیر اجرایی استارتاپ Cash App، فاش شده است.

امتیاز:
تعداد بازدید: 49

تحقیق جدید نشان داد: اپل ویژن پرو عملکرد خوبی در رادیولوژی دارد image تحقیق جدید نشان داد: اپل ویژن پرو عملکرد خوبی در رادیولوژی دارد 1403/08/20

در یک پژوهش جدید محققان عملکرد رادیولوژیست‌ها هنگام استفاده از ویژن پرو را بررسی کردند.

امتیاز:
تعداد بازدید: 50

پردازنده ۱۶ هسته‌ای 9950X3D رایزن 9 در بنچمارک رؤیت شد؛ ۶۴ درصد سریع‌تر از قبل image پردازنده ۱۶ هسته‌ای 9950X3D رایزن 9 در بنچمارک رؤیت شد؛ ۶۴ درصد سریع‌تر از قبل 1403/08/17

پردازنده 9950X3D احتمالاً در اوایل سال ۲۰۲۵ و طی نمایشگاه CES معرفی می‌شود که ۱۶ هسته پردازشی و ۱۴۴ مگابایت حافظه کش را ارائه می‌کند.

امتیاز:
تعداد بازدید: 54