خدمات سایت


متن کامل خبر

هوش مصنوعی Voicebox متا معرفی شد؛ تبدیل متن به صدا و امکان صحبت به زبان‌های خارجی

آرشیو
هوش مصنوعی جدید متا همان توانمندی‌هایی را درزمینه تبدیل متن به صدا ارائه می‌کند که DALL-E درزمینه تولید تصویر دارد.
1402/03/27 11:51:00 ق.ظ

متا حالا از ابزار هوش مصنوعی مولد جدیدی به‌ نام Voicebox رونمایی کرده است که می‌تواند کارهای مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگی‌های مهم این مدل دریافت نمونه صوتی از یک زبان و تبدیل آن به زبان‌های خارجی است. این ابزار می‌تواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام می‌دهند.



هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن به‌عنوان «یک مدل هماهنگ‌ساز جریان به‌صورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد می‌کند. این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا به‌طور خاص از صدای کتاب‌های صوتی به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.

ازجمله قابلیت‌های مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبان‌های خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونه‌ای 2 ثانیه‌ای از صدای خود را به‌همراه یک متن به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبان‌ها بخواند. این شرکت می‌گوید مدل آن‌ها عملاً می‌تواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.


مدل هوش مصنوعی متا Voicebox چه قابلیت‌هایی دیگری دارد؟

دامنه وسیع داده‌های ورودی به این سیستم کمک می‌کند تا صداهایی بسازد که از نظر مکالمه‌ای طبیعی‌ترند. متا می‌گوید: «نتایج ما نشان می‌دهد مدل‌های تشخیص گفتاری که روی صداهای ساخته‌شده با Voicebox آموزش داده می‌شوند، تقریباً به‌خوبی مدل‌هایی عمل می‌کنند که با صداهای واقعی تعلیم داده شده باشند.» به‌علاوه، صداهایی که توسط کامپیوتر تولید شدند، فقط با 1 درصد خطای تنزل روبه‌رو بودند، درحالی‌که این نرخ برای سایر مدل‌های تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.

مدل هوش مصنوعی Voicebox می‌تواند صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا می‌گویند برای مثال کاربر می‌تواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.

مدل Voicebox به‌لطف روش جدید تعلیم متا موسوم به «هماهنگ‌ساز جریان» (Flow Matching) نیازی به حجم بالایی از داده‌های ورودی ندارد. نتایج بنچمارک‌ها نشان می‌دهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستم‌های تبدیل متن به صدا عمل می‌کند (1.9 درصد در مقایسه با 5.9 درصد) و سرعت آن هم تا 20 برابر سریع‌تر است.

بااین‌حال، مدل «ویس‌باکس» یا کد منبع آن در اختیار عموم قرار نمی‌گیرد. متا اذعان کرده است که با توجه به ریسک‌های احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آن‌ها درحال‌حاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کرده‌اند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتی‌شان دچار مشکل شده است، NPCهای درون بازی‌ها و دستیارهای صوتی استفاده کنند.

منبع : دیجیاتو
به این خبر امتیاز بدهید :
برچسب های خبر:
کلمات کلیدی :
  • Voicebox,
هیچ نظری برای این خبر ثبت نشده است! اولین نفری باشید که نظری را ارسال می کند!
Captcha




پنل پیشرفته microLED وارد اپل واچ اولترا می‌شود؟ image پنل پیشرفته microLED وارد اپل واچ اولترا می‌شود؟ 1403/07/16

براساس شایعات، اپل همچنان به فناوری microLED علاقه دارد و از این فناوری در اپل واچ اولترا و عینک واقعیت افزوده‌اش استفاده خواهد کرد.

امتیاز:
تعداد بازدید: 8

حسن سالاریه در سازمان فضایی ایران ماندگار شد image حسن سالاریه در سازمان فضایی ایران ماندگار شد 1403/07/16

وزیر ارتباطات و فناوری اطلاعات، در حکمی حسن سالاریه را به عنوان معاون وزیر و رئیس سازمان فضایی ایران منصوب کرد.

امتیاز:
تعداد بازدید: 10

اپل احتمالاً مک‌های M4 و آیپد مینی 7 را 11 آبان عرضه می‌کند image اپل احتمالاً مک‌های M4 و آیپد مینی 7 را 11 آبان عرضه می‌کند 1403/07/15

گرمن انتظار دارد اواسط سال 2025، اپل باز هم دستگاه‌های بیشتر و متنوعی روانه بازار کند.

امتیاز:
تعداد بازدید: 12

پردازنده‌های اینتل Core Ultra 300 ظاهراً قدرت هوش مصنوعی بسیار بیشتری خواهند داشت image پردازنده‌های اینتل Core Ultra 300 ظاهراً قدرت هوش مصنوعی بسیار بیشتری خواهند داشت 1403/07/15

این تراشه‌ها ظاهراً در نیمه دوم سال آینده میلادی با معماری NPU5 عرضه می‌شوند.

امتیاز:
تعداد بازدید: 12

پشتیبانی از زبان‌های بیشتر وارد چت صوتی جمنای لایو گوگل می‌شود image پشتیبانی از زبان‌های بیشتر وارد چت صوتی جمنای لایو گوگل می‌شود 1403/07/12

چت صوتی هوش مصنوعی جمنای لایو در هفته‌های آینده میزبان زبان‌های بیشتری خواهد شد.

امتیاز:
تعداد بازدید: 34

چند عضو گروه باج‌افزار LockBit و گروه هکری Evil Corp دستگیر و تحریم شدند image چند عضو گروه باج‌افزار LockBit و گروه هکری Evil Corp دستگیر و تحریم شدند 1403/07/12

همچنین 9 سرور مرتبط با عملیات‌های گروه باج‌افزار LockBit شناسایی و حذف شده است.

امتیاز:
تعداد بازدید: 34

حلقه هوشمند Oura Ring 4 معرفی شد؛ باریک‌تر از قبل با سنسورهای دقیق‌تر image حلقه هوشمند Oura Ring 4 معرفی شد؛ باریک‌تر از قبل با سنسورهای دقیق‌تر 1403/07/12

Oura Ring 4 از 15 اکتبر (24 مهر) با قیمت 349 دلار عرضه خواهد شد که نسبت به نسل قبلی خود 50 دلار گران‌تر است.

امتیاز:
تعداد بازدید: 33

سونی و رزبری‌پای، ماژول دوربین مجهز به هوش مصنوعی ساختند image سونی و رزبری‌پای، ماژول دوربین مجهز به هوش مصنوعی ساختند 1403/07/09

ماژول دوربین جدید رزبری‌پای با همکاری سونی توسعه‌ یافته و بر هوش مصنوعی متمرکز است.

امتیاز:
تعداد بازدید: 49

فرماندار کالیفرنیا لایحه مهم ایمنی هوش مصنوعی را وتو کرد؛ سنگینی قوانین بر دوش شرکت‌های بزرگ AI image فرماندار کالیفرنیا لایحه مهم ایمنی هوش مصنوعی را وتو کرد؛ سنگینی قوانین بر دوش شرکت‌های بزرگ AI 1403/07/09

فرماندار کالیفرنیا لایحه‌ی مهمی را در حوزه‌ی هوش مصنوعی وتو کرد؛ آیا این تصمیم می‌تواند آینده‌ی هوش مصنوعی را تحت‌تأثیر قرار دهد؟

امتیاز:
تعداد بازدید: 51

اپیک گیمز از گوگل و سامسونگ به علت قوانین محدودکننده شکایت می‌کند image اپیک گیمز از گوگل و سامسونگ به علت قوانین محدودکننده شکایت می‌کند 1403/07/09

این شکایت در آمریکا ثبت می‌شود اما ممکن است سازنده فورتنایت شکایت مشابهی را در اروپا و آسیا نیز ثبت کند.

امتیاز:
تعداد بازدید: 30