متا حالا از ابزار هوش مصنوعی مولد جدیدی به نام Voicebox رونمایی کرده است که میتواند کارهای مختلفی نظیر تبدیل متن به صدا، کاهش نویز و ویرایش صدا را انجام دهد. یکی از ویژگیهای مهم این مدل دریافت نمونه صوتی از یک زبان و تبدیل آن به زبانهای خارجی است. این ابزار میتواند درزمینه تبدیل متن به صدا همان کاری را انجام دهد که ChatGPT و DALL-E درزمینه تولید متن و تصویر انجام میدهند.
هوش مصنوعی Voicebox یک مبدل متن به صداست که متا از آن بهعنوان «یک مدل هماهنگساز جریان بهصورت غیرخودکاهنده برای تکمیل صدا براساس زمینه و متن» یاد میکند. این مدل روی بیش از 50 هزار ساعت صدای فیتلرنشده تعلیم یافته و متا بهطور خاص از صدای کتابهای صوتی به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی استفاده کرده است.
ازجمله قابلیتهای مهم این هوش مصنوعی انتقال سبک گفتاری از یک زبان به زبانهای خارجی دیگر است. برای استفاده از این قابلیت کافیست نمونهای 2 ثانیهای از صدای خود را بههمراه یک متن به زبانهای انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی به Voicebox دهید و از هوش مصنوعی بخواهید تا متن را با این زبانها بخواند. این شرکت میگوید مدل آنها عملاً میتواند هر متنی را از یک زبان به یک زبان دیگر ترجمه کند و شکل گفتاری زبان مقصد را حفظ کند.
مدل هوش مصنوعی متا Voicebox چه قابلیتهایی دیگری دارد؟
دامنه وسیع دادههای ورودی به این سیستم کمک میکند تا صداهایی بسازد که از نظر مکالمهای طبیعیترند. متا میگوید: «نتایج ما نشان میدهد مدلهای تشخیص گفتاری که روی صداهای ساختهشده با Voicebox آموزش داده میشوند، تقریباً بهخوبی مدلهایی عمل میکنند که با صداهای واقعی تعلیم داده شده باشند.» بهعلاوه، صداهایی که توسط کامپیوتر تولید شدند، فقط با 1 درصد خطای تنزل روبهرو بودند، درحالیکه این نرخ برای سایر مدلهای تبدیل متن به صدا (TTS) بین 45 تا 70 درصد است.
مدل هوش مصنوعی Voicebox میتواند صداها را ویرایش، نویز را از مکالمات حذف و حتی کلماتی را که اشتباه ادا شده باشند، تصحیح کند. محققان متا میگویند برای مثال کاربر میتواند تشخیص دهد که کدام بخش از فایل صوتی نویز دارد و بعد از هوش مصنوعی بخواهد تا آن بخش را دوباره تولید کند.
مدل Voicebox بهلطف روش جدید تعلیم متا موسوم به «هماهنگساز جریان» (Flow Matching) نیازی به حجم بالایی از دادههای ورودی ندارد. نتایج بنچمارکها نشان میدهد که این هوش مصنوعی از نظر بروز خطا بسیار بهتر از بهترین سیستمهای تبدیل متن به صدا عمل میکند (1.9 درصد در مقایسه با 5.9 درصد) و سرعت آن هم تا 20 برابر سریعتر است.
بااینحال، مدل «ویسباکس» یا کد منبع آن در اختیار عموم قرار نمیگیرد. متا اذعان کرده است که با توجه به ریسکهای احتمالی فعلاً قصدی برای عرضه عمومی این مدل ندارد. آنها درحالحاضر صرفاً مقاله تحقیقاتی مقدماتی این مدل را منتشر کردهاند، اما امیدوارند که در آینده بتوانند از این فناوری برای کمک به افرادی که تارهای صوتیشان دچار مشکل شده است، NPCهای درون بازیها و دستیارهای صوتی استفاده کنند.
تأسیس دانشکدهی هوش مصنوعی انویدیا در اندونزی، در جریان سفر هفتهی گذشتهی مدیرعامل تیم سبز به این کشور مطرح شده است.
شیائومی پاوربانک جدید خود را با طراحی ظریف و ظرفیت ۵ هزار میلیآمپرساعتی رونمایی کرد.
الجی بهتازگی از مانیتور گیمینگ جدید خود با نام UltraGear 27GX790A یا بهاختصار GX7 رونمایی کرده است. این مانیتور که به نمایشگر اولد ۴۸۰ هرتزی مجهز است، با قیمت هزار دلار روانه بازار میشود.
گروهی از هکرهای چینی موفق شدند با چندین حملات گسترده به زیرساختهای اپراتور آمریکایی تیموبایل، به آن نفوذ کنند.
بزرگترین پروژه خورشیدی دریایی جهان با توان 1 گیگاواتی در چین راهاندازی شد. این پروژه در آینده میتواند برق 2.67 میلیون خانه را تأمین کند.
ردموندیها از کاربران ویندوز خواستهاند تا بهجای Mail از برنامه Outlook در ویندوز 11 استفاده کنند.
بهنظر میرسد اپل قصد دارد برای نخستینبار در بیش از یک دهه، تمام مکهایش را با تراشهی M4 بهروز کند.
شواهد جدیدی از پروندهی قتل باب لی، مدیر اجرایی استارتاپ Cash App، فاش شده است.
در یک پژوهش جدید محققان عملکرد رادیولوژیستها هنگام استفاده از ویژن پرو را بررسی کردند.
پردازنده 9950X3D احتمالاً در اوایل سال ۲۰۲۵ و طی نمایشگاه CES معرفی میشود که ۱۶ هسته پردازشی و ۱۴۴ مگابایت حافظه کش را ارائه میکند.