قدمت ميتا برنامج Voicebox رسميًا، وهو ذكاء اصطناعي متخصص في تركيب الصوت. هذا النموذج قادر على تحويل النص إلى ملف صوتي وتوليد الكلام بناءً على هذه العينات لمدة ثانيتين فقط.
بعد إطلاق ChatGPT في نهاية عام 2022 واستثمار مايكروسوفت بقيمة 10 مليارات في بدء تشغيل OpenAI، سارع عمالقة الويب لتقديم ذكاءهم الاصطناعي الخاص.
ميزت جوجل نفسها بـ Bard، الذكاء الاصطناعي للمحادثة، بينما أكدت ميتا تطوير الذكاء الاصطناعي الخاص بها في أبريل 2023. في الأشهر الأخيرة، نشرت شركة Menlo Park العديد من نماذج الذكاء الاصطناعي، بدءًا بـ LLaMA (نموذج Meta AI للغة الكبيرة)، نموذج لغة مفتوح المصدر.
منذ فترة، كشفت الشركة الكاليفورنية أيضًا عن نموذج JEPA، وهو نموذج يهدف إلى إعادة إنتاج الفكر البشري، لا سيما من خلال تحليل وفهم المفاهيم المجردة. في منطقة مختلفة تمامًا،
تكشف ميتا عن Voicebox، الذكاء الاصطناعي القادر على تقليد الصوت البشري
ومع ذلك، في 16 يونيو 2023، أعلنت ميتا عن “اختراقها الجديد في مجال الذكاء الاصطناعي التوليدي للكلام”. هذا الذكاء الاصطناعي هو صندوق الصوت. باختصار، يتخصص نموذج الذكاء الاصطناعي المتطور هذا في تحويل النص إلى كلام. بمعنى آخر، إنه قادر على إنشاء ملفات صوتية أو تعديلها أو تصميمها.
أولاً، ميزة Voicebox الأكثر إثارة (وربما الأكثر إشكالية): وهي تحويل النص إلى كلام في السياق. استنادًا إلى مقتطف صوتي مدته ثانيتان فقط، يمكن لـ Voicebox إنشاء الكلام عن طريق محاكاة صوت وصياغة الشخص الذي تم سماعه في المقتطف.
بهذه الطريقة، يمكن لـ Voicebox محاكاة صوت قريب أو مغني أو سياسي. في المستقبل، تنص ميتا على أن Voicebox ونماذج الذكاء الاصطناعي الأخرى المماثلة ستكون قادرة على إعطاء أصوات طبيعية للمساعدين الصوتيين أو NPCs في الميتافيرس. بالإضافة إلى ذلك، يمكنهم أيضًا السماح للمكفوفين بسماع الرسائل المكتوبة بأصوات أصدقائهم.
تحرير الملفات الصوتية والترجمة الفورية
لكن هذا ليس كل شيء لأن Voicebox يقدم ميزات أخرى:
- تحرير الصوت وتقليل الضوضاء: يمكن لـ Voicebox إعادة إنشاء جزء من الكلام المقطوع بالضوضاء أو استبدال الكلمات المخدوشة والخطأ في النطق دون الحاجة إلى تسجيل خطاب جديد بالكامل (نوع من الممحاة السحرية لـ جوجل للصوت).
- الترجمة متعددة اللغات: يدعم Voicebox حاليًا ست لغات (الإنجليزية والفرنسية والإسبانية والألمانية والبولندية والبرتغالية)، مما يسمح له بنقل الكلام إلى لغة غير لغة الملف الأصلي (أثناء نقل النمط والظلال).
لتنفيذ مهامها المختلفة، تم إتقان Meta AI لأكثر من 50000 ساعة من المقتطفات الصوتية، بشكل أساسي من الكتب الصوتية والمحتوى الخالي من حقوق الملكية. في الوقت الحالي، لا يزال Voicebox غير متاح لعامة الناس لأسباب أمنية. ليس من المستغرب أن تشعر ميتا بالقلق من إساءة استخدام الذكاء الاصطناعي الخاص به، بما في ذلك لتقليد أصوات أناس حقيقيين.