Jannah Theme License is not validated, Go to the theme options page to validate the license, You need a single license for each domain name.
اقتصاد وعملات

يمكن أن يصل Whisper من OpenAI إلى مستوى القوة البشرية في ASR

همسة أوبن إيه آي

همسة أوبن إيه آي

سيمكن Whisper من OpenAI تطبيقات التعرف على الكلام للوصول إلى مستويات جديدة من الكفاءة

لقد قطعت تقنية التعرف على الكلام أو التعرف على الصوت وقتًا طويلاً منذ ظهور المفهوم لأول مرة. لكن لا يزال المستخدمون يواجهون مشكلة واحدة مستمرة في التعرف على الصوت ، وهي الدقة. على مدار العامين الماضيين ، عمل الباحثون على بناء خوارزميات ذكاء اصطناعي يمكنها معالجة المدخلات الصوتية بدقة والتركيز باستمرار على البحث والتطوير في مجال تطوير الكلام. في الآونة الأخيرة ، يتصدر Whisper من OpenAI عناوين الأخبار لكونه نموذج ML مفتوح المصدر طليعي يمكنه إجراء التعرف التلقائي على الكلام على مجموعة واسعة من اللغات العالمية. بمساعدة محوّل فريد تم تدريبه على 680.000 ساعة من البيانات الصوتية متعددة اللغات الخاضعة للإشراف الأسبوعي ، يمكن لـ OpenAI’s Whisper إجراء قوة ودقة على مستوى الإنسان في ASR ، دون الحاجة إلى ضبط دقيق أو أي وسطاء. النموذج مفتوح المصدر بشكل أساسي وله أحجام وزن مختلفة متاحة للجمهور.

على مر السنين ، حاول عدد لا يحصى من شركات التكنولوجيا الكبيرة الوصول إلى مستوى فعال من الدقة في أنظمة ASR ، والتي تقع في صميم تطبيقات برامج التعرف هذه ، إلى جانب الخدمات المقدمة من عمالقة التكنولوجيا مثل Google و Amazon و Meta ساعدت بشكل كبير نمو وتطور مجال التعرف على الكلام. ذكرت OpenAI في مستودع GitHub لـ Whisper أن ASR قد أظهر نتائج ناجحة بأكثر من 10 لغات ويظهر قدرات إضافية في مهام مثل اكتشاف النشاط الصوتي أو تصنيف السماعات أو مذكرات السماعات ، والتي لم يتم تناولها بنشاط سابقًا.

هل الهمس حقًا ليس بلا حدود؟

لا ، Whisper له حدوده ، لا سيما في مجال التنبؤ بالنص. يتم تدريب النظام بشكل أساسي على كمية كبيرة من البيانات الصاخبة ، والتي تحتوي في الغالب على كلمات في نسخها التي لم يتم التحدث بها في الواقع ، ويرجع ذلك أساسًا إلى أنه يحاول التنبؤ بالكلمة التالية من خلال الصوت ومحاولة نسخ الصوت نفسه. علاوة على ذلك ، لا يعمل نموذج ML مفتوح المصدر هذا بشكل جيد عبر اللغات ، والتي تعاني من معدل خطأ أعلى عندما يتعلق الأمر بمتحدثي اللغات غير الممثلة جيدًا في بيانات التدريب.

كان التحيز أحد الأسباب الرئيسية التي تعيق تبسيط نماذج التعلم الآلي. أدت الدراسات التي أجرتها بعض أفضل شركات التكنولوجيا في العالم مثل Google و IBM و Amazon إلى تقليل القرب من الأخطاء. على الرغم من ذلك ، يتمتع Whisper من OpenAI بإمكانيات النسخ المستخدمة لتحسين أدوات الوصول الحالية.

الحد الأدنى

لا يعكس Whisper حقًا الإمكانات الكاملة لـ OpenAI ولا خططه. الجهود المبذولة لمساعدة الشعبية المتزايدة لـ Dall-E 2 و GPT-3 ، لكن الشركة تتابع بالتأكيد العديد من المشاريع البحثية حول أبحاث الذكاء الاصطناعي.

ظهر منشور OpenAI’s Whisper الذي يمكنه الوصول إلى القوة على المستوى البشري في ASR أولاً في Analytics Insight.

اظهر المزيد
زر الذهاب إلى الأعلى