اقتصاد وعملات

أصبح التعرف التلقائي على الكلام سهلاً باستخدام Whisper لـ OpenAI

OpenAI Whisper

OpenAI’s Whisper هو نموذج ML مفتوح المصدر جديد مصمم للتعرف التلقائي على الكلام متعدد اللغات

يمكن أن يحقق Whisper من OpenAI قوة ودقة على مستوى الإنسان في ASR من خلال محول جاهز فقط تم تدريبه على 680.000 ساعة من البيانات الصوتية متعددة اللغات ضعيفة الإشراف. كل ذلك دون الحاجة إلى الضبط الدقيق. النموذج مفتوح المصدر ، ويتم توفير العديد من أحجام الوزن للجمهور. المحول هو نموذج نموذجي لجهاز التشفير وفك التشفير. أولاً ، يتم تحويل التسجيلات الصوتية من مهام التعرف على الكلام المختلفة إلى مخططات طيفية لوغاريتم ميل ، وهي تمثيلات صوتية في مجال اتساع التردد الزمني ، مع ترددات مسجلة في ميلز ، وهو مقياس لوغاريتمي يهدف إلى تكرار إدراك الإنسان للنغمة. بعد ذلك ، يتم استخدام الالتواء أحادي البعد باستخدام GELU لتحقيق تقليل الأبعاد على مخططات الطيف.

لضمان قياس الميزات المختلفة بالتساوي ولتحسين توحيد مشهد الخسارة ، يتم دائمًا توحيد المدخلات إلى متوسط ​​0 وتباين الوحدة. بينما تقوم GELU بالتسرب العشوائي ، مما يزيد من احتمال حذف المدخلات مع قطرات x ، يقوم ReLU بإجراء التسرب x0. يتم ترميز المدخلات موضعيًا ، ويتم نقلها من خلال مكدس تشفير المحولات ، ثم يتم استخدام التمثيل الذي تم إنشاؤه لتكييف وحدة فك ترميز الانحدار التلقائي. تتم الإشارة إلى بداية المهمة ونهايتها ، ونوع المهمة ، وما إذا كان الكلام مدرجًا في الإدخال أم لا ، ومعلومات الطابع الزمني ، والتفاصيل الأخرى جميعها بواسطة رموز مميزة فريدة في بداية عملية فك التشفير.

يستخدم المؤلفون العديد من الاستراتيجيات لمنع تكرار حلقات التكرار أثناء استخدام فك التشفير الجشع لأخذ عينات من المخرجات ، مثل البدء من درجة الحرارة 0 وزيادتها تدريجياً إذا كانت إنتروبيا الرموز المولدة منخفضة للغاية (يجب أن يخبرهم أحدهم عن أخذ العينات النموذجي).

قرر المؤلفون البحث عن أي بيانات ASR يمكنهم العثور عليها ، مع التركيز على طرق المعالجة المسبقة للبيانات لأنه من الصعب الحصول على بيانات الترجمة التي تم التحقق من صحتها وإشراف الإنسان عليها. وشملت هذه الأساليب الاستدلالية لتحديد واستبعاد الترجمات التي تنتجها الآلات ، مثل عدم وجود علامات الترقيم أو استخدام جميع الأحرف الاستهلالية. لضمان التطابق بين النص واللغة الصوتية ، نشر الباحثون أيضًا أداة كشف اللغة. لتحديد نقاط البيانات ذات معدل الخطأ المرتفع ومراجعتها يدويًا وحذف القيم المتطرفة المحتملة ، قاموا أولاً بتدريب نموذج على البيانات. كانت مجموعة البيانات أكبر بمرتبتين من مجموعات بيانات ASR الخاضعة للإشراف سابقًا بإجمالي 680.000 ساعة. تم نشر أوزان النموذج ورمزه ، ومع ذلك ، لم يتم نشر مجموعة البيانات هذه.

ينتقد المؤلفون مقياس معدل خطأ الكلمة (WER) ، الذي يعاقب أي تباين بين ناتج النموذج والحقيقة الأساسية. نحن مهتمون بالعيوب الدلالية ، وليس كل هذه الاختلافات الأسلوبية. لتوحيد استخدام الكلمات وتقليل WER ، أنشأ الكتاب العديد من القواميس. القوة الفعالة هي عامل آخر يستخدم لقياس أداء النموذج. المتانة الفعالة هي المتانة مقارنة بنموذج آخر ، والمتانة تقيّم مدى نجاح النموذج في التعميم على مجموعات البيانات خارج التوزيع. عندما يتم وضع Whisper و wav2vec جنبًا إلى جنب ، نكتشف أن Whisper يتمتع بمتانة فعالة أعلى ، وفي المتوسط ​​، يرتكب أخطاء أقل بنسبة 55٪.

وفقًا لمبادئ التحجيم التي وضعها المؤلفون ، ينخفض ​​WER بمقدار النصف مقابل كل زيادة بمقدار 16 ضعفًا في بيانات التدريب. يجب أن نتوقع الأداء الخارق لـ ASR في الجيل القادم من الطرز إذا كان هذا هو الحال. عادةً ما يكون أداء اللغات غير الهندو أوروبية أسوأ ، مع كون الويلزية (CY) أيضًا خارجة على الرغم من مزاعم أنها تدربت على 9000 ساعة من بيانات الترجمة. ومع ذلك ، لا ينطبق هذا الاتجاه على جميع اللغات. مع اقتراب WER من مستويات SR البشرية ، ينتج عن معلمات نموذج القياس تناقص العوائد.

يستخدم مترجم الكلام Whisper من OpenAI عددًا كبيرًا من تقنيات البيانات وفك التشفير لتحقيق ترجمة الكلام على المستوى البشري والتعرف عليه. لا يزال يتعين الإجابة على السؤال حول ما إذا كانت خوارزميات ASR المستقبلية ستتفوق على البشر في السنوات القليلة المقبلة.

أصبح التعرف التلقائي على الكلام سهلاً مع ظهور OpenAI’s Whisper لأول مرة في Analytics Insight.

اظهر المزيد
زر الذهاب إلى الأعلى