Home تقنية الواجهة التي ترفض مقابلتك في منتصف الطريق: Plivo حول سبب كون الذكاء...

الواجهة التي ترفض مقابلتك في منتصف الطريق: Plivo حول سبب كون الذكاء الاصطناعي الصوتي مشكلة مختلفة تمامًا | itg-ar.com

4
0
الواجهة التي ترفض مقابلتك في منتصف الطريق: Plivo حول سبب كون الذكاء الاصطناعي الصوتي مشكلة مختلفة تمامًا
| itg-ar.com

الواجهة التي ترفض مقابلتك في منتصف الطريق: Plivo حول سبب كون الذكاء الاصطناعي الصوتي مشكلة مختلفة تمامًا

فكر في آخر مرة استخدمت فيها Instagram أو chatbot أو ماكينة الصراف الآلي. لقد تعلمت الواجهة. لقد اكتشفت مكان النقر وماذا تكتب وكيفية صياغة استفسارك. تحدد الآلات الشروط، ويتكيف البشر. لقد صمدت هذه الصفقة لعقود من الزمن، وهذا هو السبب وراء اكتشاف والديك في النهاية كيفية مشاركة البكرات. قال أيوش أناند، رئيس قسم صوت المنتج في Plivo، في DevSparks Bengaluru 2026: “إننا نتحدث مع بعضنا البعض منذ آلاف السنين. في هاتين الواجهتين، يجب على الذكاء الاصطناعي أن يتكيف مع البشر، والطريقة التي نتحدث بها بلغاتنا، ونمزج الرموز، ونتوقف، ونفكر، ونفكر.” إن الانقلاب، كما يبدو بسيطًا، هو ما يجعل الذكاء الاصطناعي الصوتي واحدًا من أكثر الحدود تطلبًا من الناحية التقنية في هذا المجال في الوقت الحالي. أوضح حديث أيوش السريع في قمة مطوري YourStory الرئيسية السبب الدقيق وما يلزم لبناء بنية تحتية قادرة على مواجهة هذا التحدي. فجوة التسامح افتتح أيوش بمقارنة وصلت على الفور. إذا استغرق برنامج الدردشة الآلي خمس ثوانٍ للرد على “أين طلبي”، فلن تلاحظ ذلك تقريبًا. ضع نفس التأخير على مكالمة هاتفية، وستشعر بالإحباط بالفعل عند علامة الثانية الثانية. كما أن مخاطر المنعطف السيئ الواحد أعلى بما لا يقاس على الصوت. واجهة الدردشة تظهر لك أخطائها على الشاشة، مما يتيح لك فرصة لتصحيح المسار. أثناء المكالمة، قد لا تدرك حتى أن الوكيل قد أخطأ في فهمك. قال عيوش: “إن الأمر يسير من تلقاء نفسه، وأنت لا تعرف حتى”. واستخدم مثالاً واضحًا: كلمة مومباي. شائعة، وممثلة بشكل جيد في بيانات التدريب، ولا تزال النماذج الصوتية تخطئ في فهمها على أنها شيء آخر تمامًا. وقال: “فكر في جميع الأسماء والأماكن المثيرة للاهتمام الموجودة في الهند”. التعقيد المركب في الهند إذا كان الذكاء الاصطناعي الصوتي صعبًا في كل مكان، فإن الهند تجعله أكثر صرامة من الناحية الهيكلية. وأشار أيوش إلى 22 لغة رسمية، حيث أن ما يقرب من 60% من المكالمات تكون مختلطة بالرموز، أو التبديل بين الإنجليزية والهندية، أو التاميلية، أو البنغالية، أو في بعض الأحيان اللغات الثلاث في جملة واحدة. ويتم تدريب معظم النماذج العالمية في الغالب على اللغة الإنجليزية. وقال أيوش إن اللغة الهندية لديها بعض التمثيل، ولكن بالنسبة للغات مثل الأوديا أو تلك المستخدمة في شمال شرق الهند، فإن “البيانات لا تكاد تكون موجودة”. وهذا الغياب ليس فجوة تدفع المهندسين إلى سدها. سبعة نماذج، 750 مللي ثانية، أبعد من اللغة، هناك مشكلة الهندسة المعمارية. ما يبدو وكأنه تفاعل صوتي واحد هو في الواقع سلسلة من سبعة نماذج منفصلة، ​​كل منها يعمل في الوقت الفعلي، وغالبًا ما يكون على خوادم مختلفة عبر مناطق جغرافية مختلفة. هناك عزل للضوضاء، وتجريد الهاتف من الرنين أو طفل يبكي لعزل الصوت الأساسي. هناك ميزة اكتشاف الدور، وهي قدرة النموذج على التعرف على أنك انتهيت من التحدث. هناك تحويل الكلام إلى نص، ونموذج اللغة، وتحويل النص إلى كلام، وأكثر من ذلك. وقال أيوش: “يجب معالجة كل هذه الطبقات الست أو السبع في الوقت الفعلي، وكل هذا يجب أن يحدث في غضون 750 مللي ثانية”. وقال: “إذا كانت جميع هذه النماذج دقيقة بنسبة 99%، في المتوسط، فإن خط الأنابيب بأكمله دقيق بنسبة 93% فقط”. للمقارنة، يقوم وكيل الدردشة بتشغيل أحد هذه النماذج تقريبًا. يتم تشغيل الصوت عبر سبعة أجهزة. نماذج تحويل الكلام إلى كلام، والتي يمكن أن تدمج السلسلة بأكملها في نظام واحد وتخفض زمن الوصول بشكل كبير، تلوح في الأفق. وقال عيوش “لكن الأمر سيستغرق بعض الوقت”. “النماذج ليست جاهزة بعد.” وأوضح أيوش أن Plivo يناسبها، حيث كانت Plivo عبارة عن بنية تحتية للصوت قبل وقت طويل من دخول الذكاء الاصطناعي إلى الصورة، حيث تعمل على تشغيل مراكز الاتصال وأنظمة توجيه المكالمات وراء تطبيقات التجارة السريعة. وهي الآن توفر نفس النظام الأساسي للمطورين للتعبير عن الذكاء الاصطناعي، مما يسمح للفرق بالربط بين اختياراتهم لموفري STT وTTS وLLM من خلال طبقة واحدة، أو بناء نماذجهم الخاصة داخليًا في حالة وجود بيانات كافية. بالنسبة للفرق التي ترغب في التحرك بشكل أسرع، يسمح الوكلاء المُدارون للمُنشئين بدعم وكيل صوتي من خلال الموجه وحده، وإنشاء النماذج الأولية والتكرار دون دورات تطوير كاملة. وأشار أيوش إلى أن المنصة مصممة للمطورين باعتبارهم المستخدم الأساسي، ولكنها تستوعب أيضًا الفرق غير التقنية التي تحتاج إلى إنشاء وكلاء وإدارتهم دون كتابة التعليمات البرمجية. اختتمت الجلسة بعرض توضيحي مباشر لوكيل تذكير بمواعيد العيادة، وهي حالة استخدام بسيطة عن عمد حرص أيوش على عدم تقديمها كممثل. تنطوي المكالمات الحقيقية على الإحباط والقلق ونوع السلوك البشري غير المكتوب الذي يختبر الضغط على كل طبقة من المكدس. تم توجيه الفرق التي ترغب في رؤية كيف يبدو الذكاء الاصطناعي الصوتي على مستوى الإنتاج عمليًا إلى جناح Plivo خارج القاعة الرئيسية، حيث تم تقديم عروض توضيحية حية لحالات الاستخدام التي تم حلها.


تم النشر: 2026-06-09 13:28:00

مصدر: yourstory.com