
يشهد العالم ظهور جيل جديد من روبوتات خدمة العملاء الصوتية، مدفوعاً بالتطورات في مجال الذكاء الاصطناعي وتدفق الاستثمارات الضخمة. تتم ترقية برامج الصوت الآلية من الأنظمة التقليدية التي تتميز بقلة أو انعدام الذكاء الاصطناعي إلى نماذج أحدث للتحويل من الكلام إلى نص ومن النص إلى كلام، مُدمجة مع نماذج لغة كبيرة.
إذا وفّت هذه التقنية بوعودها، فقد يُحسّن هذا التحول تجربة العملاء في مجموعة من الشركات ويُقلل من تكاليفها في نفس الوقت. لكن توجد أيضاً أسئلة حول مستوى راحة المستهلكين مع هذه التقنية، وكيفية منع الذكاء الاصطناعي من تقديم معلومات خاطئة.
تستخدم eHealth، منصة التأمين، وكلاء صوت مدعومين بالذكاء الاصطناعي للتعامل مع الفحص الأولي للعملاء المحتملين عندما لا يتمكن موظفوها البشريون من مواكبة حجم المكالمات، وكذلك بعد ساعات العمل.
قال كيتان باباريا، المدير الرقمي الرئيسي في eHealth، إن الشركة أصبحت أكثر راحةً في استخدام وكلاء الصوت المدعومين بالذكاء الاصطناعي مع تحسن التكنولوجيا الأساسية. وأضاف: “لاحظنا فجأة أن هؤلاء الوكلاء أصبحوا أشبه بالبشر. لقد وصل الأمر إلى نقطة لا يستطيع فيها عملاؤنا التمييز بين الاثنين”.
يحدث هذا التحول بشكل أسرع مما توقعه الكثيرون.
قال توم كوشو، محلل في شركة Gartner لأبحاث السوق واستشارات تكنولوجيا المعلومات: “لدينا وكلاء صوت مدعومون بالذكاء الاصطناعي يمكنك مقاطعتهم، والذين يُقدمون اقتراحات منطقية بشكلٍ استباقي، ولا يوجد تقريباً أي تأخير في المحادثة. هذا تغيير كنت أعتقد أنه سيحدث بعد عام ونصف أو عامين من الآن”.
هذا، بالإضافة إلى المزيد من رؤوس الأموال المُغامرة لشركات ناشئة تُنشئ تقنية ذكاء اصطناعي صوتية، يُؤدي إلى قيام المزيد من الشركات بنشرها في مراكز الاتصال الخاصة بها، وأتمتة مكالمات المبيعات وتحديد المواعيد في مجالات مثل خدمات المنازل والرعاية الصحية. تتوقع Gartner أن تكون إمكانيات الذكاء الاصطناعي التوليدي، من الصوت إلى الدردشة، موجودة في 75% من مراكز الاتصال الجديدة بحلول عام 2028.
وفقاً لبيانات من CB Insights، زادت استثمارات رأس المال المُغامر في شركات ناشئة لذكاء اصطناعي صوتي من 315 مليون دولار في عام 2022 إلى 2.1 مليار دولار في عام 2024.
يقول مؤسسو الشركات الناشئة وخبراء رأس المال المُغامر إن بعض نماذج الذكاء الاصطناعي الرائدة لتطبيقات الصوت تأتي من مختبرات ذكاء اصطناعي مثل OpenAI و Anthropic، بالإضافة إلى لاعبين أصغر مثل Deepgram و Assembly AI، الذين حسّنوا نماذجهم للتحويل من الكلام إلى نص أو من النص إلى كلام على مدار السنوات القليلة الماضية. على سبيل المثال، يُعتبر نموذج Whisper من OpenAI نموذجاً مُخصصاً للتحويل من الكلام إلى نص، ويمكن لنموذج GPT-4o التفاعل مع الأشخاص صوتياً في الوقت الفعلي.
(تملك News Corp، مالكة صحيفة وول ستريت جورنال، شراكة ترخيص محتوى مع OpenAI).
يقول المحللون إن العديد من أنظمة الهاتف الموجودة، المُسماة الاستجابة الصوتية التفاعلية أو IVR، تعود إلى عقود مضت، وهي جامدة وغالبًا لا تفهم نية الشخص في الطرف الآخر من الخط. كما أنها تفتقر إلى القدرة على قول أشياء غير مُخطّطة لها مُرتبطة بسياق المحادثة.
قال مايك درويش، شريك في Bessemer Venture Partners، الذي يستثمر في تقنية الذكاء الاصطناعي الصوتية، إن النماذج الأحدث المُدمجة بالذكاء الاصطناعي يمكنها فهم مجموعة أوسع من الكلمات.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.