بإمكان ChatGPT الآن الرد بالكلمات المنطوقة

Brahim Dodouche25 سبتمبر 2023

لقد تعلم ChatGPT التحدث.

أصدرت شركة OpenAI، وهي شركة ناشئة في مجال الذكاء الاصطناعي في سان فرانسيسكو، نسخة من برنامج الدردشة الآلي الشهير الخاص بها يوم الاثنين والذي يمكنه التفاعل مع الأشخاص باستخدام الكلمات المنطوقة. كما هو الحال مع Alexa من Amazon، وSiri من Apple، والمساعدين الرقميين الآخرين، يمكن للمستخدمين التحدث إلى ChatGPT وسوف يرد عليك.

ولأول مرة، يستطيع ChatGPT أيضًا الرد على الصور. يمكن للأشخاص، على سبيل المثال، تحميل صورة للجزء الداخلي من ثلاجتهم، ويمكن لروبوت الدردشة أن يقدم لهم قائمة بالأطباق التي يمكنهم طهيها باستخدام المكونات الموجودة لديهم.

قال بيتر دينج، نائب رئيس OpenAI للمنتجات الاستهلاكية والمؤسساتية: “إننا نتطلع إلى جعل ChatGPT أسهل في الاستخدام – وأكثر فائدة”.

قامت OpenAI بتسريع إصدار أدوات الذكاء الاصطناعي الخاصة بها في الأسابيع الأخيرة. وفي هذا الشهر، كشفت النقاب عن نسخة من مولد الصور DALL-E الخاص بها وأدمجت الأداة في ChatGPT.

اجتذب ChatGPT مئات الملايين من المستخدمين بعد طرحه في نوفمبر، وسرعان ما أطلقت العديد من الشركات الأخرى خدمات مماثلة. مع الإصدار الجديد من الروبوت، تتخطى OpenAI روبوتات الدردشة المنافسة مثل Google Bard، بينما تتنافس أيضًا مع التقنيات القديمة مثل Alexa وSiri.

لقد وفرت Alexa وSiri منذ فترة طويلة طرقًا للتفاعل مع الهواتف الذكية وأجهزة الكمبيوتر المحمولة والأجهزة الأخرى من خلال الكلمات المنطوقة. لكن روبوتات الدردشة مثل ChatGPT وGoogle Bard تتمتع بمهارات لغوية أكثر قوة، كما أنها قادرة على كتابة رسائل البريد الإلكتروني والشعر والمقالات البحثية على الفور، كما أنها تناقش أي موضوع يطرح في طريقها تقريبًا.

لقد جمعت OpenAI بشكل أساسي بين طريقتي الاتصال.

ترى الشركة أن التحدث هو وسيلة أكثر طبيعية للتفاعل مع برنامج الدردشة الآلي الخاص بها. وتجادل بأن الأصوات الاصطناعية في ChatGPT – حيث يمكن للأشخاص الاختيار من بين خمسة خيارات مختلفة، بما في ذلك أصوات الذكور والإناث – أكثر إقناعًا من الأصوات الأخرى المستخدمة مع المساعدين الرقميين المشهورين.

وقالت الشركة إنه خلال الأسبوعين المقبلين، سيبدأ الإصدار الجديد من برنامج الدردشة الآلي في طرحه لكل من يشترك في خدمة ChatGPT Plus، وهي خدمة تكلف 20 دولارًا شهريًا. لكن الروبوت يمكنه الاستجابة بالصوت فقط عند استخدامه على أجهزة iPhone وiPad وAndroid.

تعد الأصوات الاصطناعية للروبوت أكثر طبيعية من العديد من الأصوات الأخرى الموجودة في السوق، على الرغم من أنها لا تزال قادرة على إصدار صوت آلي. مثل المساعدين الرقميين الآخرين، يمكن أن يواجه صعوبة في استخدام المرادفات. عندما سألت صحيفة نيويورك تايمز برنامج ChatGPT الجديد عن كيفية تهجئة كلمة “gym”، أجابت: “JIM”.

لكن إحدى مزايا برنامج الدردشة الآلي مثل ChatGPT هو أنه يمكنه تصحيح نفسه. وعندما قيل له “لا، هذا النوع الآخر من صالة الألعاب الرياضية”، أجاب الروبوت: “آه، أفهم ما تشير إليه الآن. المكان الذي يمارس فيه الناس التمارين ويمارسون الرياضة يُكتب GYM.”

على الرغم من أن واجهة ChatGPT الصوتية تذكرنا بالمساعدين السابقين، إلا أن التكنولوجيا الأساسية مختلفة تمامًا. يتم تشغيل ChatGPT بشكل أساسي بواسطة نموذج لغة كبير، أو LLM، والذي تعلم كيفية إنشاء لغة بسرعة من خلال تحليل كميات هائلة من النصوص المنتقاة عبر الإنترنت.

كان المساعدون الرقميون الأقدم، مثل Alexa وSiri، يعملون مثل مراكز القيادة والتحكم التي يمكنها أداء عدد محدد من المهام أو تقديم إجابات لقائمة محدودة من الأسئلة المبرمجة في قواعد بياناتهم، مثل “Alexa، قم بتشغيل الأضواء” أو “ما هو الطقس في كوبرتينو؟” قد تستغرق إضافة أوامر جديدة إلى المساعدين الأقدم أسابيع. يمكن لـ ChatGPT الرد بشكل موثوق على أي سؤال يتم طرحه عليه في ثوانٍ – على الرغم من أنه ليس صحيحًا دائمًا.

وبينما تعمل شركة OpenAI على تحويل ChatGPT إلى شيء أشبه بـ Alexa أو Siri، تعمل شركات مثل Amazon وApple على تحويل مساعديها الرقميين إلى شيء أشبه بـ ChatGPT.

في الأسبوع الماضي، قامت أمازون بمعاينة نظام محدث لـ Alexa الذي يهدف إلى إجراء محادثة أكثر مرونة حول “أي موضوع”. وقالت الشركة إنها مدفوعة جزئيًا بشهادة LLM جديدة ولديها ترقيات أخرى للإيقاع والتنغيم لجعلها تبدو أكثر طبيعية.

Apple، التي لم تعلن علنًا عن خططها لكيفية التنافس مع ChatGPT، تختبر نموذجًا أوليًا لنموذج اللغة الكبير الخاص بها للمنتجات المستقبلية، وفقًا لشخصين مطلعين على المشروع.

عند استخدامه عبر الويب وكذلك على أجهزة iPhone وiPad وAndroid، يمكن لـ ChatGPT الجديد أيضًا الاستجابة للصور. بالنظر إلى صورة فوتوغرافية أو مخطط أو رسم تخطيطي، يمكنه تقديم وصف تفصيلي للصورة والإجابة على الأسئلة حول محتوياتها. قد تكون هذه أداة مفيدة للأشخاص ضعاف البصر.

وأظهرت شركة OpenAI أداة الصور لأول مرة في الربيع، لكن الشركة قالت إنها لن تتم مشاركتها مع الجمهور حتى يفهم الباحثون بشكل أفضل كيف يمكن إساءة استخدام التكنولوجيا. ومن بين المخاوف الأخرى، أعربوا عن قلقهم من أن الأداة قد تصبح خدمة للتعرف على الوجوه بحكم الأمر الواقع تستخدم للتعرف بسرعة على الأشخاص في الصور.

مايكروسوفت قدَّم هذا النوع من أدوات البحث المرئي، المستندة إلى تقنية OpenAI، في برنامج Bing chatbot الخاص بها خلال الصيف.

وقالت ساندهيني أغاروال، الباحثة في OpenAI والتي تركز على السلامة والسياسة، إن النسخة الجديدة من الروبوت سترفض الآن الجهود المبذولة للتعرف على الوجوه. ولكنه مصمم لتقديم أوصاف مفصلة للغاية للصور الأخرى. بالنظر إلى صورة من تلسكوب هابل الفضائي، على سبيل المثال، يمكنه الاستجابة بفقرات توضح بالتفصيل محتويات الصورة.

يمكن أن يكون الروبوت أيضًا أداة للطلاب. بالنظر إلى صورة لمسألة رياضية في المدرسة الثانوية تتضمن كلمات وأرقام ورسوم بيانية، يمكن للروبوت قراءة المشكلة وحلها على الفور. يمكن أن تكون طريقة فعالة للتعلم أو الغش.

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *


شروط التعليق :

عدم الإساءة للكاتب أو للأشخاص أو للمقدسات أو مهاجمة الأديان أو الذات الالهية. والابتعاد عن التحريض الطائفي والعنصري والشتائم.

الاخبار العاجلة