دراسة: معظم مستخدمي الإنترنت لا يفرقون بين البشر وروبوتات الدردشة

منذ 5 شهور
دراسة: معظم مستخدمي الإنترنت لا يفرقون بين البشر وروبوتات الدردشة

أظهرت دراسة جديدة أن أدوات الذكاء الاصطناعي الشائعة مثل GPT-4 تولد نصوصًا تشبه النصوص البشرية وتؤدي أداءً جيدًا للغاية في المهام اللغوية المختلفة، حيث أصبح من الصعب بشكل متزايد معرفة ما إذا كان الشخص الذي تتحدث إليه إنسانًا أم روبوت دردشة.

Dieses Szenario spiegelt das Gedankenexperiment des berühmten Mathematikers Alan Turing wider, der einen Test entwickelte, um zu bewerten, ob eine Maschine menschenähnliches Verhalten zeigen kann, bis zu dem Punkt, an dem Menschen allein aufgrund ihrer Reaktionen nicht mehr klar zwischen ihr und einer Maschine unterscheiden مقدرة.

وبحسب الدراسة، قرر قسم العلوم المعرفية في جامعة كاليفورنيا سان دييغو معرفة مدى التقدم الذي أحرزته أنظمة الذكاء الاصطناعي الحديثة من خلال إجراء دراسة تم فيها استخدام ثلاث منصات للذكاء الاصطناعي لإجراء محادثات مع مجموعة من المشاركين اختبار قدرتهم على التمييز بين إخطار البشر أو الأنظمة الروبوتية.

تضمنت المنصات الثلاث روبوت الدردشة ELIZA، وهو روبوت دردشة بسيط قائم على القواعد من الستينيات والذي تم تضمينه كمرجع في التجربة، ونموذجي GPT-3.5 وGPT-4.

واعتمد الاختبار على إجراء محادثة نصية لمدة خمس دقائق مع مجموعة من الأشخاص لا يعرفون من هم، ومن ثم يتعين عليهم تحديد ما إذا كان محاورهم إنسانًا أم روبوتًا.

أظهر المجربون لنموذجي GPT-4 وGPT-3.5 كيفية الرد على الرسائل و”تبني شخصية شاب يستخدم اللغة العامية ويرتكب أحيانًا أخطاء إملائية عند الكتابة”.

بالإضافة إلى ذلك، تضمنت التعليمات “معلومات عامة حول إعداد اللعبة ومعلومات حول الأخبار الأخيرة التي ظهرت بعد الانتهاء من التدريب النموذجي”.

خلال الدراسة، تم تقسيم 500 مشارك إلى خمس مجموعات وأجروا محادثة مع إنسان أو مع أحد أنظمة الذكاء الاصطناعي الثلاثة.

تتميز واجهة اللعبة بتصميم مشابه لتطبيقات المراسلة الشائعة. وبعد الانتهاء من التجربة لمدة خمس دقائق، حكم المشاركون على ما إذا كانوا يعتقدون أن الشخص الذي يتحدثون إليه هو إنسان أو ذكاء اصطناعي وقدموا أسبابًا لقراراتهم.

وكانت النتائج مثيرة للاهتمام. صنف المشاركون منصة GPT-4 على أنها إنسانية خلال التجربة بنسبة 54%، متقدمة على GPT-3.5 التي حصلت على 50%. وقد تفوق كلاهما بشكل ملحوظ على ELIZA، التي حققت 22%. ، ولكن جميعها لم تصل إلى مستوى الأشخاص الحقيقيين بنسبة 67%.

وأظهرت تحليلات النتائج أن المشاركين اعتمدوا في كثير من الأحيان على أسلوب اللغة والعوامل الاجتماعية والعاطفية والأسئلة المعرفية لتحديد ما إذا كانوا يتحدثون إلى إنسان أو إلى آلة.

المصدر: وكالات


شارك