بسم الله الرحمن الرحيم

مقدمة

شهدنا جميعاً في السنتين الماضيتين قدرة أدوات الذكاء الاصطناعي الحديثة على نفع البشر في مهام عديدة، أولها الكتابة. بين طالبٍ يطلب من تشاتجبت - ChatGPT كتابة واجبه عنه وباحث يستعمله لكتابة الأوراق العلمية، يتساءل البعض عن أمان استعمالها لهذه الأغراض، أي سهولة اكتشافها من عدمه. قد تظنّ اكتشافها هيّناً وأن الأدوات اللازمة لذلك موجودة، لكن سأخبرك شيئين عن هذه المسألة: الأول، أن الأدوات الموجودة دقّتها منخفضة، فيخفى عليها الكثير من النصوص التي أنتجها الذكاء الاصطناعي. الثاني هو ولأن دقتها منخفضة تخال كثيراً من نصوص البشر من نتاج الآلة. هل ستكشفك هذه الأدوات إن استعملت تشاتجبت؟ ربما. هل ستكشفك هذه الأدوات لو لم تستعمل تشاتجبت؟ ربما!

كيف تكتب الآلة

لنفهم إن كان بالإمكان التفريق بين كتابة الآلة وكتابة البشر من المفيد النظر في عمل نماذج اللغة - LLM، نظرةً بسيطة لن تُثقل عليك إن شاء الله حتى لو لم تكن من أهل المجال. الطريقة المُثلى حالياً لتدريب نماذج اللغة هي توقع الكلمة التالية في نصوصٍ كثيرة، وتصحيح توقعات النموذج الخاطئة حتى يتعلم إنتاج تلك النصوص بنفسه. فإن أخذنا صفحة ويكيبيديا مثلاً تبدأ بـ"السمك يعيش في البحر…"، يجب أن يتعلم النموذج توقّع كلمة “البحر” عند الحديث عن بيئة السمك (الكلمتان “السمك” و"يعيش").

هذه الطريقة، على نجاعتها العجيبة، هي في الآن ذاته من أكبر عيوب نماذج اللغة. نماذج اللغة نماذج احتمالات، أي أنها ترجّح كلمةً ما حسب الكلمات التي سبقتها، فإن رأت كلمة “سمك” يصبح من الراجح أن تُتبعها بكلمة “بحر” أو “ماء”، ثم تُتبعها بالكلمة ذات الاحتمالية الأعلى، وهكذا حتى تُنهي الجملة أو النص. الإنسان لا يكتب هكذا. أنا لا أصفّ الكلمات صفّاً حسب احتمالاتها عندما أكتب، وهناك درجةٌ من العشوائية في كلامي لن تجدها في الذكاء الاصطناعي. الآلة لا تعرف الصدفة.

رسم بياني للاحتمالات في نصوص البشر(يمين) ونصوص الآلة(يسار). الكلمة عندما يكتبها الإنسان ليست عادةً هي الأرجح، كما هو الحال في نصوص الآلة. ( Citation: , & al., , , , & (). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. Retrieved from https://arxiv.org/abs/2301.11305 )

بل من المعايير التي تُقاس عليها نماذج اللغة هو الارتباك - Perplexity، أي مدى تأكدها من الكلمة التي تتوقعها تالياً. طبعاً هذا لا يبعد عن كونه شكلاً آخر عمّا وصفت في الفقرة السابقة، فكلّما كان احتمال الكلمة أكبر، كان النموذج واثقاً أكثر بصحّتها. عن نفسي أشكّ في كون هذا المعيار هو الأنسب، وسأعطيك مثالاً بسيطاً: لو طلبت منّي تدريب نموذج يتوقّع حسب بيانات المريض كونه “مصاباً” أم “معافىً” من السرطان، وجئتك بنموذجٍ لا يجيبك إلا بـ"معافىً" مهما أريته، ستكون إجابته صحيحةً في أكثر من 99% من الحالات! أغلب البشر ليس بهم سرطان، لذا احتمالية “معافى” عالية وارتباك هذا النموذج منخفض. لكن ما علينا، هذا ليس موضوعنا الآن. الشاهد أن اختيار الكلمات ذات الاحتمال المرتفع هو ما تترصّده كثيرٌ من أدوات كشف الذكاء الاصطناعي.

ارتفاع ملحوظ في استعمال كلمات معينة في الأوراق البحثية من عام 2024، غالباً بسبب استعمال الذكاء الاصطناعي في كتابتها أو مراجعتها. ( Citation: , & al., , , , , , , , , , , & (). Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews. Retrieved from https://arxiv.org/abs/2403.07183 )

أدوات كشف الذكاء الاصطناعي الحالية

بالمجمل، هذه الأدوات أربع أصناف: ما يحسب الارتباك مباشرةً ويحكم بناءً عليه وهذا الصنف الأضعف مثل GPTZero، ما يستعمل عدة نماذج لغة أخرى للحكم على النص مثل Ghostbuster ( Citation: , & al., , , & (). Ghostbuster: Detecting Text Ghostwritten by Large Language Models. Retrieved from https://arxiv.org/abs/2305.15047 ) ، يتعلم من أمثلةٍ عدة من نصوص بشرية ونصوص آلية للتفريق بينها ( Citation: , & al., , , , , , , & (). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection. Retrieved from https://arxiv.org/abs/2301.07597 ) ، أو ما يجمع بين هذا وذاك مثل Binoculars ( Citation: , & al., , , , , , , & (). Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text. Retrieved from https://arxiv.org/abs/2401.12070 ) وهو الأفضل حالياً. لكن من السهل خداع هذه الأدوات، فمثلاً يمكنني الطلب من نموذج اللغة عدم اختيار الكلمات الأرجح دوماً، أي مرةً الأرجح، مرةً ثالث أرجح كلمة، مرةً خامس أرجح كلمة وهكذا. بل يمكنني حتى الطلب من نموذج اللغة الكتابة بأسلوب أغرب قليلاً فتصعُب تمييز كتابته على هذه الأدوات.

عيوب هذه الأدوات بأنواعها لا تتوقف عند إمكانية خداعها، فأخطاءُها كثيرة. غالباً مرّ عليك خبرٌ أو تغريدة عن طالب رسب ظلماً لأن أداة كشف قررت أن واجبه الذي كتبته بيده كان من كتابة الآلة. احتمالية تصنيف كتابتك على أنها نتاج الآلة ترتفع إن كنت لست من أهل تلك اللغة (ربما لأنّ ما تكتبه بلغة أجنبية ليس سلساً أو طبيعياً)، وبالمثل تنخفض دقة هذه الأدوات عند وجود أخطاء كتابية في النص ( Citation: , & al., , , , , , & (). GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education. Retrieved from https://arxiv.org/abs/2403.19148 ) . أجمع علماء الذكاء الاصطناعي على أنّ هذه الأدوات لا يُعتمد عليها، ومن الظلم استعمالها لتقرير مصير الناس.

خاتمة

ما دفعني لكتابة هذه التدوينة هو أولاً عملي على مشروعٍ قريبٍ من موضوعها، وثانياً أن عدداً من معارفي سألني عن استعمال الذكاء الاصطناعي أو حتى التصحيح التلقائي في كتابة البحوث وغيرها، خائفين من رفض عملهم بحجة استعمال الذكاء الاصطناعي. إن كنت تسأل نفسك السؤال ذاته وتبحث عن حل، فجوابي أنّه للأسف لا حل، إن كانت الجامعة أو المدرسة التي ترتادها تستعمل أداة كشف، أيّاً كانت، فأخطاءُها كثيرة، والظلم وارد. لكن لطمأنتك قليلاً، أنصحك بتمرير ما تكتب قبل تسليمه على هذه الأدوات الثلاث أو بعضها إن استطعت حتى تتأكد، وتعدّل كتابتك إن لزم:

وربما ساعدتك المصادر التي أوردتها في المحاججة إن حصل ووقع الظلم.

المراجع

Guo, Zhang, Wang, Jiang, Nie, Ding, Yue & Wu (2023)
, , , , , , & (). How Close is ChatGPT to Human Experts? Comparison Corpus, Evaluation, and Detection. Retrieved from https://arxiv.org/abs/2301.07597
Hans, Schwarzschild, Cherepanova, Kazemi, Saha, Goldblum, Geiping & Goldstein (2024)
, , , , , , & (). Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text. Retrieved from https://arxiv.org/abs/2401.12070
Liang, Izzo, Zhang, Lepp, Cao, Zhao, Chen, Ye, Liu, Huang, McFarland & Zou (2024)
, , , , , , , , , , & (). Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews. Retrieved from https://arxiv.org/abs/2403.07183
Mitchell, Lee, Khazatsky, Manning & Finn (2023)
, , , & (). DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. Retrieved from https://arxiv.org/abs/2301.11305
Perkins, Roe, Vu, Postma, Hickerson, McGaughran & Khuat (2024)
, , , , , & (). GenAI Detection Tools, Adversarial Techniques and Implications for Inclusivity in Higher Education. Retrieved from https://arxiv.org/abs/2403.19148
Verma, Fleisig, Tomlin & Klein (2023)
, , & (). Ghostbuster: Detecting Text Ghostwritten by Large Language Models. Retrieved from https://arxiv.org/abs/2305.15047