ओपनईचे ओ 3, गूगलचे मिथुन 2.5 प्रो, अँथ्रोपिकचे क्लॉड ऑपस 4 आणि दीपसीक-आर 1 हे लोकप्रिय रणनीती गेम डिप्लोमसी खेळणार्या 18 कृत्रिम बुद्धिमत्ता (एआय) मॉडेलपैकी एक होते. एआय संशोधकाने गेममध्ये सुधारणा केली जेणेकरून लोकप्रिय मोठ्या भाषेचे मॉडेल (एलएलएम) गेम खेळू शकतील ज्यासाठी उच्च-स्तरीय तर्क आणि बहु-चरण विचारांची आवश्यकता आहे, इतर सामाजिक कौशल्यांसह. प्रयोगादरम्यान, संशोधकास असे आढळले की ओ 3 विशेषतः फसवणूक आणि विश्वासघातामध्ये पारंगत आहे, तर क्लॉड ऑपस 4 शांततापूर्ण ठराव शोधण्यात अधिक निश्चित होते.
प्रयोगामागील कारण
अॅलेक्स डफी, ए.आय. चे प्रमुख, एक वृत्तपत्र प्लॅटफॉर्म, कल्पना घेऊन आली एआय मॉडेल्स इतरांपेक्षा कोणती मॉडेल अधिक चांगली आहेत हे पाहण्यासाठी बुद्धीच्या लढाईत एकमेकांना खेळायला लावण्यासाठी. एका पोस्टमध्ये, संशोधकाने हायलाइट केले की पारंपारिक एआय बेंचमार्क आता मॉडेल्सची खरी क्षमता मोजण्यासाठी अपुरी असल्याचे सिद्ध झाले आहेत.
अलीकडील काळात बेंचमार्क चाचण्यांवरील टीका वाढत आहे. एमआयटी तंत्रज्ञान पुनरावलोकन प्रकाशित बेंचमार्क चाचण्या कालबाह्य का होत आहेत यावरील सविस्तर लेख आणि संशोधकांच्या एका गटाने सध्याच्या एआय मूल्यांकन पद्धतींच्या अंतःविषय पुनरावलोकनात समान प्रकाश टाकला. प्रकाशित आर्क्सिव्ह वर.
डफी म्हणाले, “एलएलएमएस विशेष काय बनवते ते म्हणजे मॉडेलने केवळ 10 टक्के वेळ घालवला तरीही आपण पुढील एका उच्च-गुणवत्तेच्या उदाहरणांवर प्रशिक्षण देऊ शकता, अचानक ते फार चांगले करत नाही, 90 टक्के किंवा त्याहून अधिक वेळ,” डफी म्हणाले.
संभाव्य उपाय म्हणून, संशोधकाने मूल्यांकन धोरणांचा विश्वास ठेवला जेथे विशिष्ट मेट्रिक्सपेक्षा एआय मॉडेल एकमेकांविरूद्ध करतात या मॉडेल्सच्या क्षमतेचे मोजमाप करण्याचा एक चांगला मार्ग असू शकतो. तिथेच मुत्सद्दीपणाची कल्पना आली.
एआय मॉडेल्ससाठी रणांगण म्हणून मुत्सद्दीपणा
डफीने हायलाइट केले की त्याने वैयक्तिकरित्या एआय डिप्लोमसी, क्लासिक स्ट्रॅटेजी गेमची सुधारित आवृत्ती तयार केली. खेळ सरळ आहे. १ 190 ०१ च्या युरोप, ऑस्ट्रिया-हंगेरी, इंग्लंड, फ्रान्स, जर्मनी, इटली, रशिया आणि तुर्की या सात महान शक्तींनी नकाशावरील एकूण of 34 पैकी एका साम्राज्यांपैकी १ cupplicament चिन्हांकित पुरवठा केंद्रे होईपर्यंत सामरिक हालचाली केल्या आहेत. या आवृत्तीमध्ये, प्रत्येक देश एआय मॉडेलद्वारे नियंत्रित केला गेला.
पुरवठा केंद्रांवर नियंत्रण ठेवण्यासाठी, प्रत्येक देशाला सैन्य आणि चपळ दिले जातात. तेथे दोन टप्पे आहेत – वाटाघाटी आणि सुव्यवस्था. वाटाघाटी दरम्यान, प्रत्येक एआय मॉडेलला पाच संदेश पाठविण्याची परवानगी आहे जी एकतर दुसर्या मॉडेलला खासगी संदेश किंवा सार्वजनिक प्रसारण असू शकते. ऑर्डरच्या टप्प्यात, सर्व मॉडेल्स चार गुप्त हालचालींपैकी एक सबमिट करतात – होल्ड करा, हलवा (लगतच्या प्रांतामध्ये प्रवेश करा), पाठिंबा द्या (ताकद किंवा हलविण्यास सामर्थ्य द्या) आणि ताफ्या (एक चपळ सैन्य समुद्र प्रांतातील सैन्य हलवते). पुढील टप्प्यात ऑर्डर उघडकीस आल्या आहेत.
एआय संशोधकाने एआय डिप्लोमसीचे 15 स्वतंत्र खेळ चालविले जे एक ते 36 तास चालले. काही मॉडेल्सची निरीक्षणे इतरांपेक्षा अधिक मनोरंजक होती, असे डफी म्हणाले.
एआय मॉडेल एआय डिप्लोमसीमध्ये कसे वागले
पोस्टनुसार, उर्वरित पाच एआय मॉडेल उभे राहिले. खेळांच्या दरम्यान त्यांनी असेच वागले:
- ओपनईचा ओ 3: संशोधकाने तर्क-केंद्रित मॉडेलला “फसवणूकीचा मास्टर” म्हटले. असे म्हणतात की हे सर्वाधिक गेम जिंकले होते, मुख्यत: विरोधकांना फसवण्याच्या क्षमतेमुळे. एका विशिष्ट घटनेत, डफीने नमूद केले की ओ 3 ने जेमिनी 2.5 प्रो शोषण करण्याचा निर्णय घेतला आणि नंतर पुढच्या वळणावर ते बॅकस्टेब केले.
- Google चे मिथुन 2.5 प्रो: संशोधकास एआय मॉडेल विरोधकांना त्रास देणार्या हालचाली करण्यात खूप स्मार्ट असल्याचे आढळले. फसवणूकीवर अवलंबून राहण्यापेक्षा त्याच्या हालचाली अधिक रणनीतिकखेळ असल्याचे म्हटले जात होते. त्यात दुसर्या क्रमांकाची विजय मिळविली. तथापि, ते ओ 3 च्या योजनांनाही बळी पडले.
- अँथ्रॉपिकचा क्लॉड ऑपस 4: डफीने नमूद केले की क्लॉड ऑपस 4 चा अहिंसक रिझोल्यूशनबद्दल आत्मीयता आहे. एका उदाहरणामध्ये, ओपसने मिथुन 2.5 प्रो च्या सहयोगी म्हणून सुरुवात केली, परंतु ओ 3 ने खेळाचा संभाव्य परिणाम नसलेल्या चार-मार्ग ड्रॉचे आश्वासन देऊन त्याऐवजी त्याच्या युतीमध्ये सामील होण्यास खात्री दिली. मिथुन 2.5 प्रो काढून टाकण्यासाठी ओपस वापरल्यानंतर, ओ 3 नंतर गेम जिंकण्यासाठी क्लॉडला बॅकस्टॅब्ड केले. |
- दीपसीक-आर 1: चिनी एआय मॉडेल हा खेळाचा सर्वात गोंधळलेला खेळाडू असल्याचे म्हटले जाते. हे नियंत्रित करीत असलेल्या देशाच्या आधारे आपले व्यक्तिमत्त्व नाटकीयरित्या बदलले, असे डफी म्हणाले. त्यात नाट्यशास्त्रासाठी एक पेन्शन देखील होता. एका उदाहरणावर, अशी घोषणा केली की, “आज रात्री काळ्या समुद्रात आपला ताफा जळत आहे” कोणत्याही चिथावणीशिवाय. असे म्हटले जाते की काही वेळा जिंकण्याच्या जवळ आले आहे.
- मेटाचा लामा :: हे एआय मॉडेल मित्रपक्ष मिळविण्यावर आणि विश्वासघाताचे नियोजन करण्यावर केंद्रित होते, डफीने हायलाइट केले. हे कधीही विजयाच्या जवळ आले नाही, तरीही गेमवर होणा effect ्या परिणामामुळे हे अद्याप उल्लेखनीय होते.
डफीने त्याच्या ट्विचवर सामनेही प्रवाहित केले आहेत चॅनेल? दुर्दैवाने, संशोधकाने आतापर्यंत निष्कर्षांवर एक पेपर लिहिला नाही. तथापि, हे प्रारंभिक प्रभाव मनोरंजक आहेत. ओ 3 किंवा मिथुन 2.5 प्रो असण्यामुळे ही मॉडेल्स किती प्रगत आहेत हे समजते. तथापि, दीपसीक-आर 1 आणि लामा 4 पहिल्या पाच मॉडेलपैकी एक असल्याने त्यांच्या लहान प्रमाणात आणि विकासाच्या स्वस्त किंमतीमुळे आश्चर्यचकित होते.
हे धोरण खेळ पारंपारिक बेंचमार्किंग चाचण्यांसाठी पर्यायी असू शकतात का हे सांगणे फार लवकर आहे, मॉडेल्सने प्रश्नांची स्थिर यादी सोडवण्याऐवजी एकमेकांशी स्पर्धा केली तर अधिक तार्किक निवडीसारखे वाटते.























