सांताकोडर: तार्यांपर्यंत हात पोहोचवू नकोस!
Author
Venue
ICLR कोडसाठी डीप लर्निंग कार्यशाळा २०२३
Abstract
बिगकोड प्रकल्प हा कोडसाठी मोठ्या भाषा मॉडेल्सच्या जबाबदार विकासावर काम करणारा एक मुक्त-वैज्ञानिक सहकार्य आहे. या तांत्रिक अहवालात डिसेंबर 2022 पर्यंतच्या सहकार्याच्या प्रगतीचे वर्णन केले आहे, ज्यात वैयक्तिकरित्या ओळखता येण्याजोगी माहिती (PII) लपवण्याच्या पाइपलाइनची सध्याची स्थिती, मॉडेल आर्किटेक्चरचे धोके कमी करण्यासाठी केलेल्या प्रयोगांचा, आणि प्रशिक्षण डेटासाठी चांगल्या पूर्वप्रक्रिया पद्धतींचा शोध घेणाऱ्या प्रयोगांचा आढावा घेतला आहे. आम्ही 'द स्टॅक' च्या जावा, जावास्क्रिप्ट आणि पायथन उपसमूहांवर 1.1 अब्ज पॅरामीटर्सची मॉडेल्स प्रशिक्षित करतो आणि त्यांना MultiPL-E टेक्स्ट-टू-कोड बेंचमार्कवर मूल्यांकन करतो. आम्हाला आढळले की जवळजवळ एकसारख्या नकलांचे अधिक आक्रमक फिल्टरिंग केल्याने कामगिरी आणखी वाढू शकते आणि आश्चर्याची गोष्ट म्हणजे, 5+ गिटहब स्टार्स असलेल्या रिपॉझिटरींमधून फाइल्स निवडल्याने कामगिरी लक्षणीयरीत्या कमी होते. आमचा सर्वोत्तम मॉडेल, जरी तो खूपच लहान असला तरीही, MultiPL-E च्या Java, JavaScript आणि Python भागांमध्ये डावीकडून उजवीकडे जनरेशन आणि इनफिलिंग या दोन्ही बाबतीत पूर्वीच्या ओपन-सोर्स बहुभाषिक कोड जनरेशन मॉडेल्स (InCoder-6.7B आणि CodeGen-Multi-2.7B) पेक्षा चांगले कामगिरी करतो. सर्व मॉडेल्स या https URL वर OpenRAIL परवान्याखाली प्रकाशित केले गेले आहेत.
