క్యూబ్పార్ట్: ఒక ఓపెన్-వొకబులరీ, భాగంగా నియంత్రించగల 3D జనరేటర్
కార్యాచరణకు అనువైన గేమ్-రెడీ ఆస్తుల నిర్మాణం

ఆధునిక 3D జెనరేటివ్ మోడల్స్ టెక్స్ట్ ప్రాంప్ట్ల నుండి అందమైన, సంక్లిష్టమైన 3D వస్తువులను రూపొందించగలవు, కానీ ఒక గేమ్ డెవలపర్కు, ఒకే పెద్ద 3D మోడల్ ఉపయోగపడదు. ఉదాహరణకు, ఒక కారు నడపగలిగేలా ఉండాలి. చక్రాలు విడివిడిగా తిరగాలి, తలుపులు తెరుచుకోవాలి, మరియు హెడ్లైట్లు వెలగాలి.
ప్రస్తుతం, 3D కళాకారులు జెనరేట్ చేసిన మోడళ్లను చేతితో విడగొట్టి, భాగాలకు పేర్లు పెట్టాల్సి వస్తుంది—ఇది పెద్ద ఎత్తున చేయడానికి అనువైన ప్రక్రియ కాదు. మా ఆవిష్కరణ 'క్యూబ్పార్ట్': ఇది ఓపెన్-వొకబులరీ, భాగాలను నియంత్రించగల 3D మెష్ జెనరేషన్ను అనుమతించే మొట్టమొదటి జెనరేటివ్ AI ఫ్రేమ్వర్క్. క్యూబ్పార్ట్, డెవలపర్ యొక్క ప్రోగ్రామింగ్ అవసరాలకు నేరుగా సరిపోయే విధంగా, విభిన్నమైన, క్రియాత్మకమైన, మరియు కచ్చితంగా లేబుల్ చేయబడిన మెష్ల యొక్క సమీకరించబడిన సెట్ను అవుట్పుట్గా ఇస్తుంది.
4D జనరేషన్తో మేము పరిచయం చేసిన స్థిరమైన స్కీమాల భావనను CubePart విస్తరిస్తుంది, ఇది ఒక వస్తువును ఏ భాగాలుగా విభజించాలో నిర్వచించడానికి సృష్టికర్తకు అధికారం ఇస్తుంది. క్యూబ్పార్ట్ ద్వారా రూపొందించబడిన మెష్ల సెట్ నేరుగా గేమ్ ఇంజిన్లోకి వెళ్తుంది మరియు మాన్యువల్ క్లీనప్ లేకుండా యానిమేషన్, ఫిజిక్స్, మరియు గేమ్ప్లే స్క్రిప్ట్ల ద్వారా నియంత్రించబడుతుంది. మేము మా క్యూబ్పార్ట్ పరిశోధనను arXivలో ప్రచురించాము మరియు పార్ట్-కంట్రోలబుల్ జనరేషన్కు మద్దతు ఇవ్వడానికి మా ఓపెన్ సోర్స్ క్యూబ్ రిపోజిటరీని అప్డేట్ చేసాము. ఈ సంవత్సరం చివర్లో, మేము మా పరిశోధనలను SIGGRAPHలో ప్రదర్శిస్తాము.
స్కీమా: ఇంటరాక్టివ్ 3D ఆస్తుల కోసం API ఒప్పందం
రాబ్లాక్స్లో, ఇంటరాక్టివ్ ప్రవర్తన అనేది ఒక ఆస్తి యొక్క నిర్దిష్ట, పేరుతో ఉన్న సంతానమైన భాగాలపై పనిచేసే స్క్రిప్ట్లలో అమలు చేయబడుతుంది. గేమ్ లేదా పరిస్థితిని బట్టి, ఒకే రకమైన ఆస్తులకు కూడా పూర్తిగా భిన్నమైన భాగాలు అవసరం కావచ్చు. ఒక స్థిరమైన వర్గీకరణ సృజనాత్మకతను మరియు కార్యాచరణను పరిమితం చేస్తుంది, కాబట్టి క్యూబ్పార్ట్ రెండు ఇన్పుట్లను అందిస్తుంది:
- ఆ వస్తువు ఎలా కనిపిస్తుందో వివరించే ఒక గ్లోబల్ టెక్స్ట్ ప్రాంప్ట్: ఉదా., "జెల్లీ ఫిష్ థీమ్తో కూడిన రేస్ కార్."
- స్కీమా అని పిలువబడే అవసరమైన భాగాల యొక్క నిర్దిష్ట, అంతులేని జాబితా: ఉదా., "ముందు ఎడమ చక్రం", "ముందు కుడి చక్రం", "వెనుక ఎడమ చక్రం", "వెనుక కుడి చక్రం", "బందూకు", "హెడ్లైట్లు", "ఎగ్జాస్ట్ పైప్", "బాడీ".
స్కీమా అనేది ఆస్తికి మరియు గేమ్ప్లే కోడ్కు మధ్య ఉన్న API ఒప్పందం, మరియు క్యూబ్పార్ట్ ఒక సృష్టికర్త ఒప్పందానికి అనుగుణంగా ఉండే ఆస్తులను రూపొందించడానికి అనుమతిస్తుంది. ఈ ఓపెన్-వొకబులరీ నియంత్రణ, రాబ్లాక్స్ ఆస్తులు మరియు అనుభవాల వైవిధ్యాన్ని క్యూబ్పార్ట్ సంగ్రహించడానికి అనుమతిస్తుంది.
రెండు దశలలో జనరేషన్
క్యూబ్పార్ట్ అనేది వెక్సెట్ లాటెంట్ షేప్ రిప్రజెంటేషన్పై నిర్మించబడిన ఒక దశల విస్తరణ వాస్తుశిల్పం.
కింద ఉన్న చిత్రాలలో, వినియోగదారు రెండు ప్రాంప్ట్లను ఇన్పుట్ చేశారు.
- ప్రపంచవ్యాప్త టెక్స్ట్ ప్రాంప్ట్: "కార్టూన్ తరహా లక్షణాలతో కూడిన ఒక టో ట్రక్."
- స్కీమా: "క్యాబ్", "చాసిస్", "వీల్స్", "రూఫ్ బీకాన్", "టో అసెంబ్లీ".
స్టేజ్ 1 వస్తువు యొక్క ప్రాథమిక ఆకారాన్ని నిర్వచించడానికి బాధ్యత వహిస్తుంది, (కార్టూన్ తరహా లక్షణాలతో కూడిన ఒక టో ట్రక్). ఈ దశ, సుమారు 4.7 మిలియన్ల మెష్-టెక్స్ట్ జతలపై శిక్షణ పొందిన Qwen-VL టెక్స్ట్ ఎన్కోడర్తో కూడిన MMDiT ఆర్కిటెక్చర్ను ఉపయోగించి, మొత్తం వస్తువు కోసం ఒకే లేటెంట్ను రూపొందిస్తుంది. ఇది డేటా-హంగ్రీ దశ: జనరేటివ్ 3Dలో, ఓపెన్-వొకబులరీ భాషను 3D జ్యామితిపై మ్యాపింగ్ చేయడం కష్టమైన భాగం, మరియు దీనిని బాగా చేయడానికి పెద్ద, విభిన్నమైన కార్పస్ అవసరం. మేము అదనంగా స్టేజ్ 1ను స్కీమా-అవగాహన కలిగి ఉండేలా ఫైన్-ట్యూన్ చేస్తాము.



మా డేటాసెట్ మరియు VLM పైప్లైన్
క్యూబ్పార్ట్ను శిక్షణ ఇవ్వడానికి, మేము 460,000 కంటే ఎక్కువ ఆస్తులు—గత పబ్లిక్ డేటాసెట్ల కంటే 11 రెట్లు ఎక్కువ—మరియు 2.02 మిలియన్ల భాగాలతో కూడిన డేటాసెట్ను సృష్టించాము. మాన్యువల్ లేబులింగ్ చేయడానికి బదులుగా, మేము విజన్-లాంగ్వేజ్ మోడల్స్ (VLMs) ఉపయోగించి ఒక ఆటోమేటెడ్ పైప్లైన్ను నిర్మించాము.
ఈ పైప్లైన్ జత చేసిన విధానాన్ని ఉపయోగించి వేలాది 3D మోడల్లను బహుళ కోణాల నుండి రూపొందిస్తుంది: ఒక టెక్స్చర్డ్ చిత్రం (అర్థపరమైన సందర్భానికి) మరియు ఒక భాగం-రంగు వేసిన చిత్రం (సరైన సరిహద్దు ట్రాకింగ్కు). రెండింటిపై ఒకే నంబర్ ఉన్న మార్కర్లు ముద్రించబడతాయి, ఇది VLMకు 3D ప్రదేశంలో విశ్లేషించడానికి మరియు ప్రతి భాగాన్ని సమూహీకరించి పేరు పెట్టడానికి టెక్స్ట్-అడ్రస్ చేయగల హ్యాండిల్ను ఇస్తుంది.
గతంలో ప్రచురించిన డేటాసెట్లలో వాహనంపై ఉన్న ప్రతి చక్రానికి కేవలం "వీల్" అని లేబుల్ వేయగా, మా డేటాసెట్ AIకి స్థానభేద విభేదనను (ఉదాహరణకు, "ముందు ఎడమ చక్రం"ను "వెనుక కుడి చక్రం" నుండి వేరు చేయడం) నేర్పిస్తుంది. ఈ సరిపోల్చడంలోని కచ్చితత్వమే గేమ్ ఇంజిన్లు సరిగ్గా కోరుకునేది.
క్యూబ్పార్ట్ ఏమి అన్లాక్ చేస్తుంది మరియు తదుపరి ఏమిటి
క్యూబ్పార్ట్ సృష్టికర్తలు తమ గేమ్ప్లే కోడ్కు సరిపోయే అసెట్లను రూపొందించడానికి మరియు ఇప్పటికే ఉన్న యానిమేషన్, ఫిజిక్స్, మరియు స్క్రిప్టింగ్ వర్క్ఫ్లోలతో నేరుగా అనుకూలతను కలిగి ఉండటానికి అనుమతిస్తుంది. క్యూబ్పార్ట్ ఇప్పటికే ఉన్న ఆర్టిస్ట్ మెష్లను ఒక కొత్త స్కీమాకు విశ్లేషించగలదు, ఇది కేవలం కొత్త వాటిని రూపొందించడానికే కాకుండా, పాత అసెట్లను అప్గ్రేడ్ చేయడానికి కూడా ఉపయోగపడుతుంది.
ఇంకా చేయవలసింది చాలా ఉంది. క్యూబ్పార్ట్ రిజిడ్-బాడీ డీకంపోజిషన్ను నిర్వహిస్తుంది, కానీ మేము ఆర్గానిక్ పాత్ర డీఫార్మేషన్ కోసం స్కిన్డ్ వెర్టెక్స్ వెయిట్స్పై కూడా పని చేస్తున్నాము. క్రాస్-పార్ట్ అటెన్షన్ ఓవర్ల్యాప్ను నాటకీయంగా తగ్గిస్తుంది కానీ దానిని పూర్తిగా తొలగించదు. స్పేషియల్ రీజనింగ్—"ముందు-ఎడమ" వర్సెస్ "వెనుక-కుడి"—ఇంకా మెరుగుపరచడానికి గణనీయమైన అవకాశం ఉంది.
ప్రతి ఆస్సెట్ ఒక సిమ్యులేషన్లో పాల్గొనే ప్లాట్ఫారమ్పై జెనరేటివ్ 3Dని ఉపయోగకరంగా మార్చే దశగా మేము స్కీమా-ఆధారిత జనరేషన్ను చూస్తున్నాము. త్వరలో, ఈ సాంకేతికత రాబ్లాక్స్ స్టూడియోలోనే రాబ్లాక్స్ సృష్టికర్తలకు నేరుగా అందుబాటులోకి వస్తుంది.



