ఈ సైట్‌లోని విషయాలు కృత్రిమ మేధస్సు (AI) లేదా యంత్ర అనువాద సాంకేతికత ఉపయోగించి అనువదించబడ్డాయి మరియు లోపాలు ఉండవచ్చు.

Skip to content

క్యూబ్‌పార్ట్: ఒక ఓపెన్-వొకబులరీ, భాగంగా నియంత్రించగల 3D జనరేటర్

కార్యాచరణకు అనువైన గేమ్-రెడీ ఆస్తుల నిర్మాణం

SEO image for CubePart: An Open-Vocabulary Part-Controllable 3D Generator

ఆధునిక 3D జెనరేటివ్ మోడల్స్ టెక్స్ట్ ప్రాంప్ట్‌ల నుండి అందమైన, సంక్లిష్టమైన 3D వస్తువులను రూపొందించగలవు, కానీ ఒక గేమ్ డెవలపర్‌కు, ఒకే పెద్ద 3D మోడల్ ఉపయోగపడదు. ఉదాహరణకు, ఒక కారు నడపగలిగేలా ఉండాలి. చక్రాలు విడివిడిగా తిరగాలి, తలుపులు తెరుచుకోవాలి, మరియు హెడ్‌లైట్లు వెలగాలి. 

ప్రస్తుతం, 3D కళాకారులు జెనరేట్ చేసిన మోడళ్లను చేతితో విడగొట్టి, భాగాలకు పేర్లు పెట్టాల్సి వస్తుంది—ఇది పెద్ద ఎత్తున చేయడానికి అనువైన ప్రక్రియ కాదు. మా ఆవిష్కరణ 'క్యూబ్‌పార్ట్': ఇది ఓపెన్-వొకబులరీ, భాగాలను నియంత్రించగల 3D మెష్ జెనరేషన్‌ను అనుమతించే మొట్టమొదటి జెనరేటివ్ AI ఫ్రేమ్‌వర్క్. క్యూబ్‌పార్ట్, డెవలపర్ యొక్క ప్రోగ్రామింగ్ అవసరాలకు నేరుగా సరిపోయే విధంగా, విభిన్నమైన, క్రియాత్మకమైన, మరియు కచ్చితంగా లేబుల్ చేయబడిన మెష్‌ల యొక్క సమీకరించబడిన సెట్‌ను అవుట్‌పుట్‌గా ఇస్తుంది.

4D జనరేషన్‌తో మేము పరిచయం చేసిన స్థిరమైన స్కీమాల భావనను CubePart విస్తరిస్తుంది, ఇది ఒక వస్తువును ఏ భాగాలుగా విభజించాలో నిర్వచించడానికి సృష్టికర్తకు అధికారం ఇస్తుంది. క్యూబ్‌పార్ట్ ద్వారా రూపొందించబడిన మెష్‌ల సెట్ నేరుగా గేమ్ ఇంజిన్‌లోకి వెళ్తుంది మరియు మాన్యువల్ క్లీనప్ లేకుండా యానిమేషన్, ఫిజిక్స్, మరియు గేమ్‌ప్లే స్క్రిప్ట్‌ల ద్వారా నియంత్రించబడుతుంది. మేము మా క్యూబ్‌పార్ట్ పరిశోధనను arXivలో ప్రచురించాము మరియు పార్ట్-కంట్రోలబుల్ జనరేషన్‌కు మద్దతు ఇవ్వడానికి మా ఓపెన్ సోర్స్ క్యూబ్ రిపోజిటరీని అప్‌డేట్ చేసాము. ఈ సంవత్సరం చివర్లో, మేము మా పరిశోధనలను SIGGRAPHలో ప్రదర్శిస్తాము. 

స్కీమా: ఇంటరాక్టివ్ 3D ఆస్తుల కోసం API ఒప్పందం

రాబ్లాక్స్‌లో, ఇంటరాక్టివ్ ప్రవర్తన అనేది ఒక ఆస్తి యొక్క నిర్దిష్ట, పేరుతో ఉన్న సంతానమైన భాగాలపై పనిచేసే స్క్రిప్ట్‌లలో అమలు చేయబడుతుంది. గేమ్ లేదా పరిస్థితిని బట్టి, ఒకే రకమైన ఆస్తులకు కూడా పూర్తిగా భిన్నమైన భాగాలు అవసరం కావచ్చు. ఒక స్థిరమైన వర్గీకరణ సృజనాత్మకతను మరియు కార్యాచరణను పరిమితం చేస్తుంది, కాబట్టి క్యూబ్‌పార్ట్ రెండు ఇన్‌పుట్‌లను అందిస్తుంది: 

  1. ఆ వస్తువు ఎలా కనిపిస్తుందో వివరించే ఒక గ్లోబల్ టెక్స్ట్ ప్రాంప్ట్: ఉదా., "జెల్లీ ఫిష్ థీమ్‌తో కూడిన రేస్ కార్."
  2. స్కీమా అని పిలువబడే అవసరమైన భాగాల యొక్క నిర్దిష్ట, అంతులేని జాబితా: ఉదా., "ముందు ఎడమ చక్రం", "ముందు కుడి చక్రం", "వెనుక ఎడమ చక్రం", "వెనుక కుడి చక్రం", "బందూకు", "హెడ్‌లైట్లు", "ఎగ్జాస్ట్ పైప్", "బాడీ". 

స్కీమా అనేది ఆస్తికి మరియు గేమ్‌ప్లే కోడ్‌కు మధ్య ఉన్న API ఒప్పందం, మరియు క్యూబ్‌పార్ట్ ఒక సృష్టికర్త ఒప్పందానికి అనుగుణంగా ఉండే ఆస్తులను రూపొందించడానికి అనుమతిస్తుంది. ఈ ఓపెన్-వొకబులరీ నియంత్రణ, రాబ్లాక్స్ ఆస్తులు మరియు అనుభవాల వైవిధ్యాన్ని క్యూబ్‌పార్ట్ సంగ్రహించడానికి అనుమతిస్తుంది.

రెండు దశలలో జనరేషన్ 

క్యూబ్‌పార్ట్ అనేది వెక్‌సెట్ లాటెంట్ షేప్ రిప్రజెంటేషన్‌పై నిర్మించబడిన ఒక దశల విస్తరణ వాస్తుశిల్పం. 

కింద ఉన్న చిత్రాలలో, వినియోగదారు రెండు ప్రాంప్ట్‌లను ఇన్‌పుట్ చేశారు. 

  1. ప్రపంచవ్యాప్త టెక్స్ట్ ప్రాంప్ట్: "కార్టూన్ తరహా లక్షణాలతో కూడిన ఒక టో ట్రక్." 
  2. స్కీమా: "క్యాబ్", "చాసిస్", "వీల్స్", "రూఫ్ బీకాన్", "టో అసెంబ్లీ".

స్టేజ్ 1 వస్తువు యొక్క ప్రాథమిక ఆకారాన్ని నిర్వచించడానికి బాధ్యత వహిస్తుంది, (కార్టూన్ తరహా లక్షణాలతో కూడిన ఒక టో ట్రక్). ఈ దశ, సుమారు 4.7 మిలియన్ల మెష్-టెక్స్ట్ జతలపై శిక్షణ పొందిన Qwen-VL టెక్స్ట్ ఎన్‌కోడర్‌తో కూడిన MMDiT ఆర్కిటెక్చర్‌ను ఉపయోగించి, మొత్తం వస్తువు కోసం ఒకే లేటెంట్‌ను రూపొందిస్తుంది. ఇది డేటా-హంగ్రీ దశ: జనరేటివ్ 3Dలో, ఓపెన్-వొకబులరీ భాషను 3D జ్యామితిపై మ్యాపింగ్ చేయడం కష్టమైన భాగం, మరియు దీనిని బాగా చేయడానికి పెద్ద, విభిన్నమైన కార్పస్ అవసరం. మేము అదనంగా స్టేజ్ 1ను స్కీమా-అవగాహన కలిగి ఉండేలా ఫైన్-ట్యూన్ చేస్తాము. 

స్టేజ్ 2, స్టేజ్ 1 లేటెంట్‌ను తీసుకుని, భాగాలతో వస్తువును పునర్నిర్మించడానికి ప్రతి స్కీమా ఎంట్రీకి ఒక భాగం లేటెంట్‌ను ఉత్పత్తి చేస్తుంది. మా కార్టూన్ తరహా టో ట్రక్ ఉదాహరణకు, స్టేజ్ 2, విభిన్న, క్రియాత్మక భాగాలతో తుది టో ట్రక్‌ను పునర్నిర్మించడానికి క్యాబ్, ఛాసిస్, చక్రాలు, రూఫ్ బీకన్, మరియు టో అసెంబ్లీ కోసం ఒక ప్రత్యేక భాగం లేటెంట్‌ను రూపొందిస్తుంది. మెష్-టెక్స్ట్ డేటాతో పోలిస్తే, భాగ-లేబుల్ చేయబడిన 3D డేటా చాలా తక్కువగా ఉంటుంది. స్టేజ్ 1 ఒక పెద్ద కార్పస్‌ నుండి సంక్లిష్టమైన టెక్స్ట్-టు-షేప్ మ్యాపింగ్‌ను గ్రహించడం ద్వారా, స్టేజ్ 2 మోడల్‌కు ఇప్పటికే తెలిసిన ఒక వస్తువుపై భాగపు సరిహద్దులు ఎక్కడ ఉంటాయో నేర్చుకుంటే సరిపోతుంది. దీనికి ప్రత్యక్ష సాక్ష్యంగా మేము పేపర్‌లోని అబ్లేషన్‌ను చూస్తాము: స్టేజ్ 1 ప్రీ-ట్రైనింగ్‌ను తొలగించడం అనేది స్టేజ్ 2 యొక్క ఓపెన్-వొకబులరీ జనరలైజేషన్‌ను కొలవదగిన స్థాయిలో క్షీణింపజేస్తుంది. సంక్షిప్తంగా చెప్పాలంటే, స్టేజ్ 2 జనరలైజ్ చేయడానికి స్టేజ్ 1 సహాయపడుతుంది. 
మా నిర్మాణంలో మరొక కీలకమైన ఆవిష్కరణ భాగాలు ఎలా సంభాషిస్తాయి అనేది. ఇప్పటికే ఉన్న వాటిని సవరించడానికి బదులుగా, ప్రత్యేకమైన క్రాస్-పార్ట్ అటెన్షన్ బ్లాక్‌లను చొప్పించడం మా పరిష్కారం. వీటికి జీరో-ఇనిషియలైజ్డ్ అవుట్‌పుట్ ప్రొజెక్షన్‌లు ఉంటాయి, కాబట్టి అవి నో-ఆప్స్‌గా ప్రారంభమై, ముందుగా శిక్షణ పొందిన పాత్‌వేను అంతరాయం కలిగించకుండా భాగాల మధ్య కమ్యూనికేషన్‌ను నేర్చుకుంటాయి. ఈ సూత్రం కంట్రోల్నెట్ పాఠకులకు సుపరిచితమే, దీనిని ఇక్కడ 3D పార్ట్ డీకంపోజిషన్‌కు వర్తింపజేశాము. మా టో ట్రక్ ఉదాహరణలో, క్రాస్-పార్ట్ అటెన్షన్ బ్లాక్‌లు క్యాబ్ మరియు టో అసెంబ్లీ, ఛాసిస్ మరియు చక్రాలకు సంబంధించి సజావుగా ఏకీకృతం అవ్వడాన్ని మరియు సరిగ్గా అమర్చబడటాన్ని నిర్ధారిస్తాయి.

మా డేటాసెట్ మరియు VLM పైప్‌లైన్ 

క్యూబ్‌పార్ట్‌ను శిక్షణ ఇవ్వడానికి, మేము 460,000 కంటే ఎక్కువ ఆస్తులు—గత పబ్లిక్ డేటాసెట్‌ల కంటే 11 రెట్లు ఎక్కువ—మరియు 2.02 మిలియన్ల భాగాలతో కూడిన డేటాసెట్‌ను సృష్టించాము. మాన్యువల్ లేబులింగ్ చేయడానికి బదులుగా, మేము విజన్-లాంగ్వేజ్ మోడల్స్ (VLMs) ఉపయోగించి ఒక ఆటోమేటెడ్ పైప్‌లైన్‌ను నిర్మించాము.

ఈ పైప్‌లైన్ జత చేసిన విధానాన్ని ఉపయోగించి వేలాది 3D మోడల్‌లను బహుళ కోణాల నుండి రూపొందిస్తుంది: ఒక టెక్స్చర్డ్ చిత్రం (అర్థపరమైన సందర్భానికి) మరియు ఒక భాగం-రంగు వేసిన చిత్రం (సరైన సరిహద్దు ట్రాకింగ్‌కు). రెండింటిపై ఒకే నంబర్ ఉన్న మార్కర్‌లు ముద్రించబడతాయి, ఇది VLMకు 3D ప్రదేశంలో విశ్లేషించడానికి మరియు ప్రతి భాగాన్ని సమూహీకరించి పేరు పెట్టడానికి టెక్స్ట్-అడ్రస్ చేయగల హ్యాండిల్‌ను ఇస్తుంది.

గతంలో ప్రచురించిన డేటాసెట్‌లలో వాహనంపై ఉన్న ప్రతి చక్రానికి కేవలం "వీల్" అని లేబుల్ వేయగా, మా డేటాసెట్ AIకి స్థానభేద విభేదనను (ఉదాహరణకు, "ముందు ఎడమ చక్రం"ను "వెనుక కుడి చక్రం" నుండి వేరు చేయడం) నేర్పిస్తుంది. ఈ సరిపోల్చడంలోని కచ్చితత్వమే గేమ్ ఇంజిన్‌లు సరిగ్గా కోరుకునేది.

క్యూబ్‌పార్ట్ ఏమి అన్‌లాక్ చేస్తుంది మరియు తదుపరి ఏమిటి

క్యూబ్‌పార్ట్ సృష్టికర్తలు తమ గేమ్‌ప్లే కోడ్‌కు సరిపోయే అసెట్‌లను రూపొందించడానికి మరియు ఇప్పటికే ఉన్న యానిమేషన్, ఫిజిక్స్, మరియు స్క్రిప్టింగ్ వర్క్‌ఫ్లోలతో నేరుగా అనుకూలతను కలిగి ఉండటానికి అనుమతిస్తుంది. క్యూబ్‌పార్ట్ ఇప్పటికే ఉన్న ఆర్టిస్ట్ మెష్‌లను ఒక కొత్త స్కీమాకు విశ్లేషించగలదు, ఇది కేవలం కొత్త వాటిని రూపొందించడానికే కాకుండా, పాత అసెట్‌లను అప్‌గ్రేడ్ చేయడానికి కూడా ఉపయోగపడుతుంది.

ఇంకా చేయవలసింది చాలా ఉంది. క్యూబ్‌పార్ట్ రిజిడ్-బాడీ డీకంపోజిషన్‌ను నిర్వహిస్తుంది, కానీ మేము ఆర్గానిక్ పాత్ర డీఫార్మేషన్ కోసం స్కిన్డ్ వెర్టెక్స్ వెయిట్స్‌పై కూడా పని చేస్తున్నాము. క్రాస్-పార్ట్ అటెన్షన్ ఓవర్‌ల్యాప్‌ను నాటకీయంగా తగ్గిస్తుంది కానీ దానిని పూర్తిగా తొలగించదు. స్పేషియల్ రీజనింగ్—"ముందు-ఎడమ" వర్సెస్ "వెనుక-కుడి"—ఇంకా మెరుగుపరచడానికి గణనీయమైన అవకాశం ఉంది.

ప్రతి ఆస్సెట్ ఒక సిమ్యులేషన్‌లో పాల్గొనే ప్లాట్‌ఫారమ్‌పై జెనరేటివ్ 3Dని ఉపయోగకరంగా మార్చే దశగా మేము స్కీమా-ఆధారిత జనరేషన్‌ను చూస్తున్నాము. త్వరలో, ఈ సాంకేతికత రాబ్లాక్స్ స్టూడియోలోనే రాబ్లాక్స్ సృష్టికర్తలకు నేరుగా అందుబాటులోకి వస్తుంది.

1PartVerseXLతో పోలిస్తే