Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content

Przedstawiamy Roblox Cube: nasz podstawowy system generatywnej sztucznej inteligencji dla 3D i 4D

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • Udostępniamy nasz model podstawowy Cube 3D przeznaczony do generatywnej sztucznej inteligencji.
  • Udostępniamy również wersję modelu podstawowego Cube 3D na licencji open source.
  • Wersja beta generatora siatki Cube 3D — w Roblox Studio oraz jako interfejs API Lua w ramach doświadczenia — będzie dostępna w tym tygodniu. 

Jesienią ubiegłego roku ogłosiliśmy ambitny projekt stworzenia otwartego modelu podstawowego 3D do tworzenia obiektów i scen 3D w Roblox. W tym tygodniu udostępniamy pierwszą wersję tego modelu na licencji open source, aby każdy mógł z niego korzystać zarówno na platformie Roblox, jak i poza nią, zarówno na GitHubie, jak i HuggingFace. Nazwaliśmy ten model Cube 3D. Wprowadzamy również pierwszą z jego funkcji, uruchamiając wersję beta naszego API do generowania siatki. Cube będzie podstawą wielu narzędzi AI, które opracujemy w nadchodzących latach, w tym bardzo złożonych narzędzi do generowania scen. Ostatecznie będzie to model multimodalny, trenowany na tekście, obrazach, wideo i innych rodzajach danych wejściowych — i zostanie zintegrowany z naszymi istniejącymi narzędziami do tworzenia AI.

Cube 3D generuje modele 3D i środowiska bezpośrednio na podstawie tekstu, a w przyszłości także obrazów. Obecnie najnowocześniejsze generowanie 3D wykorzystuje obrazy i podejście oparte na rekonstrukcji do tworzenia obiektów 3D. Jest to dobre rozwiązanie, gdy nie ma wystarczających danych szkoleniowych 3D. Jednak dzięki charakterowi naszej platformy szkolimy się na natywnych danych 3D. Wygenerowany obiekt jest w pełni kompatybilny z dzisiejszymi silnikami gier i można go rozszerzyć, aby obiekty stały się funkcjonalne. 

Różnica jest podobna do planu filmowego toru wyścigowego. W telewizji można zobaczyć coś, co wygląda jak w pełni funkcjonalny tor wyścigowy, z trybunami, garażami i aleją zwycięzców. Ale gdybyś miał się po tym planie poruszać, szybko zdałbyś sobie sprawę, że konstrukcje są w rzeczywistości płaskie. Stworzenie prawdziwie wciągającego świata 3D wymaga kompletnych, funkcjonalnych konstrukcji, z garażami, do których można wjechać, trybunami, na których można usiąść, oraz aleją zwycięzców z funkcjonalnym podium.

Aby to osiągnąć, zainspirowaliśmy się najnowocześniejszymi modelami wyszkolonymi na tokenach tekstowych (lub zestawach znaków), dzięki czemu potrafią one przewidzieć następny token w celu utworzenia zdania. Nasza innowacja opiera się na tej samej podstawowej idei. Stworzyliśmy możliwość tokenizacji obiektów 3D i rozumienia kształtów jako tokenów, a także wyszkoliliśmy Cube 3D do przewidywania kolejnego tokenu kształtu w celu zbudowania kompletnego obiektu 3D. Kiedy rozszerzamy to na generowanie pełnej sceny, Cube 3D przewiduje układ i rekurencyjnie przewiduje kształt, aby ten układ uzupełnić.

Każdy może dostosować, opracować wtyczki lub wyszkolić Cube 3D na własnych danych, aby dopasować go do swoich potrzeb. Wierzymy, że narzędzia AI powinny opierać się na otwartości i przejrzystości, dlatego jesteśmy zaangażowanym partnerem w społeczności open-source zajmującej się sztuczną inteligencją. Udostępniliśmy jeden z naszych modeli bezpieczeństwa AI, ponieważ jesteśmy głęboko przekonani, że dzielenie się postępami w zakresie bezpieczeństwa AI pomaga całej branży przyspieszyć innowacje i rozwój techniczny. Z tego powodu pomogliśmy również założyć ROOST, nową organizację non-profit zajmującą się ważnymi obszarami bezpieczeństwa cyfrowego za pomocą narzędzi bezpieczeństwa typu open source. Udostępniając Cube 3D na licencji open source, naszym celem jest umożliwienie badaczom, programistom i szerszej społeczności AI uczenia się, rozbudowywania i rozwijania generowania 3D w całej branży.

Cube 3D do tworzenia

Wcześniej mówiliśmy o tym, jak sztuczna inteligencja może przyspieszyć tworzenie zasobów 3D, akcesoriów i doświadczeń. Ostatecznie sztuczna inteligencja umożliwi jeszcze bardziej wciągającą i spersonalizowaną rozgrywkę oraz interakcje. Inwestujemy w infrastrukturę wspierającą sztuczną inteligencję na każdym etapie cyklu tworzenia — zarówno dla twórców tych doświadczeń, jak i użytkowników, którzy z nich korzystają. Wyobrażamy sobie przyszłość, w której programiści zapewnią swoim użytkownikom nowe sposoby tworzenia, wdrażając sztuczną inteligencję w swoich doświadczeniach. Dzięki temu ponad 85 milionów aktywnych użytkowników dziennie zyska dostęp do możliwości sztucznej inteligencji w ramach rozgrywki.

W ciągu ostatniego roku wprowadziliśmy kilka nowych funkcji za pośrednictwem naszego asystenta opartego na sztucznej inteligencji w Roblox Studio, aby zapewnić twórcom narzędzia i możliwości potrzebne do tworzenia oraz wyeliminować godziny ręcznej pracy. Dzięki Cube zamierzamy zwiększyć wydajność tworzenia treści 3D. Dzięki generowaniu siatek 3D twórcy mogą szybko odkrywać nowe kierunki twórcze i zwiększać swoją produktywność, szybko decydując, które z nich warto rozwijać.

Wyobraź sobie tworzenie gry wyścigowej. Dzisiaj możesz skorzystać z API generowania siatki w Asystencie, wpisując szybkie polecenie, takie jak „/generate a motorcycle” lub „/generate orange safety cone”. W ciągu kilku sekund API wygeneruje siatkową wersję tych obiektów. Następnie można je dopracować, dodając teksturę, kolor itp. Dzięki temu API możesz modelować rekwizyty lub projektować przestrzeń znacznie szybciej — nie musisz spędzać godzin na modelowaniu prostych obiektów. Pozwala to skupić się na przyjemniejszych aspektach, takich jak projektowanie układu toru i dopracowywanie prowadzenia samochodu. To API pozwala zaoszczędzić wiele godzin przy tworzeniu każdego obiektu i daje Ci ten czas na eksperymentowanie z nowymi pomysłami bez obaw o poświęcanie zbyt wiele czasu lub wysiłku. W dłuższej perspektywie planujemy umożliwić tworzenie bardziej złożonych i funkcjonalnych obiektów, a nawet scen.

Technologia ta jest dostępna dla dziesiątek milionów kreatywnych osób, które codziennie grają i nawiązują kontakty w Roblox. Widzimy przyszłość, w której deweloperzy umożliwią swoim użytkownikom zostanie twórcami dzięki sztucznej inteligencji. Dzięki włączonemu interfejsowi API Mesh Generation gracze mogą ożywić wszystko, co tylko sobie wyobrażą. Jeśli gracz chce futurystyczny samochód, może po prostu wpisać „czerwony samochód przyszłości z bocznymi skrzydłami” lub „czarna skórzana kurtka motocyklowa” i zobaczyć, jak się pojawia. Tego rodzaju generowanie treści przez AI w grze otworzy zupełnie nowy poziom kreatywności. Gracze mogą spersonalizować swoje doświadczenia w sposób, którego deweloperzy nigdy sobie nie wyobrażali, a to sprawi, że ich gry będą jeszcze bardziej wciągające.

Za kulisami: wzajemne powiązania między tokenami 3D a tokenami tekstowymi/graficznymi

Głównym wyzwaniem technicznym było połączenie tekstu i obrazów z kształtami 3D. Naszym głównym przełomem technicznym jest tokenizacja 3D, która pozwala nam przedstawiać obiekty 3D jako tokeny w taki sam sposób, w jaki tekst może być przedstawiany jako tokeny. Daje nam to możliwość przewidywania kolejnego kształtu, tak jak modele językowe przewidują kolejne słowo w zdaniu.

Aby umożliwić generowanie treści 3D, zaprojektowaliśmy ujednoliconą architekturę do autoregresyjnego generowania pojedynczych obiektów, uzupełniania kształtów oraz generowania układów wielu obiektów i scen. Transformatory autoregresyjne to sieci neuronowe, które wykorzystują poprzednie dane wejściowe do przewidywania kolejnego elementu. Architektura ta zapewnia zarówno skalowalność, jak i kompatybilność multimodalną, dzięki czemu w miarę rozbudowywania modelu będzie on współpracował z wieloma różnymi rodzajami danych wejściowych (tekstowymi, wizualnymi, audio i 3D). Udostępniamy ten model na licencji open source. Na tym początkowym etapie twórcy będą mogli generować obiekty 3D na podstawie podpowiedzi tekstowych. W przyszłości zamierzamy umożliwić twórcom generowanie całych scen na podstawie danych wejściowych z wielu źródeł.

Aby wyszkolić generatywny, wstępnie wyszkolony transformator (GPT) do generowania kształtów, używamy dyskretnych tokenów kształtów 3D i dopasowujemy je do poleceń tekstowych. To nowatorskie podejście przygotowuje nas do świata generowania scen 3D, w których można grać.

Dokąd zmierza Cube

Obecnie większość świata wykorzystuje sztuczną inteligencję do analizy tekstu w celu przewidywania słów w zdaniu. Wiele osób używa jej również do analizy obrazów w celu przewidywania pikseli. Zadanie to staje się znacznie bardziej złożone podczas tworzenia scen, w których wszystkie te elementy łączą się i muszą współdziałać w kontekście. Wyobraźmy sobie na przykład prostą scenę, którą można opisać jako „awatar na motocyklu przed torem wyścigowym z drzewami”. 

Na stworzenie tego doświadczenia składa się wiele elementów. Drzewa to połączenie dwóch siatek 3D, motocykl to gęsta siatka z detalami i trójkątami, a budynki składają się z części Roblox. Awatar na motocyklu ma bardziej złożone cechy geometryczne ciała, kończyn i głowy. Wreszcie potrzebujemy sposobu, aby połączyć to wszystko w układzie. W tym celu potrzebujemy prostokątów ograniczających, które wyznaczają kontury obiektu w celu określenia jego rozmiaru i położenia, aby wiedzieć, jak rozmieścić tę geometrię. Jest to żmudny proces, ale sztuczna inteligencja jest w stanie pomóc na każdym etapie. Dzięki sztucznej inteligencji twórcy mogą szybciej uzyskać pierwszą wersję i mieć więcej czasu na testowanie nowych pomysłów lub dopracowanie sceny. 

Kiedy już to osiągniemy, chcemy, aby tworzone przez nas obiekty 3D i sceny były w pełni funkcjonalne. Nazywamy to tworzeniem 4D, gdzie czwartym wymiarem jest interakcja między obiektami, środowiskami i ludźmi. Osiągnięcie tego wymaga nie tylko umiejętności tworzenia wciągających obiektów i scen 3D, ale także zrozumienia kontekstów i relacji między tymi obiektami. Właśnie w tym kierunku zmierzamy z Cube. 

Poza tym pierwszym przypadkiem użycia, jakim jest generowanie siatki, planujemy rozszerzyć nasze działania na generowanie i rozumienie scen. Będziemy w stanie zapewnić użytkownikom doświadczenia, które najbardziej ich interesują, oraz wzbogacać sceny poprzez dodawanie obiektów w kontekście. Na przykład w przypadku sceny przedstawiającej las programista mógłby poprosić Asystenta o zastąpienie wszystkich bujnych zielonych liści na drzewach jesienną liściastą roślinnością, aby zaznaczyć zmianę pory roku. Nasze narzędzia AI Assistant reagują na prośby programistów, pomagając im w szybkim tworzeniu, dostosowywaniu i skalowaniu ich doświadczeń. 

Będziemy dzielić się aktualizacjami i nowymi funkcjami w miarę ulepszania i rozbudowywania naszego modelu podstawowego. Do tego czasu mamy nadzieję, że spodoba się Państwu korzystanie z naszej otwartej wersji modelu Cube 3D oraz tworzenie na jej podstawie, do której dostęp można uzyskać na GitHubie i HuggingFace.