Al Duży model w kierunku multimodalności

Czy słyszałeś o paradoksie Moravec? Paradoks stwierdza, że rozumowanie zaawansowane wymaga bardzo mało siły obliczeniowej dla systemu sztucznej inteligencji (AI), jednocześnie wdrażając umiejętności percepcyjne, które ludzie uważają za pewnik, wymaga ogromnych zasobów obliczeniowych. Zasadniczo złożone logiczne zadania są łatwiejsze dla AI niż podstawowe zadania sensoryczne, które mogą wykonać instynkty ludzkie. Ten paradoks podkreśla różnicę między AI a ludzkimi zdolnościami poznawczymi na tym etapie.

Ludzie są z natury multimodalni. Każdy z nas jest jak inteligentny terminal, który zwykle musi chodzić do szkoły, aby być wykształconym (przeszkoleniem), ale celem i wynikiem tego szkolenia i nauki jest to, że mamy zdolność do pracy i życia autonomicznie, nie polegając na zewnętrznych instrukcjach i instrukcjach i instrukcjach zewnętrznych i kontrola.

Dowiadujemy się o otaczającym nas świecie poprzez wiele metod sensorycznych, takich jak wzrok, mowa, dźwięk, dotyk, smak i zapach, aby analizować, rozumować, decydować i podejmować działania.

Po latach fuzji czujnika i ewolucji AI roboty są w dużej mierze wyposażone w czujniki multimodalne na tym etapie. Gdy wnosimy większą moc obliczeniową do urządzeń krawędziowych, takich jak roboty, urządzenia te stają się mądrzejsze i mądrzejsze, zdolne do wyczuwania otoczenia, zrozumienia i komunikowania się w języku naturalnym, nabywaniu hapticów poprzez cyfrowe interfejsy wykrywania, a także wyczuwając specyficzną siłę robota, Prędkość kątowa, a nawet pole magnetyczne wokół robota poprzez połączenie akcelerometrów, żyroskopów i magnetometrów i innych.

W kierunku nowej ery robotyki i poznania maszynowego

Przed modelem Transformer i Large Language (LLM) wdrożenie multimodalności w AI zwykle wymagało użycia wielu oddzielnych modeli odpowiedzialnych za różne typy danych (tekst, obrazy, audio) i integrację różnych metod poprzez złożony proces.

Wraz z pojawieniem się modeli transformatorów i LLM, multimodalność stała się bardziej zintegrowana, umożliwiając jednoczesnemu modelu jednocześnie przetwarzanie i zrozumienie wielu typów danych, co powoduje, że systemy AI są bardziej zdolne do kompleksowego wyczuwania ich środowiska. Ta zmiana znacznie poprawiła wydajność i skuteczność multimodalnych zastosowań AI.

Podczas gdy LLM, takie jak GPT -3, są przede wszystkim oparte na tekście, branża poczyniła szybkie postępy w kierunku multimodalności. Od klipu Openai i Dall-E, a teraz Sora i GPT -4 o, są przykładami modeli, które przeniosły się w kierunku multimodalności i bardziej naturalnej interakcji między ludzkimi komputerami. Na przykład Clip rozumie obrazy w połączeniu z językiem naturalnym, łącząc lukę między informacjami wizualnymi i tekstowymi; Dall-E ma na celu generowanie obrazów na podstawie opisów tekstowych. Widzimy model Google Gemini, który przechodzi podobną ewolucję.

W 2024 r. Multimodalna ewolucja przyspiesza. W lutym Openai wydało Sora, która generuje realistyczne lub pomysłowe filmy oparte na opisach tekstu. Kiedy się nad tym zastanowić, może to stanowić obiecującą drogę do budowania uniwersalnych symulatorów świata lub stać się ważnym narzędziem dla robotów szkoleniowych. Po trzech miesiącach GPT -4 O znacznie poprawiło wydajność interakcji Human-Robot i jest w stanie rozumować w czasie rzeczywistym między dźwiękiem, wizją i tekstem. Połączenie tekstu, wizualnych i audio w celu wyszkolenia nowego modelu od końca do końca eliminuje dwa modalne przejścia z modalności wejściowej do tekstu, a następnie od tekstu do modalności wyjściowej, co z kolei radykalnie poprawia wydajność.

W tym samym tygodniu w lutym Google wydało Gemini 1.5, co znacznie rozszerzyło długość kontekstu do 1 miliona tokenów. Oznacza to, że 1.5 Pro może przetwarzać duże ilości informacji jednocześnie, w tym godzinę wideo, 11 godzin dźwięku i bazę kodu zawierającą więcej niż 30 linii kodu lub 700, 000 słowa Na konferencji Google I/O w maju, oprócz podwojenia długości kontekstu i wydania serii generatywnych narzędzi i aplikacji AI, Google zbadał swoją wizję przyszłości Project Astra, asystenta ogólnego przeznaczenia AI, który przetwarza multimodalne informacje , rozumie kontekst, w którym użytkownik jest umieszczony, i w bardzo naturalny sposób wchodzi w interakcje z ludźmi w rozmowach.

Jako firma stojąca za Open-Source LLM LAMA, Meta dołącza również do ścieżki General Artificial Intelligence (AGI).

Ta prawdziwa multimodalność znacznie zwiększa poziom inteligencji maszynowej i doprowadzi do nowych paradygmatów dla wielu branż.

Na przykład roboty były bardzo jednorodne, z niektórymi czujnikami i możliwościami lokomocji, ale generalnie nie mieli „mózgu”, aby uczyć się nowych rzeczy i dostosowywać się do nieustrukturyzowanych i nieznanych środowisk.

Oczekuje się, że multimodalne LLM przekształcą zdolność robotów do analizy, rozumowania i uczenia się, przenosząc je ze specjalizacji do uogólnienia. PC, serwery i smartfony są liderami w platformach komputerowych ogólnych i mogą uruchamiać wiele różnych rodzajów aplikacji w celu osiągnięcia szerokiej gamy funkcji. Uogólnienie pomoże zwiększyć skalę, generowanie korzyści skali, a ceny mogą zostać radykalnie obniżone w miarę wzrostu, co prowadzi do cnotliwego cyklu przyjęcia w większej liczbie obszarów.

Elon Musk na początku zauważył korzyści płynące z uogólnionej technologii, ponieważ roboty Tesli ewoluowały od Bumblebee w 2022 r. Do Optimus Gen 1, ogłoszone w marcu 2023 r., A Gen 2, ogłoszone pod koniec 2023 r., Z coraz większą wszechstronnością i uczeniem się. W ciągu ostatnich miesięcy 6-12 byliśmy świadkami wielu przełomów w dziedzinie robotyki i robotyki humanoidalnej.

Nowe technologie stojące za robotyką nowej generacji i ucieczką inteligencją

Nie ma wątpliwości, że wciąż mamy wiele do zrobienia, zanim wcielona inteligencja osiągnie masową produkcję. Potrzebujemy lżejszych projektów, dłuższych czasów runda i szybszych, mocniejszych platform obliczeniowych do przetwarzania i łączenia danych dotyczących czujnika, aby podejmować terminowe decyzje i działania kontrolne.

I zmierzamy w kierunku tworzenia humanoidalnych robotów; Tysiące lat ludzkiej cywilizacji wyprodukowało wszechobecne środowiska zaprojektowane dla ludzi, a humanoidalne systemy robotyczne będą w stanie wygodnie wchodzić w interakcje z ludźmi i środowiskiem i wykonywać wymagane operacje w środowiskach istniejących ludzkich ze względu na ich podobieństwo w formie do ludzi. Systemy te będą dobrze odpowiednie do radzenia sobie z brudnymi, niebezpiecznymi i nudnymi zadaniami, takimi jak opieka nad pacjentem i rehabilitacja, praca w branży hotelarskiej, nauczanie pomocy lub towarzyszy uczenia się w dziedzinie edukacyjnej oraz niebezpieczne zadania, takie jak reakcja na katastrofę i niebezpieczne obchodzenie się materiałów . Takie zastosowania wykorzystują ludzkie atrybuty maszynowe, aby ułatwić naturalne interakcje ludzkie, działają w przestrzeniach skoncentrowanych na człowieku i wykonywać zadania, które często są trudne do wykonania tradycyjnych robotów.

Wiele firm AI i Robotics rozpoczyna nowe badania i współpracę w zakresie szkolenia robotów w celu lepszego rozumu i planowania w nowych nieustrukturyzowanych środowiskach. Jako nowe „mózgi” robotów, modele, które są wstępnie wyszkolone na dużych ilościach danych, mają doskonałe możliwości uogólniające, umożliwiając robotom bardziej kompleksowe widzenie i zrozumienie ich środowisk, dostosowanie ich ruchów i działań w oparciu o sprzężenie zwrotne sensoryczne i optymaliza W różnych środowiskach dynamicznych.

Jako interesujący przykład, robot Dynamics, Spot, może działać jako przewodnik w muzeum, wchodząc w interakcje z gośćmi, wprowadzając je na różne eksponaty i odpowiadając na ich pytania. Trudno w to uwierzyć, ale w tym przypadku rozrywkowe, interaktywne i subtelne występy Spot są ważniejsze niż upewnienie się, że fakty są prawidłowe.

Robotyka Transformator: Nowy Mózg Robotyki

Robotics Transformer (RT) szybko ewoluuje, aby przełożyć multimodalne dane wejściowe bezpośrednio na kod przydatnego. RT -2 Google DeepMind działa, a także jego poprzednik, RT -1, z prawie 100% wskaźnikiem powodzenia podczas wykonywania zadań, które były wcześniej widoczne. Jednak, gdy trenowany z Palm-E (zorientowany na robota uosabionego modelu języka multimodalnego) i Pali-X (wielojęzyczny model wizji i języka na dużą skalę, nie zaprojektowany dla robotów), RT -2 ma lepsze możliwości uogólnienia i przewyższa RT -1 na niewidzialnych zadaniach.

Microsoft wprowadził Llava, asystent języka i wizji na dużą skalę. Pierwotnie zaprojektowane do zadań tekstowych, LLAVA wykorzystuje moc GPT -4, aby utworzyć nowy paradygmat dla multimodalnych instrukcji do przestrzegania danych, bezproblemowo integrując komponenty tekstowe i wizualne, które mogą być przydatne dla zadań robotycznych. Po wprowadzeniu Llava ustanowiło nowe rekordy do czatu multimodalnego i naukowego zadań quizów, już przekraczających średnią możliwości ludzkie.

Jak wspomniano wcześniej, próbka Tesli w humanoidalną i sztuczną inteligencję ogólnego przeznaczenia jest znacząca nie tylko dlatego, że jest przeznaczona do skali i masowej produkcji, ale także dlatego, że może być stosowana podkład technologiczny silnego w pełni samoobsługowy (FSD) autopilota Tesli dla samochodów roboty. Tesla ma również inteligentny przypadek użycia produkcji w celu zastosowania Optimus do nowego procesu produkcji pojazdów energetycznych.

Arm jest kamieniem węgielnym przyszłości robotyki

ARM uważa, że robotyczny mózg, zarówno „duży mózg”, jak i „mały mózg”, powinien być heterogenicznym systemem obliczeniowym AI, który zapewnia doskonałą wydajność, reakcję w czasie rzeczywistym i wydajność energetyczną.

news-800-1

Robotyka obejmuje szeroki zakres zadań, w tym podstawowe obliczenia (np. Sygnały wysyłane i odbierające do i z silników), zaawansowane przetwarzanie danych (np. Dane dotyczące obrazu i czujnika) oraz uruchamianie wspomnianych wcześniej multimodalnych LLM. CPU jest dobrze odpowiednie do zadań ogólnego przeznaczenia, podczas gdy pedały gazu AI i GPU mogą skuteczniej obsługiwać zadania przetwarzające równoległe, takie jak uczenie maszynowe (ML) i przetwarzanie graficzne. Dodatkowe pedały gazu, takie jak procesory sygnału obrazu i kodeki wideo, można również zintegrować w celu zwiększenia możliwości widzenia robota i wydajności przechowywania/transmisji. Ponadto procesor powinien mieć reaktywność w czasie rzeczywistym i musi być w stanie uruchamiać systemy operacyjne, takie jak pakiety Linux i ROS.

Po rozszerzeniu na stos oprogramowania robotycznego warstwa systemu operacyjnego może również wymagać systemu operacyjnego w czasie rzeczywistym (RTOS), który może niezawodnie obsługiwać zadania o krytycznym czasie, a także dystrybucję Linux dostosowaną do robotyki, takich jak ROS, który może zapewnić Usługi zaprojektowane dla heterogenicznych klastrów komputerowych. Uważamy, że standardy i programy certyfikacyjne sponsorowane przez ARM, takie jak Certyfikowane SystemReady i PSA, pomogą w skali rozwoju oprogramowania robotycznego. SystemReady został zaprojektowany w celu zapewnienia, że standardowe bogate rozkłady systemu operacyjnego działają w szerokim zakresie systemu-chips (SOCS) w oparciu o architekturę ARM, podczas gdy PSA Certified pomaga uprościć rozwiązania wdrażania bezpieczeństwa w celu spełnienia regionalnych wymagań bezpieczeństwa i regulacyjnych dla podłączonych urządzeń.

Postępy w wielkoskalowych modelach multimodalnych i generatywnym AI Herald nowej ery w rozwoju robotów AI i robotów humanoidalnych. Wraz z komputerami AI i ekosystemami, efektywność energetyczna, bezpieczeństwo i bezpieczeństwo funkcjonalne są niezbędne do uczynienia robotycznego nurtu w tej nowej erze. Procesory ARM są już szeroko stosowane w robotyce i nie możemy się doczekać ścisłej współpracy z ekosystemem, aby uczynić rękę kamieniem węgielnym przyszłości robotyki AI.