Architektura inspirovaná mozkem by mohla snížit výpočetní výkon potřebný k trénování AI

Nový přístup k navrhování AI založený na biologicky inspirované architektuře by mohl snížit počet datových center potřebných k provozu systémů jako ChatGří vědci z Johns Hopkins University. Studie by mohla připravit cestu k efektivnějším systémům.

V článku publikovaném v Nature Machine Intelligence tým z katedry kognitivních věd univerzity zpochybňuje konvenční přístupy k budování AI tím, že upřednostňuje architektonický design před typem hlubokého učení a tréninku, který trvá měsíce, stojí miliardy dolarů a vyžaduje tisíce megawattů energie.

Budování velkých jazykových modelů, jako je GPT-5 od OpenAI, který pohání ChatGPT a další služby společnosti, vyžaduje kolosální množství výpočetního výkonu, který se používá ke zpracování dat a trénování modelu tak, aby mohl poskytovat přesné odpovědi. Rychlý růst popularity takových systémů podnítil boom AI, přičemž velká datová centra jsou rychlým tempem budována na trzích po celém světě.

Vědci z Johns Hopkins však věří, že existuje jiná cesta.

„Způsob, jakým se nyní oblast AI pohybuje, je házet na modely spoustu dat a budovat výpočetní zdroje o velikosti malých měst. To vyžaduje utracení stovek miliard dolarů. Mezitím se lidé učí vidět s použitím velmi malého množství dat,“ řekl hlavní autor Mick Bonner, asistent profesor kognitivních věd na Johns Hopkins University. „Evoluce možná konvergovala k tomuto designu z dobrého důvodu. Naše práce naznačuje, že architektonické návrhy, které jsou více podobné mozku, staví systémy AI do velmi výhodné výchozí pozice.“

Bonner a jeho tým, který zahrnoval vědce z Johns Hopkins a Quebec AI Institute, se zaměřil na tři třídy síťových návrhů, které vývojáři AI běžně používají jako plány pro budování svých AI systémů: transformery, plně propojené sítě a konvoluční sítě.

Vědci opakovaně upravovali tyto tři plány, neboli architektury AI, aby vytvořili desítky unikátních umělých neuronových sítí. Poté vystavili tyto nové a netrénované AI sítě obrázkům objektů, lidí a zvířat a porovnali reakce modelů s mozkovou aktivitou lidí a primátů vystavených stejným obrázkům.

Když byly transformery a plně propojené sítě upraveny tím, že dostaly mnohem více umělých neuronů, vykazovaly malou změnu. Úprava architektur konvolučních neuronových sítí podobným způsobem však vědcům umožnila generovat vzorce aktivity v AI, které lépe simulovaly vzorce v lidském mozku.

Netrénované konvoluční neuronové sítě se vyrovnaly konvenčním AI systémům, které jsou obecně během tréninku vystaveny milionům nebo miliardám obrázků, uvedli vědci, což naznačuje, že architektura hraje důležitější roli, než si vědci dříve uvědomovali.

„Pokud je trénování na masivních datech skutečně klíčovým faktorem, pak by neměl existovat žádný způsob, jak se dostat k AI systémům podobným mozku pouze prostřednictvím architektonických úprav,“ řekl Bonner. „To znamená, že začneme-li se správným plánem a případně začleníme další poznatky z biologie, můžeme být schopni dramaticky urychlit učení v AI systémech.“

Vědci nyní pracují na vývoji jednoduchých učebních algoritmů modelovaných podle biologie, které by mohly formovat nový rámec hlubokého učení.

Různé společnosti se snaží vytvářet efektivnější AI modely, které vyžadují méně výpočetního výkonu k trénování a provozu. Začátkem tohoto roku čínská AI laboratoř DeepSeek vyvolala šok po celém světě, když vydala open-source AI model poskytující podobný výkon jako jiné přední modely za zlomek nákladů na trénování. Některá z jejích tvrzení však byla od té doby zpochybněna.

Zdroj: datacenterdynamics.com

Zdroj: eGOVERNMENT.NEWS  

​ 

Napsat komentář