EBIND: Multimodální model pro AI agenty a roboty

Společnost Encord spustila EBIND, embedding model, který podle jejích slov umožňuje AI týmům vylepšit schopnosti agentů, robotů a dalších AI systémů využívajících multimodální data. Jak se roboty potýkají se stále složitějšími prostředími a úkoly, jejich umělá inteligence musí být schopna zpracovávat a využívat data z mnoha zdrojů.

Postaveno na největším open-source datasetu

Encord postavil EBIND na nedávno vydaném datasetu E-MM1, který podle společnosti je největším open-source multimodálním datasetem na světě. Model umožňuje uživatelům vyhledávat audio, video, text nebo obrazová data pomocí dat jakékoli jiné modality.

EBIND může také začlenit 3D mračna bodů z lidarových senzorů jako modalitu. To umožňuje následným multimodálním modelům například porozumět poloze objektu, tvaru a vztahům k jiným objektům v jeho fyzickém prostředí.

Vývojáři AI a robotiky mohou použít EBIND k vytváření multimodálních modelů. S ním mohou extrapolovat 3D tvar auta na základě 2D obrázku, lokalizovat video na základě jednoduchých hlasových příkazů nebo přesně vykreslit zvuk letadla na základě jeho polohy vzhledem k posluchači.

Díky vyšší kvalitě dat je EBIND menší a rychlejší než konkurenční modely, při zachování nižších nákladů na datovou položku a podpoře širšího spektra modalit. Menší velikost modelu navíc znamená, že může být nasazen a spuštěn na lokální infrastruktuře, což výrazně snižuje latenci a umožňuje inferenci v reálném čase.

Encord uvedl, že vydání EBIND jako open-source modelu demonstruje jeho závazek učinit multimodální AI přístupnější.

Encord tvrdí, že to posílí AI týmy, od univerzitních laboratoří a startupů až po veřejně obchodované společnosti, aby rychle rozšířily a vylepšily schopnosti svých multimodálních modelů nákladově efektivním způsobem.

Encord očekává, že klíčové případy použití pro EBIND budou zahrnovat:

  • Umožnění velkým jazykovým modelům (LLM) porozumět všem datovým modalitám z jediného jednotného prostoru
  • Učení LLM popisovat nebo odpovídat na otázky o obrázcích, audu, videu a/nebo 3D obsahu
  • Křížové modální učení, nebo použití příkladů z jednoho datového typu, jako jsou obrázky, k pomoci modelům rozpoznat vzory v jiných, jako je audio
  • Aplikace kontroly kvality, jako je detekce případů, kdy audio neodpovídá generovanému videu nebo nalezení předsudků v datasetech
  • Použití embeddingů z modelu EBIND k podmínění generování videa pomocí textu, objektů nebo audio embeddingů

 

Zdroj: therobotreport.com

Zdroj: eTEC.NEWS 

Napsat komentář