Společnost Encord spustila EBIND, embedding model, který podle jejích slov umožňuje AI týmům vylepšit schopnosti agentů, robotů a dalších AI systémů využívajících multimodální data. Jak se roboty potýkají se stále složitějšími prostředími a úkoly, jejich umělá inteligence musí být schopna zpracovávat a využívat data z mnoha zdrojů.
Postaveno na největším open-source datasetu
Encord postavil EBIND na nedávno vydaném datasetu E-MM1, který podle společnosti je největším open-source multimodálním datasetem na světě. Model umožňuje uživatelům vyhledávat audio, video, text nebo obrazová data pomocí dat jakékoli jiné modality.
EBIND může také začlenit 3D mračna bodů z lidarových senzorů jako modalitu. To umožňuje následným multimodálním modelům například porozumět poloze objektu, tvaru a vztahům k jiným objektům v jeho fyzickém prostředí.
Vývojáři AI a robotiky mohou použít EBIND k vytváření multimodálních modelů. S ním mohou extrapolovat 3D tvar auta na základě 2D obrázku, lokalizovat video na základě jednoduchých hlasových příkazů nebo přesně vykreslit zvuk letadla na základě jeho polohy vzhledem k posluchači.
Díky vyšší kvalitě dat je EBIND menší a rychlejší než konkurenční modely, při zachování nižších nákladů na datovou položku a podpoře širšího spektra modalit. Menší velikost modelu navíc znamená, že může být nasazen a spuštěn na lokální infrastruktuře, což výrazně snižuje latenci a umožňuje inferenci v reálném čase.
Encord uvedl, že vydání EBIND jako open-source modelu demonstruje jeho závazek učinit multimodální AI přístupnější.
Encord tvrdí, že to posílí AI týmy, od univerzitních laboratoří a startupů až po veřejně obchodované společnosti, aby rychle rozšířily a vylepšily schopnosti svých multimodálních modelů nákladově efektivním způsobem.
Encord očekává, že klíčové případy použití pro EBIND budou zahrnovat:
- Umožnění velkým jazykovým modelům (LLM) porozumět všem datovým modalitám z jediného jednotného prostoru
- Učení LLM popisovat nebo odpovídat na otázky o obrázcích, audu, videu a/nebo 3D obsahu
- Křížové modální učení, nebo použití příkladů z jednoho datového typu, jako jsou obrázky, k pomoci modelům rozpoznat vzory v jiných, jako je audio
- Aplikace kontroly kvality, jako je detekce případů, kdy audio neodpovídá generovanému videu nebo nalezení předsudků v datasetech
- Použití embeddingů z modelu EBIND k podmínění generování videa pomocí textu, objektů nebo audio embeddingů
Zdroj: therobotreport.com
Zdroj: eTEC.NEWS


