Dirbtinio intelekto sistemų, skirtų kurti meno kūrinius remiantis abstrakčiais aprašymais, pramonės vystymasis įgavo tokį pagreitį, kad stebina net jų kūrėjus. Kas kelis mėnesius išleidžiamos naujos programos, kurios demonstruoja vis aukštesnę darbo kokybę, tačiau taip pat tampa vis mažiau valdomos. Pavyzdys – nelengvas „Imagen Video” projekto likimas.
„Google” pristatė pirmąjį savo naujojo dirbtinio intelekto kūrinį „Imagen Video”, kuris iš paprastų tekstinių aprašymų gali sukurti 1280×768 raiškos HD vaizdo įrašą 24 kadrų per sekundę sparta. Ji sukuria pilnus 3D modelius, kuriuose galima kurti sudėtingas scenas ir rodyti jas įvairiais kampais. Jis gali imituoti garsių menininkų tapybos stilių, suprasti abstrakčias sąvokas ir surinkti vaizdo įrašą iš neegzistuojančių objektų. Pavyzdžiui, zondas, skriejantis per kosmoso piratų mūšio laukus su nežinomais ateiviais.
„Imagen Video” sukurta septynių lygių kaskada, kurioje pirmuoju lygiu sukuriamas paprasčiausias įmanomas teksto užduoties vizualizavimo modelis. Tada, atsižvelgiant į užduotį, paveikslėlis žingsnis po žingsnio tobulinamas, gaunami tinkami efektai, animacija ir pan. Dirbtinis intelektas buvo apmokytas naudojant duomenų bazę LAION-400M, kurioje yra apie 14 mln. aprašymo ir vaizdo įrašų kombinacijų porų ir 60 mln. teksto ir paveikslėlių kombinacijų porų, tačiau būtent tai yra pagrindinė jo silpnoji vieta.
Siekiant išsamiai aprėpti žmonijos sukauptą kultūrinę bazę, LAION-400M tapo atvira duomenų baze, todėl joje yra daug turinio, kuris neturėtų būti rodomas dėl cenzūros priežasčių. Deja, jos taip pat negalima atmesti, nes kitaip dirbtinis intelektas prarastų gebėjimą tinkamai atpažinti prašymus. Pavyzdžiui, norėdami parodyti užuojautą, turite suprasti skausmą ir kančią. „Google” kol kas nepavyko rasti šios sudėtingos užduoties sprendimo, todėl neribotam laikui atidėjo „Imagen Video” kodo paskelbimą ir prieigos prie šio dirbtinio intelekto atvėrimą.