tg-me.com/ai_machinelearning_big_data/7886
Last Update:
VideoPrism - Π±Π°Π·ΠΎΠ²ΡΠΉ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠΉ ΡΠ½ΠΊΠΎΠ΄Π΅Ρ ΠΎΡ Google. ΠΡΠΎ ΡΠ½ΠΈΠ²Π΅ΡΡΠ°Π»ΡΠ½ΡΠΉ ΠΈΠ½ΡΡΡΡΠΌΠ΅Π½Ρ, ΡΠΏΠΎΡΠΎΠ±Π½ΡΠΉ ΡΠ°Π·ΠΎΠ±ΡΠ°ΡΡΡΡ Π² ΡΠ°ΠΌΡΡ
ΡΠ°Π·Π½ΡΡ
Π½ΡΠ°Π½ΡΠ°Ρ
Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½ΡΠ΅Π½ΡΠ°: ΠΎΡ ΠΏΡΠΎΡΡΠΎΠ³ΠΎ ΡΠ°ΡΠΏΠΎΠ·Π½Π°Π²Π°Π½ΠΈΡ ΠΎΠ±ΡΠ΅ΠΊΡΠΎΠ² Π΄ΠΎ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠΉ ΠΈΠ»ΠΈ ΠΎΡΠ²Π΅ΡΠΎΠ² Π½Π° Π²ΠΎΠΏΡΠΎΡΡ.
ΠΠΎ Π·Π°ΡΠ²Π»Π΅Π½ΠΈΡ ΡΠΎΠ·Π΄Π°ΡΠ΅Π»Π΅ΠΉ, VideoPrism Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅Ρ ΡΠΎΠΏΠΎΠ²ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ Π½Π° 31 ΠΈΠ· 33 ΠΎΠ±ΡΠ΅Π΄ΠΎΡΡΡΠΏΠ½ΡΡ
Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠΎΠ². Π ΡΠ΅ΡΡΠ°Ρ
Π½Π° zero-shot, VideoPrism ΠΎΠ±ΠΎΡΠ΅Π» Π°Π½Π°Π»ΠΎΠ³ΠΈ Π² Π·Π°Π΄Π°ΡΠ°Ρ
ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ (Kinetics-600) ΠΈ ΠΎΡΠ²Π΅ΡΠΎΠ² Π½Π° Π²ΠΎΠΏΡΠΎΡΡ (MSRVTT-QA), Π΄Π°ΠΆΠ΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡΠ΅Π»ΡΠ½ΡΡ
ΠΌΠΎΠ΄Π°Π»ΡΠ½ΠΎΡΡΠ΅ΠΉ Π²ΡΠΎΠ΄Π΅ Π°ΡΠ΄ΠΈΠΎ.
Π ΠΎΡΠ½ΠΎΠ²Π΅ VideoPrism - ViT, Π½ΠΎ Ρ ΡΡΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΠΌΠΈ ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΡΠΌΠΈ, ΡΡΠΈΡΡΠ²Π°ΡΡΠΈΠΌΠΈ ΡΠΏΠ΅ΡΠΈΡΠΈΠΊΡ Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½ΡΡ
. Π Π΅Π³ΠΎ ΡΠΎΠ·Π΄Π°Π½ΠΈΠΈ ΠΈΠ½ΠΆΠ΅Π½Π΅ΡΡ Google DeepMind ΠΏΡΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ ΡΠ°ΠΊ Π½Π°Π·ΡΠ²Π°Π΅ΠΌΡΠΉ "ΡΠ°ΠΊΡΠΎΡΠΈΠ·ΠΎΠ²Π°Π½Π½ΡΠΉ" ΠΏΠΎΠ΄Ρ
ΠΎΠ΄, ΡΠ°Π·Π΄Π΅Π»ΡΡ ΠΎΠ±ΡΠ°Π±ΠΎΡΠΊΡ ΠΏΡΠΎΡΡΡΠ°Π½ΡΡΠ²Π΅Π½Π½ΡΡ
ΠΈ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΡΡ
ΠΈΠ·ΠΌΠ΅ΡΠ΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΊΠ»ΡΡΠΈΠ»ΠΈ ΡΠ»ΠΎΠΉ Π³Π»ΠΎΠ±Π°Π»ΡΠ½ΠΎΠ³ΠΎ ΡΡΡΠ΅Π΄Π½Π΅Π½ΠΈΡ, ΡΡΠΎΠ±Ρ ΡΠΎΡ
ΡΠ°Π½ΠΈΡΡ ΠΌΠ°ΠΊΡΠΈΠΌΡΠΌ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ°Π΄ΡΠ° ΠΈ Π΅Π³ΠΎ Π²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡΠΈΠΈ.
Π‘Π΅ΠΊΡΠ΅Ρ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ VideoPrism ΠΊΡΠΎΠ΅ΡΡΡ Π² Π΅Π³ΠΎ ΡΡΠ°ΡΠ΅Π»ΡΠ½ΠΎ ΠΏΡΠΎΠ΄ΡΠΌΠ°Π½Π½ΠΎΠΌ Π΄Π²ΡΡ
ΡΡΠ°ΠΏΠ½ΠΎΠΌ ΠΌΠ΅ΡΠΎΠ΄Π΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ Π½Π° Π³ΠΈΠ³Π°Π½ΡΡΠΊΠΎΠΌ ΠΊΠΎΡΠΏΡΡΠ΅ Π΄Π°Π½Π½ΡΡ
Π² 600+ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ "Π²ΠΈΠ΄Π΅ΠΎ-ΡΠ΅ΠΊΡΡ" ΠΈ ΡΡΡΡ ΠΌΠ΅Π½Π΅Π΅ ΠΌΠΈΠ»Π»ΠΈΠ°ΡΠ΄Π° "ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠ΅-ΡΠ΅ΠΊΡΡ" ΠΈΠ· Π½Π°Π±ΠΎΡΠ° Π΄Π°Π½Π½ΡΡ
WebLI:
ΠΠ° ΠΏΠ΅ΡΠ²ΠΎΠΌ ΡΡΠ°ΠΏΠ΅ ΠΌΠΎΠ΄Π΅Π»Ρ ΠΎΡΡΡΠ΅ΡΡΠ²Π»ΡΠ΅Ρ ΡΠ²ΠΎΠ΅Π³ΠΎ ΡΠΎΠ΄Π° "ΡΠΈΠ½Ρ
ΡΠΎΠ½ΠΈΠ·Π°ΡΠΈΡ" ΠΌΠ΅ΠΆΠ΄Ρ Π²ΠΈΠ΄Π΅ΠΎ- ΠΈ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΠΌ ΡΠ½ΠΊΠΎΠ΄Π΅ΡΠ°ΠΌΠΈ. ΠΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΎΠ³ΡΠΎΠΌΠ½ΡΠ΅ ΠΌΠ°ΡΡΠΈΠ²Ρ ΠΏΠ°Ρ "Π²ΠΈΠ΄Π΅ΠΎ-ΡΠ΅ΠΊΡΡ", ΠΎΠ½ΠΈ ΡΡΠ°ΡΡΡ ΡΠΎΠΏΠΎΡΡΠ°Π²Π»ΡΡΡ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠ΅ Π΄Π°Π½Π½ΡΠ΅ Ρ ΠΈΡ
ΡΠ΅ΠΌΠ°Π½ΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΎΠΏΠΈΡΠ°Π½ΠΈΡΠΌΠΈ ΠΏΠΎΡΡΠ΅Π΄ΡΡΠ²ΠΎΠΌ ΠΊΠΎΠ½ΡΡΠ°ΡΡΠΈΠ²Π½ΠΎΠ³ΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ. ΠΡΠΎ ΠΏΠΎΠ·Π²ΠΎΠ»ΡΠ΅Ρ Π²ΠΈΠ΄Π΅ΠΎΡΠ½ΠΊΠΎΠ΄Π΅ΡΡ ΠΎΡΠ²ΠΎΠΈΡΡ ΠΎΡΠ½ΠΎΠ²Π½ΡΠ΅ Π²ΠΈΠ·ΡΠ°Π»ΡΠ½ΡΠ΅ ΠΊΠΎΠ½ΡΠ΅ΠΏΡΠΈΠΈ.
ΠΠ° Π²ΡΠΎΡΠΎΠΌ ΡΡΠ°ΠΏΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅ΡΡΡ ΡΠΆΠ΅ ΠΈΡΠΊΠ»ΡΡΠΈΡΠ΅Π»ΡΠ½ΠΎ Π½Π° Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½ΡΡ
, ΠΏΡΠΈΠΌΠ΅Π½ΡΡ ΡΡΠΎΠ²Π΅ΡΡΠ΅Π½ΡΡΠ²ΠΎΠ²Π°Π½Π½ΡΡ ΡΠ΅Ρ
Π½ΠΈΠΊΡ ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ³ΠΎ ΠΌΠΎΠ΄Π΅Π»ΠΈΡΠΎΠ²Π°Π½ΠΈΡ. ΠΠ΄Π΅ΡΡ ΡΠ°ΡΡΡ Π²ΠΈΠ΄Π΅ΠΎΡΠΎΠ»ΠΈΠΊΠΎΠ² ΠΏΠΎΠ΄Π²Π΅ΡΠ³Π°Π΅ΡΡΡ ΠΌΠ°ΡΠΊΠΈΡΠΎΠ²Π°Π½ΠΈΡ, Π° VideoPrism Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΎΡΡΡΠ°Π½ΠΎΠ²Π»ΠΈΠ²Π°ΡΡ ΡΠΊΡΡΡΡΠ΅ ΡΠ°ΡΡΠΈ.
Token shuffling (ΠΏΡΠ΅Π΄ΠΎΡΠ²ΡΠ°ΡΠ°Π΅Ρ "ΠΊΠΎΠΏΠΈΠΏΠ°ΡΡΡ" ΠΎΡΠΈΠ±ΠΎΠΊ Π΄Π΅ΠΊΠΎΠ΄Π΅ΡΠ°) ΠΈ global-local distillation (ΠΏΠ΅ΡΠ΅Π½ΠΎΡ Π·Π½Π°Π½ΠΈΠΉ ΠΈΠ· ΠΏΠ΅ΡΠ²ΠΎΠ³ΠΎ ΡΡΠ°ΠΏΠ°), ΠΏΠΎΠΌΠΎΠ³Π°ΡΡ VideoPrism ΠΎΠ΄Π½ΠΎΠ²ΡΠ΅ΠΌΠ΅Π½Π½ΠΎ ΡΡΠ²Π°ΠΈΠ²Π°ΡΡ Π΄Π΅ΡΠ°Π»ΠΈ ΠΈΠ·ΠΎΠ±ΡΠ°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ ΡΠΎΠ½ΠΊΠΎΡΡΠΈ Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠΉ, ΠΈΠ·Π±Π΅Π³Π°Ρ ΠΏΡΠΈ ΡΡΠΎΠΌ "ΠΊΠ°ΡΠ°ΡΡΡΠΎΡΠΈΡΠ΅ΡΠΊΠΎΠ³ΠΎ Π·Π°Π±ΡΠ²Π°Π½ΠΈΡ".
@ai_machinelearning_big_data
#AI #ML #Encoder #VideoPrism #Google #DeepMind