Telegram Group & Telegram Channel
🌟 VideoPrism: энкодСр, Π·Π°Ρ‚ΠΎΡ‡Π΅Π½Π½Ρ‹ΠΉ для ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°.

VideoPrism - Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΎΡ‚ Google. Π­Ρ‚ΠΎ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ инструмСнт, способный Ρ€Π°Π·ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π² самых Ρ€Π°Π·Π½Ρ‹Ρ… Π½ΡŽΠ°Π½ΡΠ°Ρ… Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°: ΠΎΡ‚ простого распознавания ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄ΠΎ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ описаний ΠΈΠ»ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы.

По заявлСнию создатСлСй, VideoPrism дСмонстрируСт Ρ‚ΠΎΠΏΠΎΠ²Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° 31 ΠΈΠ· 33 общСдоступных Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ². Π’ тСстах Π½Π° zero-shot, VideoPrism обошСл Π°Π½Π°Π»ΠΎΠ³ΠΈ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… классификации (Kinetics-600) ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы (MSRVTT-QA), Π΄Π°ΠΆΠ΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ Π²Ρ€ΠΎΠ΄Π΅ Π°ΡƒΠ΄ΠΈΠΎ.

Π’ основС VideoPrism - ViT, Π½ΠΎ с сущСствСнными модификациями, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ спСцифику Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…. Π’ Π΅Π³ΠΎ создании ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ Google DeepMind ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ "Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ" ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, раздСляя ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ пространствСнных ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΠ»ΠΈ слой глобального усрСднСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ максимум ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ°Π΄Ρ€Π° ΠΈ Π΅Π³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ.

Π‘Π΅ΠΊΡ€Π΅Ρ‚ эффСктивности VideoPrism кроСтся Π² Π΅Π³ΠΎ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΌΠ°Π½Π½ΠΎΠΌ двухэтапном ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ обучСния Π½Π° гигантском корпусС Π΄Π°Π½Π½Ρ‹Ρ… Π² 600+ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст" ΠΈ Ρ‡ΡƒΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΅ ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π° "ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅-тСкст" ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… WebLI:

На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС модСль осущСствляСт своСго Ρ€ΠΎΠ΄Π° "ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ" ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΠΈΠ΄Π΅ΠΎ- ΠΈ тСкстовым энкодСрами. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Π΅ массивы ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст", ΠΎΠ½ΠΈ учатся ΡΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ с ΠΈΡ… сСмантичСскими описаниями посрСдством контрастивного обучСния. Π­Ρ‚ΠΎ позволяСт видСоэнкодСру ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ основныС Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ.

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ продолТаСтся ΡƒΠΆΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π° Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…, примСняя ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ маскированного модСлирования. Π—Π΄Π΅ΡΡŒ Ρ‡Π°ΡΡ‚ΡŒ Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ² подвСргаСтся ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ, Π° VideoPrism Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΎΡΡΡ‚Π°Π½ΠΎΠ²Π»ΠΈΠ²Π°Ρ‚ΡŒ скрытыС части.

Token shuffling (ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ "копипасту" ошибок Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°) ΠΈ global-local distillation (пСрСнос Π·Π½Π°Π½ΠΈΠΉ ΠΈΠ· ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ этапа), ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ VideoPrism ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡƒΡΠ²Π°ΠΈΠ²Π°Ρ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ тонкости Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠΉ, избСгая ΠΏΡ€ΠΈ этом "катастрофичСского забывания".

▢️В ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ 2 вСрсии, Base ΠΈ Large:

🟒VideoPrism-B, 114М ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-B;

🟠VideoPrism-L, 354M ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-L.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
🟑Google Collab
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7886
Create:
Last Update:

🌟 VideoPrism: энкодСр, Π·Π°Ρ‚ΠΎΡ‡Π΅Π½Π½Ρ‹ΠΉ для ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°.

VideoPrism - Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΎΡ‚ Google. Π­Ρ‚ΠΎ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ инструмСнт, способный Ρ€Π°Π·ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π² самых Ρ€Π°Π·Π½Ρ‹Ρ… Π½ΡŽΠ°Π½ΡΠ°Ρ… Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°: ΠΎΡ‚ простого распознавания ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄ΠΎ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ описаний ΠΈΠ»ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы.

По заявлСнию создатСлСй, VideoPrism дСмонстрируСт Ρ‚ΠΎΠΏΠΎΠ²Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° 31 ΠΈΠ· 33 общСдоступных Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ². Π’ тСстах Π½Π° zero-shot, VideoPrism обошСл Π°Π½Π°Π»ΠΎΠ³ΠΈ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… классификации (Kinetics-600) ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы (MSRVTT-QA), Π΄Π°ΠΆΠ΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ Π²Ρ€ΠΎΠ΄Π΅ Π°ΡƒΠ΄ΠΈΠΎ.

Π’ основС VideoPrism - ViT, Π½ΠΎ с сущСствСнными модификациями, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ спСцифику Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…. Π’ Π΅Π³ΠΎ создании ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ Google DeepMind ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ "Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ" ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, раздСляя ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ пространствСнных ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΠ»ΠΈ слой глобального усрСднСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ максимум ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ°Π΄Ρ€Π° ΠΈ Π΅Π³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ.

Π‘Π΅ΠΊΡ€Π΅Ρ‚ эффСктивности VideoPrism кроСтся Π² Π΅Π³ΠΎ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΌΠ°Π½Π½ΠΎΠΌ двухэтапном ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ обучСния Π½Π° гигантском корпусС Π΄Π°Π½Π½Ρ‹Ρ… Π² 600+ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст" ΠΈ Ρ‡ΡƒΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΅ ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π° "ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅-тСкст" ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… WebLI:

На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС модСль осущСствляСт своСго Ρ€ΠΎΠ΄Π° "ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ" ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΠΈΠ΄Π΅ΠΎ- ΠΈ тСкстовым энкодСрами. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Π΅ массивы ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст", ΠΎΠ½ΠΈ учатся ΡΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ с ΠΈΡ… сСмантичСскими описаниями посрСдством контрастивного обучСния. Π­Ρ‚ΠΎ позволяСт видСоэнкодСру ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ основныС Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ.

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ продолТаСтся ΡƒΠΆΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π° Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…, примСняя ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ маскированного модСлирования. Π—Π΄Π΅ΡΡŒ Ρ‡Π°ΡΡ‚ΡŒ Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ² подвСргаСтся ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ, Π° VideoPrism Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΎΡΡΡ‚Π°Π½ΠΎΠ²Π»ΠΈΠ²Π°Ρ‚ΡŒ скрытыС части.

Token shuffling (ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ "копипасту" ошибок Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°) ΠΈ global-local distillation (пСрСнос Π·Π½Π°Π½ΠΈΠΉ ΠΈΠ· ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ этапа), ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ VideoPrism ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡƒΡΠ²Π°ΠΈΠ²Π°Ρ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ тонкости Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠΉ, избСгая ΠΏΡ€ΠΈ этом "катастрофичСского забывания".

▢️В ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ 2 вСрсии, Base ΠΈ Large:

🟒VideoPrism-B, 114М ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-B;

🟠VideoPrism-L, 354M ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-L.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
🟑Google Collab
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind

BY Machinelearning






Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7886

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Tata Power whose core business is to generate, transmit and distribute electricity has made no money to investors in the last one decade. That is a big blunder considering it is one of the largest power generation companies in the country. One of the reasons is the company's huge debt levels which stood at β‚Ή43,559 crore at the end of March 2021 compared to the company’s market capitalisation of β‚Ή44,447 crore.

A project of our size needs at least a few hundred million dollars per year to keep going,” Mr. Durov wrote in his public channel on Telegram late last year. β€œWhile doing that, we will remain independent and stay true to our values, redefining how a tech company should operate.

Machinelearning from us


Telegram Machinelearning
FROM USA