Telegram Group & Telegram Channel
🌟 VideoPrism: энкодСр, Π·Π°Ρ‚ΠΎΡ‡Π΅Π½Π½Ρ‹ΠΉ для ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°.

VideoPrism - Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΎΡ‚ Google. Π­Ρ‚ΠΎ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ инструмСнт, способный Ρ€Π°Π·ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π² самых Ρ€Π°Π·Π½Ρ‹Ρ… Π½ΡŽΠ°Π½ΡΠ°Ρ… Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°: ΠΎΡ‚ простого распознавания ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄ΠΎ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ описаний ΠΈΠ»ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы.

По заявлСнию создатСлСй, VideoPrism дСмонстрируСт Ρ‚ΠΎΠΏΠΎΠ²Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° 31 ΠΈΠ· 33 общСдоступных Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ². Π’ тСстах Π½Π° zero-shot, VideoPrism обошСл Π°Π½Π°Π»ΠΎΠ³ΠΈ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… классификации (Kinetics-600) ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы (MSRVTT-QA), Π΄Π°ΠΆΠ΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ Π²Ρ€ΠΎΠ΄Π΅ Π°ΡƒΠ΄ΠΈΠΎ.

Π’ основС VideoPrism - ViT, Π½ΠΎ с сущСствСнными модификациями, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ спСцифику Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…. Π’ Π΅Π³ΠΎ создании ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ Google DeepMind ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ "Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ" ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, раздСляя ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ пространствСнных ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΠ»ΠΈ слой глобального усрСднСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ максимум ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ°Π΄Ρ€Π° ΠΈ Π΅Π³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ.

Π‘Π΅ΠΊΡ€Π΅Ρ‚ эффСктивности VideoPrism кроСтся Π² Π΅Π³ΠΎ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΌΠ°Π½Π½ΠΎΠΌ двухэтапном ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ обучСния Π½Π° гигантском корпусС Π΄Π°Π½Π½Ρ‹Ρ… Π² 600+ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст" ΠΈ Ρ‡ΡƒΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΅ ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π° "ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅-тСкст" ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… WebLI:

На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС модСль осущСствляСт своСго Ρ€ΠΎΠ΄Π° "ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ" ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΠΈΠ΄Π΅ΠΎ- ΠΈ тСкстовым энкодСрами. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Π΅ массивы ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст", ΠΎΠ½ΠΈ учатся ΡΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ с ΠΈΡ… сСмантичСскими описаниями посрСдством контрастивного обучСния. Π­Ρ‚ΠΎ позволяСт видСоэнкодСру ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ основныС Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ.

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ продолТаСтся ΡƒΠΆΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π° Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…, примСняя ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ маскированного модСлирования. Π—Π΄Π΅ΡΡŒ Ρ‡Π°ΡΡ‚ΡŒ Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ² подвСргаСтся ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ, Π° VideoPrism Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΎΡΡΡ‚Π°Π½ΠΎΠ²Π»ΠΈΠ²Π°Ρ‚ΡŒ скрытыС части.

Token shuffling (ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ "копипасту" ошибок Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°) ΠΈ global-local distillation (пСрСнос Π·Π½Π°Π½ΠΈΠΉ ΠΈΠ· ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ этапа), ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ VideoPrism ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡƒΡΠ²Π°ΠΈΠ²Π°Ρ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ тонкости Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠΉ, избСгая ΠΏΡ€ΠΈ этом "катастрофичСского забывания".

▢️В ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ 2 вСрсии, Base ΠΈ Large:

🟒VideoPrism-B, 114М ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-B;

🟠VideoPrism-L, 354M ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-L.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
🟑Google Collab
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ai_machinelearning_big_data/7888
Create:
Last Update:

🌟 VideoPrism: энкодСр, Π·Π°Ρ‚ΠΎΡ‡Π΅Π½Π½Ρ‹ΠΉ для ΠΏΠΎΠ½ΠΈΠΌΠ°Π½ΠΈΠΈ Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°.

VideoPrism - Π±Π°Π·ΠΎΠ²Ρ‹ΠΉ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹ΠΉ энкодСр ΠΎΡ‚ Google. Π­Ρ‚ΠΎ ΡƒΠ½ΠΈΠ²Π΅Ρ€ΡΠ°Π»ΡŒΠ½Ρ‹ΠΉ инструмСнт, способный Ρ€Π°Π·ΠΎΠ±Ρ€Π°Ρ‚ΡŒΡΡ Π² самых Ρ€Π°Π·Π½Ρ‹Ρ… Π½ΡŽΠ°Π½ΡΠ°Ρ… Π²ΠΈΠ΄Π΅ΠΎΠΊΠΎΠ½Ρ‚Π΅Π½Ρ‚Π°: ΠΎΡ‚ простого распознавания ΠΎΠ±ΡŠΠ΅ΠΊΡ‚ΠΎΠ² Π΄ΠΎ Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ описаний ΠΈΠ»ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы.

По заявлСнию создатСлСй, VideoPrism дСмонстрируСт Ρ‚ΠΎΠΏΠΎΠ²Ρ‹Π΅ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π½Π° 31 ΠΈΠ· 33 общСдоступных Π±Π΅Π½Ρ‡ΠΌΠ°Ρ€ΠΊΠΎΠ². Π’ тСстах Π½Π° zero-shot, VideoPrism обошСл Π°Π½Π°Π»ΠΎΠ³ΠΈ Π² Π·Π°Π΄Π°Ρ‡Π°Ρ… классификации (Kinetics-600) ΠΈ ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Π½Π° вопросы (MSRVTT-QA), Π΄Π°ΠΆΠ΅ Π½Π΅ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ Π΄ΠΎΠΏΠΎΠ»Π½ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ Π²Ρ€ΠΎΠ΄Π΅ Π°ΡƒΠ΄ΠΈΠΎ.

Π’ основС VideoPrism - ViT, Π½ΠΎ с сущСствСнными модификациями, ΡƒΡ‡ΠΈΡ‚Ρ‹Π²Π°ΡŽΡ‰ΠΈΠΌΠΈ спСцифику Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…. Π’ Π΅Π³ΠΎ создании ΠΈΠ½ΠΆΠ΅Π½Π΅Ρ€Ρ‹ Google DeepMind ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΠ»ΠΈ Ρ‚Π°ΠΊ Π½Π°Π·Ρ‹Π²Π°Π΅ΠΌΡ‹ΠΉ "Ρ„Π°ΠΊΡ‚ΠΎΡ€ΠΈΠ·ΠΎΠ²Π°Π½Π½Ρ‹ΠΉ" ΠΏΠΎΠ΄Ρ…ΠΎΠ΄, раздСляя ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΡƒ пространствСнных ΠΈ Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹Ρ… ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠΉ ΠΈ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΠ»ΠΈ слой глобального усрСднСния, Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΡΠΎΡ…Ρ€Π°Π½ΠΈΡ‚ΡŒ максимум ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ ΠΈΠ· ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ ΠΊΠ°Π΄Ρ€Π° ΠΈ Π΅Π³ΠΎ Π²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎΠΉ ΠΏΠΎΠ·ΠΈΡ†ΠΈΠΈ.

Π‘Π΅ΠΊΡ€Π΅Ρ‚ эффСктивности VideoPrism кроСтся Π² Π΅Π³ΠΎ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎ ΠΏΡ€ΠΎΠ΄ΡƒΠΌΠ°Π½Π½ΠΎΠΌ двухэтапном ΠΌΠ΅Ρ‚ΠΎΠ΄Π΅ обучСния Π½Π° гигантском корпусС Π΄Π°Π½Π½Ρ‹Ρ… Π² 600+ ΠΌΠΈΠ»Π»ΠΈΠΎΠ½ΠΎΠ² ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст" ΠΈ Ρ‡ΡƒΡ‚ΡŒ ΠΌΠ΅Π½Π΅Π΅ ΠΌΠΈΠ»Π»ΠΈΠ°Ρ€Π΄Π° "ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠ΅-тСкст" ΠΈΠ· Π½Π°Π±ΠΎΡ€Π° Π΄Π°Π½Π½Ρ‹Ρ… WebLI:

На ΠΏΠ΅Ρ€Π²ΠΎΠΌ этапС модСль осущСствляСт своСго Ρ€ΠΎΠ΄Π° "ΡΠΈΠ½Ρ…Ρ€ΠΎΠ½ΠΈΠ·Π°Ρ†ΠΈΡŽ" ΠΌΠ΅ΠΆΠ΄Ρƒ Π²ΠΈΠ΄Π΅ΠΎ- ΠΈ тСкстовым энкодСрами. Π˜ΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΎΠ³Ρ€ΠΎΠΌΠ½Ρ‹Π΅ массивы ΠΏΠ°Ρ€ "Π²ΠΈΠ΄Π΅ΠΎ-тСкст", ΠΎΠ½ΠΈ учатся ΡΠΎΠΏΠΎΡΡ‚Π°Π²Π»ΡΡ‚ΡŒ Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅ с ΠΈΡ… сСмантичСскими описаниями посрСдством контрастивного обучСния. Π­Ρ‚ΠΎ позволяСт видСоэнкодСру ΠΎΡΠ²ΠΎΠΈΡ‚ΡŒ основныС Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Ρ‹Π΅ ΠΊΠΎΠ½Ρ†Π΅ΠΏΡ†ΠΈΠΈ.

На Π²Ρ‚ΠΎΡ€ΠΎΠΌ этапС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ продолТаСтся ΡƒΠΆΠ΅ ΠΈΡΠΊΠ»ΡŽΡ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ Π½Π° Π²ΠΈΠ΄Π΅ΠΎΠ΄Π°Π½Π½Ρ‹Ρ…, примСняя ΡƒΡΠΎΠ²Π΅Ρ€ΡˆΠ΅Π½ΡΡ‚Π²ΠΎΠ²Π°Π½Π½ΡƒΡŽ Ρ‚Π΅Ρ…Π½ΠΈΠΊΡƒ маскированного модСлирования. Π—Π΄Π΅ΡΡŒ Ρ‡Π°ΡΡ‚ΡŒ Π²ΠΈΠ΄Π΅ΠΎΡ€ΠΎΠ»ΠΈΠΊΠΎΠ² подвСргаСтся ΠΌΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ, Π° VideoPrism Π΄ΠΎΠ»ΠΆΠ΅Π½ Π²ΠΎΡΡΡ‚Π°Π½ΠΎΠ²Π»ΠΈΠ²Π°Ρ‚ΡŒ скрытыС части.

Token shuffling (ΠΏΡ€Π΅Π΄ΠΎΡ‚Π²Ρ€Π°Ρ‰Π°Π΅Ρ‚ "копипасту" ошибок Π΄Π΅ΠΊΠΎΠ΄Π΅Ρ€Π°) ΠΈ global-local distillation (пСрСнос Π·Π½Π°Π½ΠΈΠΉ ΠΈΠ· ΠΏΠ΅Ρ€Π²ΠΎΠ³ΠΎ этапа), ΠΏΠΎΠΌΠΎΠ³Π°ΡŽΡ‚ VideoPrism ΠΎΠ΄Π½ΠΎΠ²Ρ€Π΅ΠΌΠ΅Π½Π½ΠΎ ΡƒΡΠ²Π°ΠΈΠ²Π°Ρ‚ΡŒ Π΄Π΅Ρ‚Π°Π»ΠΈ ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ ΠΈ тонкости Π΄Π²ΠΈΠΆΠ΅Π½ΠΈΠΉ, избСгая ΠΏΡ€ΠΈ этом "катастрофичСского забывания".

▢️В ΠΎΡ‚ΠΊΡ€Ρ‹Ρ‚ΠΎΠΌ доступС ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Ρ‹ 2 вСрсии, Base ΠΈ Large:

🟒VideoPrism-B, 114М ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-B;

🟠VideoPrism-L, 354M ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ², Π½Π° Π±Π°Π·Π΅ ViT-L.


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


πŸŸ‘Π‘Ρ‚Π°Ρ‚ΡŒΡ
πŸŸ‘ΠΠ°Π±ΠΎΡ€ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ
🟑Arxiv
🟑Google Collab
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind

BY Machinelearning






Share with your friend now:
tg-me.com/ai_machinelearning_big_data/7888

View MORE
Open in Telegram


Machinelearning Telegram | DID YOU KNOW?

Date: |

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

What is Telegram?

Telegram’s stand out feature is its encryption scheme that keeps messages and media secure in transit. The scheme is known as MTProto and is based on 256-bit AES encryption, RSA encryption, and Diffie-Hellman key exchange. The result of this complicated and technical-sounding jargon? A messaging service that claims to keep your data safe.Why do we say claims? When dealing with security, you always want to leave room for scrutiny, and a few cryptography experts have criticized the system. Overall, any level of encryption is better than none, but a level of discretion should always be observed with any online connected system, even Telegram.

Machinelearning from us


Telegram Machinelearning
FROM USA