Майбутнє настає вже зараз – відеоспостереження зустрічається з аналітичним інтелектом

Яким буде світ, коли відеоспостереження зустрінеться з аналітичним інтелектом?
Технології відеоаналітики розвиваються протягом останніх 10 років. Машинне навчання значно спрощує процес розробки програмного забезпечення, а обчислювальна потужність графічних процесорів дозволяє виконувати відеоаналіз в режимі реального часу. Наприклад, на саміті G20, який відбувся в 2016 році в Китаї, було розгорнуто рішення безпеки, розроблене Dahua Technology, з використанням глибинного навчання аналітичного інтелекту – для автоматичного аналізу пішоходів в аеропортах і на вокзалах, з метою виявлення потенційних підозрюваних в скоєнні злочинів.
Глибинне навчання відноситься до штучних нейронних мереж, які складаються з безлічі шарів. Воно покликане наслідувати здібностям людини аналізувати і вчитися. Воно імітує механізм мозку, щоб інтерпретувати дані, такі як зображення, голос і текст. Глибинне навчання було успішно застосовано в розпізнаванні образів і голосу. У 2013 році глибинне навчання було внесено до списку MIT як одна з десяти найбільш проривних технологій.
В індустрії безпеки застосування глибинного навчання важливо з двох причин: з одного боку, воно підвищує точність деяких алгоритмів, з іншого боку, воно реалізує функції, які не можуть бути виконані без використання глибинного навчання. Наприклад, розпізнавання особи включає в себе три ключові частини: виявлення особи, виділення ключових рис (особливостей) особи, порівняння цих особливостей. Якби була застосована технологія глибинного навчання, продуктивність кожної процедури була б значно поліпшена.
Використовуючи глибинне навчання, вираз обличчя, стать, вік, колір волосся, аксесуари, емоції і т.д., можуть бути розпізнані більш ефективно. Крім того, графічний процесор може використовуватися для прискорення обчислення алгоритму глибинного навчання. Традиційний інтелектуальний аналіз не може охопити великомасштабну сцену з більш ніж 300 людьми, не кажучи вже про груповому аналізі рухомих сцен. Тепер, грунтуючись на технологіях глибинного навчання і графічний процесор, він може легко справлятися з 300 цілями одночасно, а також оцінювати щільність натовпу і визначати рух натовпу, надавати більш корисну інформацію співробітникам служби безпеки.
Очевидно, що глибинне навчання прискорює розвиток інтелектуального спостереження. 7 березня 2017 року Dahua разом з Nvidia, провідною в світі компанією з розробки штучного інтелекту, запустили сервер Deep Sense для аналізу інтелектуальної структури відео. Тим часом, Dahua також співпрацює з багатьма відомими університетами в Китаї і за його межами, щоб просувати дослідження в області глибинного навчання. В результаті алгоритм розпізнавання осіб Dahua посів перше місце на публічній авторитетної тестової платформі LFW, перемігши Tencent, Google та інші провідні наукові групи і комерційні компанії по всьому світу.
Здатність використовувати штучний інтелект для ідентифікації та аналізу транспортних засобів буде дуже цінною. Після застосування глибинного навчання було очевидне поліпшення в додатках безпеки на базі штучного інтелекту. З одного боку, швидкість розпізнавання номерних знаків значно зросла, з іншого боку, з’явилася можливість більш точно ідентифікувати властивості автомобіля, такі як тип, модель і колір. Об’єднуючи різні елементи в одному пошуку, стає можливим ідентифікувати шукане транспортний засіб, навіть якщо номерний знак ні захоплений.
Традиційна технологія інтелектуального відеоаналізу раніше не була здатна розпізнавати форму тіла, стать, вік, колір волосся або довжину волосся, але технологія глибинного навчання Dahua зробила це можливим. Сервер відеоаналітики з використанням глибинного навчання здійснює розпізнавання до 80 осіб протягом 40 мс. Таке розпізнавання також підходить для використання в місцях масового скупчення людей з безперервними потоками, наприклад, на ескалаторах, перехрестях, в ділових і виставкових центрах, а його точність досягає 95%.
Сервер з підтримкою графічного процесора «Deep Sense» може охоплювати 192 каналу HD-відео. На відміну від попередньої Intelligent Video Analytics (IVA), яка може контролювати тільки ключові входи через обмеження вартості і ємності, технічно і економічно доцільно повністю контролювати систему спостереження типового будівлі.
Розвиток додатків штучного інтелекту, ймовірно, зіткнеться з багатьма перешкодами і труднощами, але тенденції оптимістичні. Прогрес в розпізнаванні людських образів і транспортних засобів справив значний вплив на додатки безпеки. Розпізнавання голосу, ймовірно, буде наступним кроком. Акустичні шаблони можна комбінувати з характеристиками поведінки людини або характеристиками автомобіля, щоб звузити пошук і зменшити помилкові тривоги. Голос також може бути формою введення даних або взаємодії. Жест рукою і жест тіла, або їх комбінація може допомогти «машині» зрозуміти контекст того, що відбувається.

Залишити відповідь