Deep Learning – El futuro de nuestra industria

junio 25, 2017

Fuente: Hikvision Digital Technology

Los dispositivos de almacenamiento de datos en toda la industria de la seguridad se requieren rutinariamente para manejar una cantidad enorme y muchas capas de datos sin procesar. A medida que los proyectos de Ciudad Segura en diferentes tamaños se vuelven más frecuentes, el número de nodos de vigilancia ha alcanzado los cientos de miles. Y debido al uso generalizado del monitoreo de alta definición, la cantidad de datos involucrados en la vigilancia de seguridad ha aumentado dramáticamente en un corto tiempo. La recopilación, el análisis y la aplicación eficaces de los datos y el uso inteligente de los mismos se están volviendo cada vez más críticos en esta industria. Por lo tanto, la mejora de la inteligencia de vídeo parece ser una meta inevitable para toda la industria.

Los usuarios de seguridad esperan que su inversión en nuevos productos traiga aún más beneficios más allá del simple rastreo y seguimiento de personas de interés y recolección de evidencia después de un evento de seguridad. Algunos ejemplos de beneficios adicionales incluyen el uso de las últimas tecnologías para reemplazar la gran cantidad de energía necesaria anteriormente para buscar metrajes de vigilancia, detectar datos anómalos y encontrar formas cada vez más eficaces de permitir que la vigilancia cambie de rastreo post incidente a alertas durante incidentes -o incluso alertas previas a incidentes. Para satisfacer estas demandas, se requieren nuevas tecnologías. La videovigilancia inteligente está disponible desde hace muchos años. Sin embargo, los resultados de su aplicación no han sido ideales. La aparición del aprendizaje profundo ha permitido que estas demandas se conviertan en realidad.

La Insuficiencia de los Algoritmos Inteligentes Tradicionales
La videovigilancia inteligente tradicional tiene requisitos especialmente estrictos para los antecedentes de una escena. La precisión del reconocimiento y análisis inteligente en escenarios comparables sigue siendo incoherente. Esto se debe principalmente al hecho de que los algoritmos tradicionales de análisis de video inteligente todavía tienen muchos defectos.

En un proceso de reconocimiento y análisis inteligente, como el reconocimiento facial humano, se requieren dos pasos clave: en primer lugar, se extraen las características y, en segundo lugar, se realiza el «aprendizaje de clasificación».

D1.pngEl grado de precisión en este primer paso determina directamente la precisión del algoritmo. De hecho, la mayor parte del cálculo del sistema y la carga de trabajo de las pruebas se consumen en esta parte. Las características de los algoritmos inteligentes tradicionales han sido diseñadas por humanos y siempre han sido muy subjetivas. Los rasgos más abstractos -los que los seres humanos tienen dificultad para comprender o describir- son inevitablemente perdidos. Con ángulos de desplazamiento e iluminación, y especialmente cuando el tamaño de la muestra es enorme, muchas características pueden ser demasiado difíciles de detectar. Por lo tanto, mientras que los algoritmos inteligentes tradicionales funcionan bien en entornos muy específicos, cambios sutiles (calidad de imagen, entorno, etc.) producen desafíos significativos a la precisión.

El segundo paso-la clasificación de aprendizaje-principalmente implica la detección de objetivos y reconocimiento de atributos. A medida que aumenta el número de categorías disponibles para clasificación, también lo hace el nivel de dificultad. Por lo tanto, las tecnologías tradicionales de análisis inteligentes son muy precisas en el análisis de vehículos, pero no en el análisis humano y de objetos. Por ejemplo, en la detección de vehículos, se hace una distinción entre un vehículo y un no vehículo, por lo que la clasificación es simple y el nivel de dificultad es bajo. Para reconocer atributos de vehículos se requiere el reconocimiento de diferentes diseños de vehículos, logotipos, etc. Sin embargo, hay relativamente pocos de ellos, haciendo que los resultados de la clasificación sean generalmente precisos. Por otra parte, si el reconocimiento se realiza en las caras humanas, cada persona es una clasificación propia, y las categorías correspondientes serán extremadamente numerosas-naturalmente conduce a un nivel muy alto de dificultad.

Los algoritmos inteligentes tradicionales generalmente utilizan modelos de aprendizaje superficial para manejar situaciones con grandes cantidades de datos en clasificaciones complejas. Los resultados del análisis están lejos de ser ideales. Además, estos resultados restringen directamente la amplitud y la profundidad de las aplicaciones inteligentes y su posterior desarrollo. De ahí la necesidad de aumentar la «profundidad» de la inteligencia en los grandes datos para la industria de la seguridad se está planteando.

Las Ventajas del Aprendizaje Profundo y sus Algoritmos
Los algoritmos inteligentes tradicionales son diseñados por humanos. Si están o no diseñados bien depende en gran medida de la experiencia e incluso de la suerte, y este proceso requiere mucho tiempo. Por lo tanto, es incluso posible obtener máquinas para aprender automáticamente algunas de las características? ¡Sí! Este es en realidad el objetivo de la Inteligencia Artificial (AI).

La inspiración para el aprendizaje profundo proviene de las redes neuronales de un cerebro humano. Nuestros cerebros pueden ser vistos como un modelo de aprendizaje profundo muy complejo. Las redes neuronales cerebrales están formadas por miles de millones de neuronas interconectadas; El aprendizaje profundo simula esta estructura. Estas redes multicapa pueden recopilar información y realizar las acciones correspondientes. También poseen la capacidad de abstracción de objetos y recreación.

El aprendizaje profundo es intrínsecamente diferente de otros algoritmos. La forma en que se resuelven las insuficiencias de los algoritmos tradicionales se abarca en los siguientes aspectos.

En primer lugar, de «superficial» a «profundo»
D2.pngEl modelo algorítmico para el aprendizaje profundo tiene una estructura mucho más profunda que las dos estructuras de tres capas de los algoritmos tradicionales. A veces, el número de capas puede llegar a más de un centenar, lo que le permite procesar grandes cantidades de datos en clasificaciones complejas. El aprendizaje profundo es muy similar al proceso de aprendizaje humano, y tiene un proceso de abstracción característica capa por capa. Cada capa tendrá diferentes «ponderaciones», y esta ponderación refleja lo aprendido sobre los «componentes» de las imágenes. Cuanto más alto sea el nivel de capa, más específicos serán los componentes. Simulando el cerebro humano, una señal original en el aprendizaje profundo pasa a través de capas de procesamiento; A continuación, se necesita una comprensión parcial (superficial) para una abstracción general (profunda) en la que podemos percibir el objeto.

En segundo lugar, desde «Características artificiales» a «Aprendizaje de funciones»
El aprendizaje profundo no requiere intervención manual, sino que se basa en una computadora para extraer características por sí mismo. De esta manera es capaz de extraer tantas características del objetivo como sea posible, incluyendo características abstractas que son difíciles o imposibles de describir. Cuantas más características haya, más preciso será el reconocimiento y la clasificación. Algunos de los beneficios más directos que los algoritmos de aprendizaje profundo pueden aportar incluyen lograr una precisión de reconocimiento de patrones comparable o incluso mejor que la humana, capacidades antiinterferentes fuertes y la capacidad de clasificar y reconocer miles de características.

Factores clave del aprendizaje profundo
En total, hay tres razones principales por las que el aprendizaje profundo sólo se hizo popular en los últimos años y no antes: la escala de datos involucrados, la potencia de cálculo y la arquitectura de red.
Las mejoras en el rendimiento de los algoritmos basados en datos han acelerado el aprendizaje profundo en varias aplicaciones inteligentes en un corto período de tiempo. Específicamente, con el aumento en la escala de datos, el rendimiento algorítmico mejoró también. En consecuencia, la experiencia del usuario ha mejorado y hay más usuarios involucrados, lo que facilita una mayor escala de datos.

Los datos de videovigilancia representan el 60% de los datos grandes, y la cantidad aumenta un 20% anualmente. La velocidad y la escala de este logro se debe a la popularización de la videovigilancia de alta definición-HD 1080p se está volviendo más común, y 4K y resoluciones más altas se están aplicando gradualmente en muchas aplicaciones importantes.

Hikvision ha operado en la industria de la seguridad durante muchos años con sus propias capacidades de investigación y desarrollo, empleando grandes cantidades de video real y datos de imagen como muestras de entrenamiento. Con una gran cantidad de datos de buena calidad, y más de un centenar de miembros del equipo para etiquetar las imágenes de vídeo, se han acumulado datos de muestra con millones de categorías. Con esta gran cantidad de datos de entrenamiento de calidad, los modelos de reconocimiento de patrones de objetos, vehículos y humanos se volverán más y más precisos para el uso de videovigilancia.
Tres factores.jpg
Además, las plataformas de hardware de alto rendimiento permiten una mayor potencia computacional. El modelo de aprendizaje profundo requiere una gran cantidad de muestras, haciendo una gran cantidad de cálculos inevitables. En el pasado, los dispositivos de hardware eran incapaces de procesar complejos modelos de aprendizaje profundo con más de cien capas. En 2011, DeepMind de Google utilizó 1.000 dispositivos con 16.000 CPUs para simular una red neuronal con aproximadamente 1 billón de neuronas. Hoy en día, sólo unas pocas GPUs son necesarias para lograr el mismo tipo de potencia computacional con una iteración aún más rápida. El rápido desarrollo de GPUs, superordenadores, cloud computing y otras plataformas de hardware de alto rendimiento ha permitido que el aprendizaje profundo sea posible.

Por último, la arquitectura de red desempeña su propio papel en el avance del aprendizaje profundo. A través de la optimización constante de los algoritmos de aprendizaje profundo, se puede lograr un mejor reconocimiento del objeto objetivo. Para aplicaciones más complejas como el reconocimiento facial o en escenarios con diferentes iluminaciones, ángulos, posturas, expresiones, accesorios, resoluciones, etc., la arquitectura de red afectará la precisión del reconocimiento, es decir, las capas más en los algoritmos de aprendizaje profundo. actuación.

En el 2016, Hikvision alcanzó la posición número uno en la categoría Clasificación de Escenas en ImageNet a Gran Escala Visual Recognition Challenge 2016. El equipo de Hikvision Research Institute utilizó redes de estilo inicial y no tan profundas redes residuales que funcionan mejor en mucho menos entrenamiento Tiempo, según los experimentos de Hikvision para el entrenamiento y la prueba. Además, la tecnología de reconocimiento óptico de caracteres (OCR) de Hikvision, basada en Deep Learning y dirigida por el Instituto de Investigación de la compañía, también ganó el primer precio en el Concurso Robusto de Lectura ICDAR 2016. El equipo de Hikvision superó sustancialmente tanto a competidores nacionales como extranjeros en tres desafíos de reconocimiento de palabras, incluyendo imágenes digitales nacidas, texto de escena enfocado y texto de escena incidental, demostrando que la tecnología de reconocimiento de palabras de Hikvision alcanzó el nivel más alto del mundo.

Aplicación de productos de aprendizaje profundo
En los últimos dos años, la tecnología de aprendizaje profundo se ha destacado en reconocimiento de voz, visión por computadora, traducción de voz y mucho más. Incluso ha superado las capacidades humanas en las áreas de verificación facial y clasificación de imágenes; Por lo tanto, ha sido muy apreciada en el campo de la videovigilancia para la industria de la seguridad.

En la aplicación de vídeo inteligente en la detección de objetivos, el seguimiento y el reconocimiento, el auge del aprendizaje profundo ha tenido una profunda influencia. Al aplicar estas tres funciones, el aprendizaje profundo puede afectar a todos los aspectos de la industria de videovigilancia de seguridad: detección facial, detección de vehículos, detección de vehículos no motorizados, reconocimiento facial, reconocimiento de marcas de vehículos, detección de peatones, detección de características corporales, detección facial anormal , Análisis de comportamiento de multitudes, seguimiento de objetivos múltiples, y así sucesivamente.

Estos tipos de funciones inteligentes requieren una serie de cámaras de vigilancia front-end, servidores back-end y otros productos que soportan algoritmos de aprendizaje profundo. En aplicaciones a pequeña escala, las cámaras frontales pueden operar directamente la extracción estructurada de elementos humanos y vehículos, y decenas de miles de imágenes faciales humanas pueden almacenarse dentro de los dispositivos frontales para implementar la comparación facial directa, a fin de reducir los costos de comunicación con un servidor. En aplicaciones a gran escala, las cámaras frontales pueden funcionar con servidores back-end. Específicamente, la tarea de video estructurada es manejada por dispositivos front-end, reduciendo la carga de trabajo para los dispositivos back-end; Igualar y buscar la eficacia de los servidores back-end mejoran también.

Este año, Hikvision pronto introducirá una serie de productos con tecnología de aprendizaje profundo, como las cámaras de la serie DeepInview que pueden detectar, reconocer y analizar con precisión las características y comportamiento de humanos, vehículos y objetos, y pueden ser ampliamente utilizados en interiores y exteriores Escenarios. Otro de los productos que vale la pena mencionar es la serie DeepInmind de NVR de Hikvision que incorpora algoritmos avanzados de aprendizaje profundo e imita los pensamientos y la memoria humana. Los productos DeepInmind cuentan con un innovador modo NVR + GPU, conservando las ventajas de los NVR tradicionales y funciones adicionales de análisis estructurado de video, que juntos mejoran en gran medida el valor del video.

El aprendizaje profundo es el siguiente nivel de desarrollo de la IA. Está más allá del aprendizaje automático donde la clasificación supervisada de características y patrones se establece en algoritmos. El aprendizaje profundo incorpora principios sin supervisión o «autoaprendizaje». Hikvision está desarrollando este concepto en sus propios algoritmos analíticos. La precisión mejorada es el resultado del aprendizaje multicapa y de la amplia colección de datos. La aplicación de este algoritmo en reconocimiento de rostros, reconocimiento de vehículos, reconocimiento humano y otras plataformas avanzará significativamente el rendimiento del análisis.