¿Es nuevo en visión por computadora e imágenes médicas? Comienza con estos 10 proyectos


(IA) e informática que permite a los sistemas automatizados ver, es decir, procesar imágenes y videos en una forma similar a la humana para detectar e identificar objetos o regiones de importancia, predecir un resultado o incluso alterar la imagen a un formato deseado [1]. Los casos de uso más populares en el dominio CV incluyen la percepción automatizada para la conducción autónoma, realidades aumentadas y virtuales (AR, VR) para simulaciones, juegos, gafas, realidad y comercio electrónico orientado a la moda o la belleza.

El procesamiento de imágenes médicas (MI), por otro lado, implica un análisis mucho más detallado de imágenes médicas que suelen ser en escala de grises, como imágenes de resonancia magnética, tomografía computarizada o rayos X para la detección automática de patologías, una tarea que requiere el ojo de un especialista capacitado para su detección. Los casos de uso más populares en el dominio de MI incluyen el etiquetado automatizado de patologías, la localización, la asociación con el tratamiento o el pronóstico y la medicina personalizada.

Antes de la llegada de los métodos de aprendizaje profundo, las soluciones de procesamiento de señales 2D, como el filtrado de imágenes, las transformaciones de ondas, el registro de imágenes, seguidas de modelos de clasificación. [2–3] se aplicaron en gran medida a los marcos de soluciones. Las soluciones de procesamiento de señales siguen siendo la mejor opción para la línea base de modelos debido a su baja latencia y alta generalización en los conjuntos de datos.

Sin embargo, las soluciones y los marcos de aprendizaje profundo se han convertido en un nuevo favorito debido a la naturaleza de extremo a extremo que elimina la necesidad de ingeniería de funciones, selección de funciones y umbral de salida por completo. En este tutorial, revisaremos «Top 10 « proyecto opciones para principiantes en los campos de CV y ​​MI y proporcione ejemplos con datos y código de inicio para ayudar al aprendizaje a su propio ritmo.

Los marcos de soluciones CV y ​​MI se pueden analizar en tres segmentos: Datos, Procesos, y Resultados [4]. Es importante visualizar siempre el datos requerido para que dichos marcos de soluciones tengan el formato “{X, Y}”, donde X representa los datos de imagen / video e Y representa el objetivo de datos o etiquetas. Si bien las imágenes y secuencias de video sin etiquetar que ocurren naturalmente (X) pueden ser abundantes, adquirir etiquetas precisas (Y) puede ser un proceso costoso. Con la llegada de varias plataformas de anotación de datos como [5–7], las imágenes y los videos se pueden etiquetar para cada caso de uso.

Dado que los modelos de aprendizaje profundo generalmente se basan en grandes volúmenes de datos anotados para aprender automáticamente las funciones para las tareas de detección posteriores, los dominios CV y ​​MI a menudo sufren el «desafío de datos pequeños”, Donde el número de muestras disponibles para entrenar un modelo de aprendizaje automático es varios órdenes menor que el número de parámetros del modelo.

El «desafío de los datos pequeños», si no se aborda, puede conducir a modelos de sobreajuste o desajuste que pueden no generalizarse a nuevos conjuntos de datos de prueba invisibles. Por lo tanto, la proceso El diseño de un marco de solución para dominios de CV y ​​MI siempre debe incluir restricciones de complejidad del modelo, en las que los modelos con menos parámetros se prefieren típicamente para evitar el desajuste del modelo.

Finalmente, los resultados del marco de la solución se analizan tanto cualitativamente a través de soluciones de visualización como cuantitativamente en términos de métricas conocidas como precisión, recuperación, exactitud y coeficientes F1 o Dice. [8–9].

Los proyectos enumerados a continuación presentan una variedad de niveles de dificultad (niveles de dificultad Fácil, Medio, Difícil) con respecto al preprocesamiento de datos y la construcción de modelos. Además, estos proyectos representan una variedad de casos de uso que prevalecen actualmente en las comunidades de investigación e ingeniería. Los proyectos se definen en términos de: Objetivo, métodos, y Resultados.

Proyecto 1: MNIST y Moda MNIST para clasificación de imágenes (Nivel: Fácil)

Objetivo: Para procesar imágenes (X) de tamaño [28×28] píxeles y clasificarlos en una de las 10 categorías de salida (Y). Para el conjunto de datos MNIST, las imágenes de entrada son dígitos escritos a mano en el rango de 0 a 9 [10]. Los conjuntos de datos de entrenamiento y prueba contienen 60.000 y 10.000 imágenes etiquetadas, respectivamente. Inspirado por el problema del reconocimiento de dígitos escritos a mano, se lanzó otro conjunto de datos llamado Conjunto de datos Fashion MNIST. [11] donde el objetivo es clasificar imágenes (de tamaño [28×28]) en categorías de ropa como se muestra en la Fig.1.