Cómo la IA elimina el spam de nuestras bandejas de entrada


De más de 300 mil millones de correos electrónicos enviado todos los días, al menos la mitad son spam. Los proveedores de correo electrónico tienen la enorme tarea de filtrar el spam y asegurarse de que sus usuarios reciban los mensajes importantes.

La detección de spam es complicada. La línea entre los mensajes no deseados y los que no lo son es difusa y los criterios cambian con el tiempo. De varios esfuerzos para automatizar la detección de spam, aprendizaje automático hasta ahora ha demostrado ser el enfoque más eficaz y favorecido por los proveedores de correo electrónico. Aunque todavía vemos correos electrónicos no deseados, un vistazo rápido a la carpeta de correo no deseado mostrará cuánto spam se elimina de nuestras bandejas de entrada todos los días gracias a los algoritmos de aprendizaje automático.

¿Cómo determina el aprendizaje automático qué correos electrónicos son spam y cuáles no? A continuación, se ofrece una descripción general de cómo funciona la detección de spam basada en el aprendizaje automático.

El reto

El correo basura viene en diferentes sabores. Muchos son solo mensajes molestos que tienen como objetivo llamar la atención sobre una causa o difundir información falsa. Algunos de ellos son correos electrónicos de phishing con la intención de atraer al destinatario para que haga clic en un enlace malicioso o descargue un malware.

Lo único que tienen en común es que son irrelevantes para las necesidades del destinatario. Un algoritmo detector de spam debe encontrar una manera de filtrar el spam y, al mismo tiempo, evitar marcar los mensajes auténticos que los usuarios quieren ver en su bandeja de entrada. Y debe hacerlo de una manera que pueda coincidir con las tendencias en evolución, como el pánico causado por pandemias, noticias electorales, interés repentino en las criptomonedas y otros.

Las reglas estáticas pueden ayudar. Por ejemplo, demasiados destinatarios con CCO, un cuerpo de texto muy corto y temas en mayúsculas son algunas de las características de los correos electrónicos no deseados. Asimismo, algunos dominios de remitentes y direcciones de correo electrónico pueden asociarse con spam. Pero, en su mayor parte, la detección de spam se basa principalmente en analizar el contenido del mensaje.

Aprendizaje automático Naïve Bayes

Los algoritmos de aprendizaje automático utilizan modelos estadísticos para clasificar los datos. En el caso de la detección de spam, un modelo de aprendizaje automático capacitado debe poder determinar si la secuencia de palabras encontradas en un correo electrónico está más cerca de las que se encuentran en los correos electrónicos no deseados o las seguras.

Diferentes algoritmos de aprendizaje automático pueden detectar spam, pero uno que ha ganado atractivo es el algoritmo “ingenuo de Bayes”. Como su nombre lo indica, el ingenuo Bayes se basa en «Teorema de Bayes, ”Que describe la probabilidad de un evento basado en conocimientos previos.

Teorema de Bayes

Esta web utiliza cookies propias y de terceros para su correcto funcionamiento y para fines analíticos y para fines de afiliación y para mostrarte publicidad relacionada con tus preferencias en base a un perfil elaborado a partir de tus hábitos de navegación. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Ver Política de cookies
Privacidad