Taula hash

« Back to Glossary Index

Les taules hash són una estructura de dades molt eficient per emmagatzemar i recuperar informació de manera ràpida. Posant d’exemple del correu electrònic no desitjat (spam vs. no-spam), aquestes taules hash es fan servir per comptar la freqüència de cada paraula (o token) en cadascun dels dos corpus (el de correus legítims i el de correus de spam).

🔹 Què és una taula hash?

Una taula hash és una estructura que utilitza una funció hash per assignar una clau (en aquest cas, un token o paraula) a una posició específica dins d’un conjunt de valors. Això permet accedir a les dades de manera molt eficient.

👉 En aquest cas, cada paraula (token) serà la clau, i el valor associat serà el nombre de vegades que apareix en el conjunt de correus corresponent.

🔹 Com s’aplica a la detecció de correu brossa?

  1. Construcció de les taules hash:

    • Una taula per a correus legítims (no-spam).
    • Una taula per a correus de spam.
    • Cada paraula trobada en els correus es fa servir com a clau en la taula hash.
    • La funció hash transforma la paraula en una posició a la taula i s’hi guarda un comptador d’aparicions.
  2. Càlcul de probabilitats:

    • Un cop tenim la freqüència de cada paraula en cadascun dels dos corpus, podem calcular la probabilitat que un nou correu sigui spam en funció de les paraules que conté.
    • Normalment es fa servir el Teorema de Bayes, que permet calcular la probabilitat d’un correu ser spam donades les paraules que conté.

Així, un sistema de classificació de correu com un filtre bayesià de spam pot utilitzar aquestes taules per estimar si un correu és spam basant-se en la freqüència de les paraules.

« Back to Glossary Index