Corpus de temas sensibles: el futuro de IA

La mayoría de temas sensibles no son comúnmente indexados en sistemas automatizados. La mayoría de empresas no cuentan con un equipo dedicado a la tarea complicada de determinar que documento habla de una manera digna sobre temas como violencia, femicidio, violencia generalizada, etc.

En la ultima década, los grandes avanzes en tareas tradicionales del Procesamiento de Lenguaje Natural (PLN) permiten tener un análisis automatizado de varias cuestiones lingüísticas o de algún tipo de procesamiento de información. Por ejemplo, Google puede relacionar una serie de palabras con contenido apropiado dentro de un motor de búsqueda una gran porción del tiempo.

Pero, ¿que pasa cuando se elaboran tareas mas dependientes en datos limpios? Ahora consideremos que estos tópicos o temas sensibles también contienen palabras claves que se usan dentro de foros de odio o plataformas sociales, como Reddit, que contienen textos inadecuados para clasificar noticias sobre temas sensibles. Uno no puede usar comentarios sobre feminismo de Reddit, por ejemplo, y encontrar mas textos sobre este tema que alimenten su conocimiento.

Lo mas probable es que los datos de Reddit arrancarían textos sexistas ya que la mayoría de comentarios en dicha plataforma se caracterizan igual. Esto se conoce como ‘Garbage In, Garbage Out‘ donde un clasificador de noticias no puede identificar nada que no se parezca a sus datos de entrenamiento. Entonces, la clave es tener datos que sean meramente de algún tema sensible y que tengan los tonos, sentimientos necesarios para poder llevar a cabo su tarea. Es decir, clasificar noticias o comentarios que sean sobre grupos marginados de una manera no pueden usar datos (o vectores) derivados de fuentes como BERT etc. ya que están compuestos de redes sociales en donde predomina un solo punto de vista.

Es hora de que empresas empleen sus propios analistas o acuden a recursos textuales como este para poder llevar acabo tareas para identificar y amplificar perspectivas dignas sobre temas sensibles.