Agrupaciones de tokens en el corpus de Violencia

Un corpus (o aglomeración de textos) sobre la violencia de México no existe con finalidad de uso para aplicaciones PLN. El corpus de SugarBear AI recopilado desde mediados del 2020 y el cual se continua alimentando con analistas con especialidades en psicología.

Identificamos aquí los diferentes ‘NGrams’. Un ‘N-Gram’ es un token o series de tokens que aparece en un texto con alta frecuencias. Usando un simple script que usa la librería de NLTK que individualiza los Ngrams (específicamente los ‘bigrams’ sequencias de 2 tokens a la ves que aparecen dentro del texto):

import re
from nltk.corpus import stopwords

def find_bigrams(t):
    list = []
    for a in t:
        token = nltk.word_tokenize(a)
        stop_words = set(stopwords.words('spanish')) 
        filtered_sentence = [w for w in token if not w in stop_words]         
        bigrams = ngrams(filtered_sentence,2)        
        for i, j in bigrams:
            if not re.match("[^a-zA-Z]", i) and not re.match("[^a-zA-Z]", j) :
                list.append("{0} {1}".format(i, j))
    return list 

alpha = find_bigrams(list)
...
frente múltiples
visité cerca
absoluto atrocidades
consejeras rendirán
ser derechos
Vazquez hijo
detenga amenazas
puntos pliego
odisea huyen
anunció separación
Covid-19 debe
víctima frente
Acapulco sentenciar
logró enviar
garantías acceso
documentaron atención
Atendiendo publicación
llamado Estados
interior Estaciones
encuentran mayoría
informativas pandemia
relación familiar
comunidad Agua
día finalizar
Jornada Ecatepec
lenta momento
guerras territoriales
Pese Facebook
pedido retiro
Rendón cuenta
A.C. Mujeres
error quizá
iniciativas enfocadas
consciente anticapitalista
afectar mujer
Justicia u
alertas tempranas
mediante expresión
Nahuatzen comunidad
garantizar repetición
alza indicadores
noche martes
creó Guardia
asegura feminicidio
Unión Fuerza
pronunciamiento Red
carbono equivalente
condiciones desarrollo
comparativo agresiones
recorte refugios
agregó pesar
Ejemplos de Ngrams de corpus de violencia.