Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anterior Revisión previa Próxima revisión | Revisión previa | ||
ia:desinformadores [2025/02/01 02:39] anonimo |
ia:desinformadores [2025/02/01 03:57] (actual) anonimo |
||
---|---|---|---|
Línea 2: | Línea 2: | ||
2º Extraer los títulos de los vídeos,shorts y directos de youtube mediante web scrapping\\ | 2º Extraer los títulos de los vídeos,shorts y directos de youtube mediante web scrapping\\ | ||
3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ | 3º Limpiarlos de caracteres extraños, tildes, artículos y preposiciones que no sirven para el propósito mediante el editor de textos sed\\ | ||
- | 4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes seguidores respecto a dichos desinformadores\\ | + | 4º Hacer pruebas midiendo el grado de similitud ideológica de diferentes usuarios/seguidores respecto a dichos desinformadores\\ |
Línea 180: | Línea 180: | ||
python3 raspado.py > geoestratego.txt | python3 raspado.py > geoestratego.txt | ||
</code> | </code> | ||
+ | El resultado está en éste archivo {{ :ia:desinformadores.gz |}}\\ | ||
+ | |||
**El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** | **El .txt hay que prepararlo y no lo está, ésto contienen las 4 primeras líneas** | ||
<code bash> | <code bash> | ||
Línea 191: | Línea 193: | ||
<code bash> | <code bash> | ||
cat geoestratego.txt | grep Título | sed '/^Título: ,/d;s/^Título: //g;s/, Enlace: .*$//g;s/[A-Z]/\L&/g;y/áéíóú/aeiou/;s/[^a-zñ0-9 ]/ /g;s/ \+/ /g' | perl -ple 's/[^a-zñÑ0-9 ]//gi' | perl -ple '$_=lc' | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt | cat geoestratego.txt | grep Título | sed '/^Título: ,/d;s/^Título: //g;s/, Enlace: .*$//g;s/[A-Z]/\L&/g;y/áéíóú/aeiou/;s/[^a-zñ0-9 ]/ /g;s/ \+/ /g' | perl -ple 's/[^a-zñÑ0-9 ]//gi' | perl -ple '$_=lc' | sed 's/ \+/ /g;s/^ //g' > geoestratego_.txt | ||
+ | </code> | ||
+ | **volvemos a limpiar**\\ | ||
+ | <code bash> | ||
+ | sed -Ei 's/ de / /g;s/ la / /g;s/ los / /g;s/ las / /g;s/ y / /g;s/ el / /g;s/ del / /g;s/ al / /g;s/ a / /g;s/^el |^la |^los |^las //g;s/^lo //g;s/ en / /g;s/ un / /g;s/^ //g;' geoestratego_.txt | ||
</code> | </code> | ||
**El .txt ya está preparado, éstas son las 4 primeras líneas** | **El .txt ya está preparado, éstas son las 4 primeras líneas** | ||
<code bash> | <code bash> | ||
cat geoestratego_.txt | sed -n '1,4p' | cat geoestratego_.txt | sed -n '1,4p' | ||
- | el plan final de biden para desestabilizar el mundo | + | plan final biden para desestabilizar mundo |
marcha militar coronel pedro baños | marcha militar coronel pedro baños | ||
- | pedro baños y la geopolitica 2 3 | + | pedro baños geopolitica 2 3 |
- | los medios de comunicacion pierden el control | + | medios comunicacion pierden control |
cat geoestratego_.txt | wc -l | cat geoestratego_.txt | wc -l | ||
Línea 252: | Línea 259: | ||
print(f"Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_: {cosine_sim[i, j]:.2f}") | print(f"Similitud entre frase {i + 1} de usuario y frase {j + 1} de geoestratego_: {cosine_sim[i, j]:.2f}") | ||
</code> | </code> | ||
- | {{ :ia:desinformadores.gz |}} |