Skip to content

686f6c61/artificial-intelligence-text-detector-unicode

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Detector de caracteres invisibles unicode

Version License

📋 Descripción

Herramienta web para detectar, analizar y visualizar caracteres Unicode invisibles en texto. Estos caracteres sin representación visual suelen ser insertados inadvertidamente por modelos de IA durante la generación de texto y pueden causar problemas en ciertos contextos.

Captura de pantalla de la aplicación

🎬 Demostración

Demostración del funcionamiento

🔍 ¿Por qué detectar caracteres invisibles?

Los modelos de IA como GPT, Claude, Llama y otros suelen insertar caracteres invisibles en sus respuestas por varias razones:

  • Procesamiento interno: Los modelos procesan texto en unidades llamadas "tokens". Al convertir estos tokens de vuelta a texto, a veces se introducen caracteres invisibles como artefactos del proceso.

  • Tokenización multisistema: Para manejar diferentes idiomas y sistemas de escritura, los modelos utilizan marcadores de dirección (RTL/LTR) que pueden quedar en el texto final.

  • Formateo de texto: Al generar texto con formato específico (código, tablas, listas), pueden usar caracteres invisibles para controlar la disposición.

  • Control del flujo de texto: Para evitar que ciertas palabras se rompan o para mantener formatos específicos, los modelos pueden usar caracteres como ZWSP (Zero Width Space).

🚀 Funcionalidades

  • ✅ Detección de 20 tipos diferentes de caracteres Unicode invisibles
  • ✅ Editor de texto con numeración de líneas y contadores de palabras/caracteres
  • ✅ Visualización precisa de la posición exacta de cada carácter invisible
  • ✅ Resaltado interactivo y navegación a caracteres detectados
  • ✅ Generación de informes detallados exportables
  • ✅ Documentación completa sobre cada tipo de carácter
  • ✅ Interfaz minimalista inspirada en bloc de notas clásico

💻 Uso

  1. Copie y pegue el texto que desea analizar en el área de texto
  2. Haga clic en "Comprobar caracteres invisibles"
  3. Examine los resultados detallados y la vista previa con caracteres resaltados
  4. Utilice los botones de navegación para saltar a posiciones específicas
  5. Descargue o copie el informe completo si es necesario

🔎 Caracteres invisibles detectados

Código Nombre Descripción Más información
U+200B Zero Width Space Espacio de ancho cero. Indica posible división de palabras sin mostrar un espacio visible. Wikipedia
U+200C Zero Width Non-Joiner Previene la ligadura entre caracteres que normalmente se unirían. Unicode.org
U+200D Zero Width Joiner Causa la unión de caracteres que normalmente no se ligarían. Usado en emojis compuestos. Unicode.org
U+FEFF Zero Width No-Break Space También conocido como BOM (Byte Order Mark). Indica orden de bytes en codificaciones. Wikipedia
U+2060 Word Joiner Similar al ZWSP pero no indica división de palabras. Previene saltos entre palabras. Unicode.org
U+180E Mongolian Vowel Separator Separa vocales en escritura mongola tradicional. Unicode.org
U+200E Left-to-Right Mark Fuerza dirección de izquierda a derecha para el texto siguiente. Wikipedia
U+200F Right-to-Left Mark Fuerza dirección de derecha a izquierda para el texto siguiente. Wikipedia
U+202A Left-to-Right Embedding Establece un nuevo nivel de incrustación con dirección LTR. Unicode.org
U+202B Right-to-Left Embedding Establece un nuevo nivel de incrustación con dirección RTL. Unicode.org
U+202C Pop Directional Formatting Finaliza el último nivel de formato direccional. Unicode.org
U+202D Left-to-Right Override Fuerza toda la secuencia siguiente a ser tratada como LTR. Unicode.org
U+202E Right-to-Left Override Fuerza toda la secuencia siguiente a ser tratada como RTL. Unicode.org
U+2061 Function Application Símbolo matemático invisible que representa la aplicación de funciones. Unicode.org
U+2062 Invisible Times Representa una multiplicación invisible en notación matemática. Unicode.org
U+2063 Invisible Separator Separador invisible usado en notación matemática. Unicode.org
U+2064 Invisible Plus Representa una suma invisible en notación matemática. Unicode.org
U+034F Combining Grapheme Joiner Une grafemas o unidades visuales en escrituras complejas. Unicode.org
U+061C Arabic Letter Mark Controla el comportamiento de texto árabe en entornos bidireccionales. Unicode.org
U+00AD Soft Hyphen Guión invisible que solo aparece cuando una palabra debe cortarse al final de línea. Wikipedia
U+2009 Thin Space Espacio fino, más estrecho que un espacio normal pero visible. Usado en tipografía para separación precisa. Unicode.org

🔧 Implementación técnica

Este proyecto está implementado utilizando:

  • HTML5 para la estructura
  • CSS3 para estilos minimalistas en blanco y negro
  • JavaScript vanilla para toda la lógica de detección y manipulación

La arquitectura del código sigue un enfoque modular con clara separación de:

  • Interfaz de usuario y componentes visuales
  • Lógica de detección y análisis de caracteres
  • Generación de informes y exportación

📦 Instalación

  1. Clone este repositorio:
git clone https://github.com/686f6c61/artificial-intelligence-text-detector-unicode.git
  1. Abra index.html en su navegador para comenzar a usar la aplicación.

No se requieren dependencias externas ni pasos de compilación.

🤔 Casos de uso comunes

  • Desarrollo de software: Identificar caracteres invisibles en código que pueden causar errores difíciles de depurar
  • Procesamiento de texto: Limpiar textos generados por IA antes de usarlos en entornos sensibles
  • Seguridad: Detectar posibles marcas invisibles en textos que podrían indicar su origen
  • Compatibilidad: Verificar textos antes de insertarlos en sistemas con limitaciones de caracteres
  • Análisis de IA: Estudiar patrones de inserción de caracteres en diferentes modelos de IA

📊 Limitaciones

La detección de caracteres invisibles puede ayudar a identificar contenido generado por IA, pero no es concluyente por sí misma. Otros factores como patrones lingüísticos, estructura del texto y contexto deben considerarse para un análisis completo.

🔄 Actualizaciones futuras

  • Soporte para más tipos de caracteres Unicode
  • Análisis estadístico de frecuencias y patrones
  • Modo de limpieza automática de caracteres invisibles
  • Integración con APIs de detección de texto generado por IA

📝 Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo LICENSE para más detalles.

📰 Artículos relacionados

Estos artículos refuerzan la importancia de detectar caracteres Unicode invisibles en texto generado por IA:

👤 Autor

🔗 Enlaces útiles

About

Detector de invisibles Unicode (U+200B,U+200C,U+200D…) de modelos IA razonadores

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published