Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Mejorar buscador signotacion #8

Open
2 of 6 tasks
agarsev opened this issue Mar 2, 2023 · 4 comments
Open
2 of 6 tasks

Mejorar buscador signotacion #8

agarsev opened this issue Mar 2, 2023 · 4 comments
Assignees

Comments

@agarsev
Copy link
Owner

agarsev commented Mar 2, 2023

Cuando haya más signos, evaluar cuánto acierta y cuánto no, etc. Mejorar inflexión morfológica.

Lo que sigue son ideas, pero no necesariamente todas responden a problemas reales o van a mejorar los resultados, evaluar.

  • case ignore en PICAM
  • grafo proximidades lugares
  • problema "->" != "-" ">"
  • mejorar precisión buscando también segmentos enteros
  • Qs implícitas tras evoluciones
  • sinonimia circulares
@agarsev agarsev self-assigned this Mar 9, 2023
@agarsev
Copy link
Owner Author

agarsev commented Aug 5, 2023

Implementado con un buscador de ngramas (n=1,2,3) con ElasticSearch. Esto permite flexibilidad e independencia en la transcripción, y búsquedas muy amplias (a costa de devolver muchos resultados, lo que puede ser mejor o peor).

La búsqueda de ngramas, además, por las características de la Signotación, actúa indirectamente también como un lematizador, al estar muchas características segregadas como caracteres diferentes en la transcripción.

Queda pendiente algunas cuestiones morfológicas que no se reflejan con ngramas:

  • minúsculas vs mayúsculas en la Q
  • grafo de proximidades en el lugar (eg buscar Cab para Car, Nar también o viceversa)

Posiblemente se pueda solucionar en ElasticSearch con "sinónimos" de ngramas concretos, explorar.

@agarsev
Copy link
Owner Author

agarsev commented Aug 5, 2023

Otro problema son los "falsos ngramas", por ejemplo "-" aparece en "->". También que los ngramas pesan lo mismo que los términos completos, pej si busco ICAM (>3gramas) I pesa lo mismo que ICA o CAM, por lo que aparecen términos no muy relevantes.

Una posible solución es hacer una búsqueda doble con "multi_match" y "most_fields", y tener dos campos de indexación: uno de ngramas de la signotación (ignorando ":", lo que hay ahora) y otro de "segmentos completos" (partiendo por ":", sin ngramas). Esto priorizará los resultados no espúreos, posiblemente.

@agarsev
Copy link
Owner Author

agarsev commented Aug 5, 2023

También se pueden usar los sinónimos para Q' (^=g, 7=r). (o cambiar la signotación para que ^ == >g, 7 == >r, - == >-, + == >+ :P)

@agarsev
Copy link
Owner Author

agarsev commented Aug 21, 2023

solucionado lo de "->" (sustituido por → en el índice de búsqueda)

usado multi_match con ngramas (recall) + segmentos (precision) para una búsqueda robusta

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant