-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Mejorar buscador signotacion #8
Comments
Implementado con un buscador de ngramas (n=1,2,3) con ElasticSearch. Esto permite flexibilidad e independencia en la transcripción, y búsquedas muy amplias (a costa de devolver muchos resultados, lo que puede ser mejor o peor). La búsqueda de ngramas, además, por las características de la Signotación, actúa indirectamente también como un lematizador, al estar muchas características segregadas como caracteres diferentes en la transcripción. Queda pendiente algunas cuestiones morfológicas que no se reflejan con ngramas:
Posiblemente se pueda solucionar en ElasticSearch con "sinónimos" de ngramas concretos, explorar. |
Otro problema son los "falsos ngramas", por ejemplo "-" aparece en "->". También que los ngramas pesan lo mismo que los términos completos, pej si busco ICAM (>3gramas) I pesa lo mismo que ICA o CAM, por lo que aparecen términos no muy relevantes. Una posible solución es hacer una búsqueda doble con "multi_match" y "most_fields", y tener dos campos de indexación: uno de ngramas de la signotación (ignorando ":", lo que hay ahora) y otro de "segmentos completos" (partiendo por ":", sin ngramas). Esto priorizará los resultados no espúreos, posiblemente. |
También se pueden usar los sinónimos para Q' (^=g, 7=r). (o cambiar la signotación para que ^ == >g, 7 == >r, - == >-, + == >+ :P) |
solucionado lo de "->" (sustituido por → en el índice de búsqueda) usado multi_match con ngramas (recall) + segmentos (precision) para una búsqueda robusta |
Cuando haya más signos, evaluar cuánto acierta y cuánto no, etc. Mejorar inflexión morfológica.
Lo que sigue son ideas, pero no necesariamente todas responden a problemas reales o van a mejorar los resultados, evaluar.
The text was updated successfully, but these errors were encountered: