Mejorar buscador signotacion #8

agarsev · 2023-03-02T20:09:46Z

Cuando haya más signos, evaluar cuánto acierta y cuánto no, etc. Mejorar inflexión morfológica.

Lo que sigue son ideas, pero no necesariamente todas responden a problemas reales o van a mejorar los resultados, evaluar.

case ignore en PICAM
grafo proximidades lugares
problema "->" != "-" ">"
mejorar precisión buscando también segmentos enteros
Qs implícitas tras evoluciones
sinonimia circulares

agarsev · 2023-08-05T15:20:40Z

Implementado con un buscador de ngramas (n=1,2,3) con ElasticSearch. Esto permite flexibilidad e independencia en la transcripción, y búsquedas muy amplias (a costa de devolver muchos resultados, lo que puede ser mejor o peor).

La búsqueda de ngramas, además, por las características de la Signotación, actúa indirectamente también como un lematizador, al estar muchas características segregadas como caracteres diferentes en la transcripción.

Queda pendiente algunas cuestiones morfológicas que no se reflejan con ngramas:

minúsculas vs mayúsculas en la Q
grafo de proximidades en el lugar (eg buscar Cab para Car, Nar también o viceversa)

Posiblemente se pueda solucionar en ElasticSearch con "sinónimos" de ngramas concretos, explorar.

agarsev · 2023-08-05T16:33:11Z

Otro problema son los "falsos ngramas", por ejemplo "-" aparece en "->". También que los ngramas pesan lo mismo que los términos completos, pej si busco ICAM (>3gramas) I pesa lo mismo que ICA o CAM, por lo que aparecen términos no muy relevantes.

Una posible solución es hacer una búsqueda doble con "multi_match" y "most_fields", y tener dos campos de indexación: uno de ngramas de la signotación (ignorando ":", lo que hay ahora) y otro de "segmentos completos" (partiendo por ":", sin ngramas). Esto priorizará los resultados no espúreos, posiblemente.

agarsev · 2023-08-05T18:45:34Z

También se pueden usar los sinónimos para Q' (^=g, 7=r). (o cambiar la signotación para que ^ == >g, 7 == >r, - == >-, + == >+ :P)

…sion WIP #8

agarsev · 2023-08-21T18:50:52Z

solucionado lo de "->" (sustituido por → en el índice de búsqueda)

usado multi_match con ngramas (recall) + segmentos (precision) para una búsqueda robusta

agarsev self-assigned this Mar 9, 2023

agarsev added a commit that referenced this issue Aug 21, 2023

use multi_match search with both ngrams and segments to improve preci…

6f33c63

…sion WIP #8

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mejorar buscador signotacion #8

Mejorar buscador signotacion #8

agarsev commented Mar 2, 2023 •

edited

Loading

agarsev commented Aug 5, 2023

agarsev commented Aug 5, 2023

agarsev commented Aug 5, 2023

agarsev commented Aug 21, 2023

Mejorar buscador signotacion #8

Mejorar buscador signotacion #8

Comments

agarsev commented Mar 2, 2023 • edited Loading

agarsev commented Aug 5, 2023

agarsev commented Aug 5, 2023

agarsev commented Aug 5, 2023

agarsev commented Aug 21, 2023

agarsev commented Mar 2, 2023 •

edited

Loading