Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Added: support of Bento for Categorization AI #526

Merged
merged 39 commits into from
Oct 4, 2024

Conversation

iftwigs
Copy link
Collaborator

@iftwigs iftwigs commented Aug 5, 2024

TODO immediately before merging: replace the branch 'https://github.com/konfuzio-ai/konfuzio-sdk/archive/refs/heads/12219-categorization-ai-bento.zip#egg=konfuzio-sdk' in document_categorization.py with the f'konfuzio-sdk<={self.konfuzio_sdk_version}'

konfuzio_sdk/bento/utils.py Outdated Show resolved Hide resolved
konfuzio_sdk/trainer/base.py Outdated Show resolved Hide resolved
@iftwigs
Copy link
Collaborator Author

iftwigs commented Aug 21, 2024

  • add classes and schemas into the api reference (documentation PR)
  • add documentation on categorization ai bento into an existing tutorial for categorization

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          37      7    81%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              57      7    88%
konfuzio_sdk/bento/extraction/utils.py                80     50    38%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2392    259    89%
konfuzio_sdk/evaluate.py                             469     35    93%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         185     29    84%
konfuzio_sdk/trainer/document_categorization.py      812     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1096    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                428     86    80%
----------------------------------------------------------------------
TOTAL                                               8280   1137    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          37      7    81%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              57      7    88%
konfuzio_sdk/bento/extraction/utils.py                80     50    38%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2392    259    89%
konfuzio_sdk/evaluate.py                             469     35    93%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         185     29    84%
konfuzio_sdk/trainer/document_categorization.py      812     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1096    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                428     86    80%
----------------------------------------------------------------------
TOTAL                                               8280   1137    86%

konfuzio_sdk/trainer/base.py Outdated Show resolved Hide resolved
Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

1 similar comment
Copy link

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

Copy link

github-actions bot commented Oct 3, 2024

Name                                               Stmts   Miss  Cover
----------------------------------------------------------------------
konfuzio_sdk/__init__.py                               8      1    88%
konfuzio_sdk/api.py                                  490     49    90%
konfuzio_sdk/bento/__init__.py                         0      0   100%
konfuzio_sdk/bento/base/__init__.py                    0      0   100%
konfuzio_sdk/bento/base/utils.py                      44     32    27%
konfuzio_sdk/bento/categorization/__init__.py          0      0   100%
konfuzio_sdk/bento/categorization/schemas.py          31      2    94%
konfuzio_sdk/bento/categorization/utils.py            54     30    44%
konfuzio_sdk/bento/extraction/__init__.py              0      0   100%
konfuzio_sdk/bento/extraction/schemas.py              53      2    96%
konfuzio_sdk/bento/extraction/utils.py                86     59    31%
konfuzio_sdk/cli.py                                   40      0   100%
konfuzio_sdk/data.py                                2408    260    89%
konfuzio_sdk/evaluate.py                             449     35    92%
konfuzio_sdk/extras.py                                73     17    77%
konfuzio_sdk/normalize.py                            386     25    94%
konfuzio_sdk/regex.py                                107      0   100%
konfuzio_sdk/samples.py                              149      0   100%
konfuzio_sdk/settings_importer.py                     35      1    97%
konfuzio_sdk/tokenizer/__init__.py                     0      0   100%
konfuzio_sdk/tokenizer/base.py                       173     29    83%
konfuzio_sdk/tokenizer/paragraph_and_sentence.py     174    151    13%
konfuzio_sdk/tokenizer/regex.py                       96      2    98%
konfuzio_sdk/trainer/__init__.py                       0      0   100%
konfuzio_sdk/trainer/base.py                         180     29    84%
konfuzio_sdk/trainer/document_categorization.py      811     74    91%
konfuzio_sdk/trainer/file_splitting.py               549     49    91%
konfuzio_sdk/trainer/image.py                         46     17    63%
konfuzio_sdk/trainer/information_extraction.py      1101    115    90%
konfuzio_sdk/trainer/tokenization.py                 136     97    29%
konfuzio_sdk/trainer/utils.py                         58      1    98%
konfuzio_sdk/urls.py                                 150      6    96%
konfuzio_sdk/utils.py                                430     86    80%
----------------------------------------------------------------------
TOTAL                                               8317   1169    86%

@zypriafl zypriafl merged commit d66da54 into master Oct 4, 2024
5 of 9 checks passed
@zypriafl zypriafl deleted the 12219-categorization-ai-bento branch October 4, 2024 20:05
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants