demo_gui.mp4
De nombreux traducteurs automatiques de mangas existent. Très peu prennent correctement en charge les bandes dessinées d'autres types dans d'autres langues. Ce projet a été créé pour utiliser les capacités du GPT-4 et traduire des bandes dessinées du monde entier. Actuellement, il prend en charge la traduction vers et depuis l'anglais, le coréen, le japonais, le français, le chinois simplifié, le chinois traditionnel, le russe, l'allemand, le néerlandais, l'espagnol et l'italien.
Pour une couple de douzaines de langues, le meilleur traducteur automatique n'est ni Google Translate, ni Papago, ni même DeepL, mais GPT-4, et de loin. Cela est très évident pour les paires de langues éloignées (coréen <-> anglais, japonais <-> anglais, etc.) où les autres traducteurs dégénèrent souvent en charabia. Extrait de "Généalogie du mal" (종의 기원) de You-Jeong Jeong (정유정)
GPT-4-Vision en tant que traducteur. Note : Certains ont également des traductions officielles en français
Installez Python (<=3.10). Cochez "Ajouter python.exe au PATH" lors de la configuration.
https://www.python.org/downloads/
Actuellement, cela ne fonctionne pas complètement sur python 3.11 ou supérieur en raison de problèmes avec PaddleOCR. Si vous n'avez pas l'intention de traduire à partir du chinois avec l'option par défaut (Paddle), vous pouvez utiliser ceci avec 3.11 en remplaçant
paddleocr==2.7.0.3
paddlepaddle==2.5.2
par
PyMuPDF==1.23.8
dans le fichier requirements.txt.
Clonez le dépôt (ou téléchargez le dossier), naviguez jusqu'au dossier
git clone https://github.com/ogkalu2/comic-translate
cd comic-translate
et installez les exigences
pip install -r requirements.txt
Dans le répertoire comic-translate, exécutez
python comic.py
Cela lancera l'interface graphique
- Importez > Images pour sélectionner une ou plusieurs images. Si vous avez un fichier CBR, vous devrez installer Winrar ou 7-Zip puis ajouter le dossier où il est installé (par ex. "C:\Program Files\WinRAR" pour Windows) au Path. S'il est installé mais pas dans le Path, vous pourriez obtenir l'erreur,
raise RarCannotExec("Cannot find working tool")
Dans ce cas, suivez les instructions pour Windows, Linux, Mac
- Allez dans Paramètres > Rendu de Texte > Ajustez les blocs de texte pour ajuster les dimensions des blocs utilisés pour le rendu. Pour les situations où le texte est rendu trop grand/petit. Cela s'appliquera à tous les blocs détectés sur la page
- Assurez-vous que la police sélectionnée prend en charge les caractères de la langue cible
Les sélections suivantes nécessiteront un accès à des ressources fermées et, par conséquent, des clés API :
- GPT-4-Vision, 4 ou 3.5 pour la traduction (Payant, environ $0.02 USD/Page pour 4-Turbo)
- Traducteur DeepL (Gratuit pour 500 000 caractères/mois)
- GPT-4-Vision pour OCR (Option par défaut pour le français, le russe, l'allemand, le néerlandais, l'espagnol, l'italien) (Payant, environ $0.04 USD/Page)
- Microsoft Azure Vision pour OCR (Gratuit pour 5000 images/mois)
- Google Cloud Vision pour OCR (Gratuit pour 1000 images/mois). Vous pouvez définir vos clés API en allant dans Paramètres > Définir les identifiants
- Rendez-vous sur le site Web de la plateforme OpenAI à l'adresse platform.openai.com et connectez-vous avec (ou créez) un compte OpenAI.
- Passez votre souris sur la barre de tâches de droite de la page et sélectionnez "Clés API".
- Cliquez sur "Créer une nouvelle clé secrète" pour générer une nouvelle clé API. Copiez-la et conservez-la.
- Connectez-vous/Créez un compte Google Cloud. Rendez-vous sur Gestionnaire de ressources Cloud et cliquez sur "Créer un projet". Définissez le nom de votre projet.
- Sélectionnez votre projet ici puis sélectionnez "Facturation" puis "Créer un compte". Dans la pop-up, "Activer le compte de facturation", et acceptez l'offre d'un compte d'essai gratuit. Votre "Type de compte" doit être individuel. Remplissez avec une carte de crédit valide.
- Activez Google Cloud Vision pour votre projet ici
- Sur la page Google Cloud Credentials, cliquez sur "Créer des identifiants" puis Clé API. Copiez-la et conservez-la.
détecteur-de-bulles-de-parole, segmenteur-de-texte. Deux modèles yolov8m entraînés sur 8k et 3k images de bandes dessinées (Mangas, Webtoons, Western) respectivement.
Par Défaut :
- EasyOCR pour l'anglais
- OCR pour mangas pour le japonais
- Pororo pour le coréen
- PaddleOCR pour le chinois
- GPT-4-Vision pour le français, le russe, l'allemand, le néerlandais, l'espagnol et l'italien. Payant, nécessite une clé API.
Optionnel :
Ces outils peuvent être utilisés pour toutes les langues prises en charge. Une clé API est nécessaire.
Un point de contrôle lama affiné pour les mangas/anime pour retirer les textes détectés par le segmenteur. Implémentation gracieuseté de lama-cleaner
Actuellement, cela prend en charge l'utilisation de GPT-4-Vision, GPT-4, GPT-3.5, DeepL et Google Translate. Tous les modèles GPT sont alimentés par le contexte du texte entier de la page pour aider aux traductions. GPT-4-Vision en particulier est également fourni l'image de la page, la page avec le texte original pour les langues qu'il est compétent à reconnaître (français, russe, allemand, néerlandais, espagnol, italien) et l'Image Effacée pour le reste.
PIL pour le rendu du texte enveloppé dans des boîtes délimitées obtenues à partir des bulles et du texte.
- https://github.com/hoffstadt/DearPyGui
- https://github.com/ultralytics/ultralytics
- https://github.com/Sanster/lama-cleaner
- https://huggingface.co/dreMaz
- https://github.com/yunwoong7/korean_ocr_using_pororo
- https://github.com/kha-white/manga-ocr
- https://github.com/JaidedAI/EasyOCR
- https://github.com/PaddlePaddle/PaddleOCR