[meta] Translate paragraphs instead of sentences

Based on WMT24, sentence-level translation is going away. There's now more document-level training data available (for example HPLT), and WMT24 used document-level datasets for evaluation.

See [Findings of WMT 2024 Shared task](https://www2.statmt.org/wmt24/pdf/2024.wmt-1.1.pdf)

> In a shift towards document-level evaluation, we
no longer provide source texts segmented into indi-
vidual sentences. Instead, we keep all paragraphs
intact and evaluated together.

This would require:
- adapting document level datasets to leave some paragraphs to train on instead of splitting to sentences
- fix cleaning procedures
- find evaluation datasets
- implement inference support

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[meta] Translate paragraphs instead of sentences #993

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development