Llava vision_tower monkey patch generates `hidden_states=None`

### 🐛 Describe the bug

```
        # If we have one vision feature layer, return the corresponding hidden states,
        # otherwise, select the hidden states of each feature layer and concatenate them
        if isinstance(vision_feature_layer, int):
>           selected_image_feature = image_outputs.hidden_states[vision_feature_layer]
                                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
E           TypeError: 'NoneType' object is not subscriptable

.venv/lib/python3.13/site-packages/transformers/models/llava/modeling_llava.py:192: TypeError
```

### Reproduce

Run the following command 
```
python -m pytest test/convergence/bf16/test_mini_models_multimodal.py -k llava
```

### Versions

Python version: 3.13.1
Liger Kernel version: 0.6.4
PyTorch version: 2.7.1+cu126
CUDA version: 12.6
HIP(ROCm) version: Not available
Triton version: 3.3.1
Transformers version: 5.0.0rc2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Llava vision_tower monkey patch generates `hidden_states=None` #1011

🐛 Describe the bug

Reproduce

Versions

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Llava vision_tower monkey patch generates hidden_states=None #1011

Description

🐛 Describe the bug

Reproduce

Versions

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

Llava vision_tower monkey patch generates `hidden_states=None` #1011