import torch
import vllm_sort
from loguru import logger


class CudaTimer:

    def __init__(self,name ):
        self.name = name
        self.start_event = torch.cuda.Event(enable_timing=True)
        self.end_event = torch.cuda.Event(enable_timing=True)

    def __enter__(self):
        self.start_event.record()

    def __exit__(self, exc_type, exc_val, exc_tb) -> bool:
        self.end_event.record()
        self.end_event.synchronize()
        self.elapsed_time_ms = self.start_event.elapsed_time(self.end_event)  
        elapsed_time_seconds = self.elapsed_time_ms / 1000  
        formatted_float = "{:.8f}".format(elapsed_time_seconds)
        logger.info(f"{self.name} cost is : {formatted_float}s")
        return True
def main(size):
    logger.error(f'size is {size}')
    out= torch.rand((1,size), device='cuda:0')
    tensor = torch.rand((1,size), device='cuda:0')
    with CudaTimer('pytorch sort'):
        torch.sort(tensor)
    with CudaTimer('cub sort'):
        vllm_sort.vllm_sort(tensor,out)

if __name__=="__main__":
    for i in range(1,9):
        main(i*10**6)

This is the code I used for testing, where vllm_sort internally calls the DeviceSegmentedSort function provided by cub, and I implemented this logic.

Uh oh!

Implement custom kernels for top-k and top-p sampling #125

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions