안드로이드 온디바이스 LLM을 개발하고 있습니다.
기존엔 whisper.cpp를 쓰고 있는데 GPU 가속이 되지 않아 속도에 대한 갈증이 있었습니다.
LiteRT-LM이 공개되고 특히 MTP까지 적용되면서 속도가 상당히 빠르다고 판단하여 포팅 작업을 진행하였고,
만족스런 결과를 얻게 되었습니다.
LiteRT Community에 공개된 다양한 모델의 벤치마크 결과도 진행하였습니다.
혹시 도움이 되실까 하여 공개해봅니다
안드로이드 온디바이스 LLM을 개발하고 있습니다.
기존엔 whisper.cpp를 쓰고 있는데 GPU 가속이 되지 않아 속도에 대한 갈증이 있었습니다.
LiteRT-LM이 공개되고 특히 MTP까지 적용되면서 속도가 상당히 빠르다고 판단하여 포팅 작업을 진행하였고,
만족스런 결과를 얻게 되었습니다.
LiteRT Community에 공개된 다양한 모델의 벤치마크 결과도 진행하였습니다.
혹시 도움이 되실까 하여 공개해봅니다