Цялостен Framework за правене на собствени големи езикови модели.
Включва целия pipeline end to end: data preparation, training, checkpointing and resuming, inference, chat, speculative decoding и всички нужни CI/CD, S3, Docker и VM системи и скриптове за автоматизация.
Проектът е образователен и е насочен към хора, които искат да тренират напълно свой езиков модел от нулата, дори да нямат опит с програмирането, заради множеството примери и coding agent автоматизации. Също така се използва от изследователи, които искат да тестват хипотези и промени към Transformer архитектурата и да ги валидират. Всичко това става изключително оптимизирано за модерен хардуер, защото целият код е написан на JAX.
Проектът е в неспирна разработка, но вече има потребители. ⭐️
Автор
Линкове