Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки `tokenizers` от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

Что умеет Tokasaurus:

• ?? Разбивает текст на токены для языковых моделей

• ? Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)

• ? Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими

• ? Очень быстрый — написан на Rust с Python-обёрткой

• ? Используется как CLI, Python-библиотека или Web API

`pip install tokasaurus

`

Пример использования (Python):

```

from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")

print(tokens)

```

Кому подойдёт:

• Тем, кто работает с LLM

• Для оценки длины prompt'ов

• Для предобработки кода и текста

• Для интеграции в пайплайны, IDE, аналитические инструменты

GitHub: github.com/ScalingIntelligence/tokasaurus

Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.


Источник: vk.com

Комментарии: