Tokasaurus — универсальный токенизатор с поддержкой 70+ языков |
||
|
МЕНЮ Главная страница Поиск Регистрация на сайте Помощь проекту Архив новостей ТЕМЫ Новости ИИ Голосовой помощник Разработка ИИГородские сумасшедшие ИИ в медицине ИИ проекты Искусственные нейросети Искусственный интеллект Слежка за людьми Угроза ИИ Атаки на ИИ Внедрение ИИИИ теория Компьютерные науки Машинное обуч. (Ошибки) Машинное обучение Машинный перевод Нейронные сети начинающим Психология ИИ Реализация ИИ Реализация нейросетей Создание беспилотных авто Трезво про ИИ Философия ИИ Big data Работа разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика
Генетические алгоритмы Капсульные нейросети Основы нейронных сетей Промпты. Генеративные запросы Распознавание лиц Распознавание образов Распознавание речи Творчество ИИ Техническое зрение Чат-боты Авторизация |
2025-06-09 12:03 Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки `tokenizers` от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков. Что умеет Tokasaurus: • ?? Разбивает текст на токены для языковых моделей • ? Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие) • ? Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими • ? Очень быстрый — написан на Rust с Python-обёрткой • ? Используется как CLI, Python-библиотека или Web API `pip install tokasaurus ` Пример использования (Python): ``` from tokasaurus import tokenize tokens = tokenize("def hello(): print('Hi')", model="gpt2") print(tokens) ``` Кому подойдёт: • Тем, кто работает с LLM • Для оценки длины prompt'ов • Для предобработки кода и текста • Для интеграции в пайплайны, IDE, аналитические инструменты GitHub: github.com/ScalingIntelligence/tokasaurus Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus. Источник: vk.com Комментарии: |
|