Сейчас происходит бум развития и применения LLM (Large Language Model) моделей, прежде всего самими программистами, а также обычными пользователями для простых запросов в чат-бот

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-08-07 11:18

ИИ проекты

Но они достаточно хороши уже, чтобы влезть в еще более интересную нишу. Эта ниша - создания полезных программных продуктов и разнообразных приложений пользователями, которые не являются программистами. Например, вы математик, почти не умеющий программировать, и вам нужно что-то сделать для работы. LLM-модели позволяют не только сделать какой-то полезный работающий скрипт и запускать в Google Colab, но и собрать полноценное работающее приложение с удобным интерфейсом, в том числе само вызывающее LLM.

А вызов LLM внутри приложений - может заменить много чего еще. Например, программа Mathpix, которая распознает по скриншотам текст и формулы, и превращает в LaTeX, делает это намного хуже, чем это делает просто сам Gemini 2.5 Pro.

В итоге можно получить приложение, которое от пользователя не требует почти ничего, кроме способности завести гугл-аккаунт, и зайти сюда https://aistudio.google.com/apikey . Для живущих в России также потребуется VPN, чтобы обойти блокировки пользователей из России, которые применяет Google. В России приложения, вызывающие Gemini, не будут работать без VPN.

У меня в ближайших планах

1. Сделать клон Mathpix, который работает гораздо лучше, потому что использует вызов Gemini.

2. Сделать приложение, которое составляет кучу индивидуальных вариантов для контрольной студентам на основе некоторой базы, а затем сразу проверяет все работы, собранные в одну папку, одним нажатием кнопки (время работы на студенческую группу - порядка часа должно быть, т.к. лучше всего делать по отдельному запросу в LLM на каждого студента или даже на каждую задачу), выдает отчет с подробным анализом каждой работы в виде хорошо оформленного файла Word и создает exel таблицу со списком студентов и заработанными баллами.

3. Сделать приложение, которое ищет научные статьи по тем или иным признакам (например, по аффилиации) сразу одновременно по большому количеству баз, а не только по Скопусу, как это можно делать внутри самого Скопуса, например.

Пример разработки собственного приложения с помощью Gemini.

В папке релиза там есть уже собранное, нужно просто скачать архив dist, извлечь и сразу запускать.

https://github.com/IgorOberon/whisper-gemini-app

Это приложение расшифровывает аудио файлы любого формата и размера с помощью нейросети whisper, сохраняет в файл и выводит на экран лог расшифровки. Кроме того, там есть кнопка анализировать с помощью Gemini, которая вызывает LLM удаленно и запускает на анализ текстовой расшифровки с заранее заданным промптом (но можно подключить любой другой промпт - как из файла, так и просто отредактировав текстовое поле). API-ключ можно взять тут https://aistudio.google.com/apikey

Мой уровень компетенции в создании подобных приложений - изначально нулевой. С помощью LLM ушло около 7 часов.

Большая часть из них - на пересборки (пересобирается долго) при попытках исправить то, что при работе приложения часто вылезает и тут же закрывается черное консольное окно. После множества попыток LLM в итоге смог свести количество таких окон до одного - оно выскакивает и сразу закрывается в начале анализа каждого аудиофайла. Ликвидировать это окно почему-то так и не удалось, а все остальные успешно удалил.

Хорошая новость - если я захочу сделать новое приложение, бороться с этой проблемой заново уже не придется, можно использовать уже сделанное решение. Так что следующее подобное приложение будет собрано сильно быстрее.

Кроме того, прилично времени ушло на то, чтобы разобраться, как на гитхаб правильно создать репозиторий с программой через git bash, установив его - раньше не делал этого никогда.

Теперь распишу этапы создания программы.

Первый этап - сделать работающий скрипт в гугл колаб. Gemini справился с первого же промпта. Вторым промптом он добавил обработку любых видов аудиофайлов, а не только .wav. Работало сразу же, без ошибок. Этот этап я сделал давно, и активно пользовался скриптом, но недавно пришел к выводу, что было бы гораздо удобнее сделать приложение.

Второй этап - сделать минимально работающую программу с интерфейсом. Тоже очень быстро получилось, но работало только при запуске файла .py из Анаконды, при сборке ничего работающего не получалось.

Третий этап - дизайн и доработка функций. Для этого сначала попросил его написать профессиональный промпт для этого, а потом использовал этот промпт, а затем еще доработал описание функционала, чтобы было удобнее, поиграв с приложением. Например, добавил возможность копирования, выделения и вставки полей в приложении мышкой, загрузку API-ключа через txt и тому подобное.

Вторые 2 этапа заняли примерно час.

Четвертый этап - сделать работающее приложение .exe. На это ушло уже куда больше времени, потому что каждая пересборка через pyinstaller довольно длительная. Кроме того, Gemini далеко не сразу понял, как это правильно сделать, он долго пытался всё засунуть в один .exe файл, а потом пришел к выводу, что так всё равно не получится. Мне нужно было по его указанию найти в интернете архив ffmpeg-7.0.2-full_build-shared , он указал на каком сайте скачать, потом оттуда из папки bin вручную перетаскивать файлы в папку моего приложения после каждой сборки, и эти файлы нельзя засунуть "внутрь" исполняемого файла.

Пятый этап. При работе приложения часто выскакивали черные консольные окна и тут же закрывались, это крайне неудобно для работы пользователя. Gemini поэтапно устранял эту проблему, переписывая функцию за функцией, но одно из этих окон так и не удалил (оно выскакивает при начале обработки аудиофайла), в принципе практически не мешает.

Шестой этап - создать на гитхаб репозиторий приложения, выгрузить туда релиз, используя git bash. Сам я раньше никогда с git bash не работал, но справился по указаниям. Для примера скидываю скриншоты переписки с Gemini на шестом этапе (тут примерно половина скриншотов, так как прикрепить только 8 штук получается). Первый скрин из программы, второй скриншот показывает, откуда брать API-ключ свой.


Источник: accounts.google.com

Комментарии: