Возможна замена поисковиков некоторыми нейросетями

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


2025-01-21 12:10

ИИ проекты

Какая ИИ-модель лучше всех ищет информацию? С развитием искусственного интеллекта и появлением таких инструментов, как ChatGPT Search, этот вопрос становится всё более актуальным. Для поиска ответа Hi-Tech Mail решил сравнить шесть известных моделей ИИ, имеющих доступ к интернету. Несмотря на то, что каждая из них смогла продемонстрировать свои навыки обработки сложных запросов и предоставления полезных сведений, лишь одна вышла вперёд.

Хотите узнать, какая из этих моделей заняла лидирующие позиции, и какие преимущества и недостатки проявили остальные участники?

Критерии оценки

В тестировании участвовали следующие модели: Mistral, Perplexity, Deepseek, ChatGPT, Copilot и Gemini. Оценивались они по четырём ключевым параметрам:

1. Полнота ответа: Насколько подробно ИИ объясняет тему, учитывает ли важные нюансы. Чем глубже и шире информация, которую предоставляет модель, тем выше её оценка.

2. Релевантность и контекстуальность: Как хорошо ИИ понимает запрос и может ли корректно отвечать на неявные вопросы. Например, способна ли система уловить смысл запроса, даже если он сформулирован недостаточно чётко.

3. Точность информации: Соответствуют ли факты и данные, предоставляемые моделью, действительности. Особенно важен этот критерий при работе с научными и техническими вопросами.

4. Практическая применимость: Насколько полезны и понятны инструкции от ИИ, могут ли они быть применены в реальной жизни.

Эти параметры помогают оценить, насколько эффективно модель отвечает на запросы пользователей в различных сценариях. Вот примеры вопросов, которые были заданы всем моделям:

• научный запрос. «Найти в интернете информацию о механизме фотосинтеза на молекулярном уровне и объяснить её»;

• творческий запрос. «Найти в интернете информацию и ответить на вопросы: какой музыкальный трек был самым прослушиваемым и какой сериал – самым популярным в России в 2024 году?»;

• аналитический запрос. «Найти в интернете информацию и сравнить экономические модели Китая и России за период с 2000 по 2024 год»;

• практический запрос: «Найти в интернете информацию и предоставить пошаговую инструкцию по замене тормозных колодок на автомобиле Haval Jolion»;

• сложный многоуровневый запрос: «Найти в интернете информацию о том, как изменение климата влияет на миграцию населения в Африке».

Теперь рассмотрим подробнее каждую из моделей.

Mistral

Полнота ответа (7/10). Mistral показала хорошие результаты при ответах на научные и экономические вопросы. Её объяснения были довольно обширными, однако иногда им недоставало дополнительной информации, которая могла бы сделать их более понятными для широкого круга людей. К примеру, обсуждая фотосинтез, она перечислила ключевые моменты, но не углубилась в то, как эти процессы влияют на окружающую среду. Вопрос о влиянии климатических изменений на Африку тоже был освещён поверхностно.

Релевантность и контекстуальность (7/10). В большинстве случаев Mistral адекватно реагировала на поставленный вопрос, хотя иногда возникали проблемы с пониманием контекста. Так, при поиске музыкального хита 2024 года модель представила устаревшие данные, что снизило её общую релевантность.

Точность информации (8/10). На научные темы, такие как фотосинтез и экономика, Mistral давала точные сведения. Однако при вопросах, связанных с популярной культурой, информация оказалась неактуальной.

Практическая применимость (8/10). Инструкция по замене тормозных колодок была детализирована и понятна, но вместо того чтобы предложить визуальные материалы, модель сослалась на сторонние ресурсы, что несколько снизило удобство использования её рекомендаций.

Заключение. Mistral демонстрирует хорошую структуру ответов и глубину анализа при решении научных и экономических задач, но ей недостаёт точности в творческих областях. Например, её выбор самого популярного трека и сериала оказался неверным.

Итоговая оценка: 30 баллов из 40.

Perplexity

Полнота ответа (10/10). ИИ показал высокую степень детализации. Его ответы были насыщенными, содержательными, с качественными примерами, таблицами и дополнительными разъяснениями. Например, на вопрос о замене тормозных колодок модель предложила ссылку на обучающее видео.

Релевантность и контекстуальность (8/10). В основном Perplexity точно отвечала на запросы, но иногда допускались неточности в актуальности информации. Например, при запросе о популярном сериале модель упомянула прошлогодний проект. Однако подобные ошибки встречались редко.

Точность информации (8/10). Как и Mistral, Perplexity достоверно передавала научные данные, но в вопросах, связанных с культурными трендами, допустила ошибку.

Практическая применимость (10/10). ИИ прекрасно справлялась с практическими задачами. Инструкции были ясными и легко выполнимыми, а дополнительные детали, такие как специальные инструменты для ремонта, были учтены.

Заключение. Эта модель выделяется обилием информации и грамотной структурой ответов. Хотя она показывает высокую точность в сложных темах, таких как фотосинтез, есть некоторые ошибки в деталях, относящихся к популярным событиям. Тем не менее, её инструкции весьма понятны и удобны, что делает эту модель идеальной для выполнения повседневных задач.

Итоговый балл: 36 из 40.

Deepseek

Полнота ответа (6/10). Ответы Deepseek часто оказывались недостаточно глубокими и не содержали достаточного количества примеров или разъяснений. Например, ответ на вопрос о климатических изменениях был слишком обобщённым и не раскрывал всех аспектов проблемы. Аналогично, вопрос о замене тормозных колодок остался неполностью раскрытым.

Релевантность и контекстуальность (6/10). Модель игнорировала критерии запроса и выдавала информацию из устаревших иностранных источников, а также выбирала анимационные сериалы.

Точность информации (7/10). Помимо ошибок в определении популярных хитов и сериалов, Deepseek не смог найти точное руководство по замене тормозных колодок для конкретной марки автомобиля.

Практическая применимость (6/10). Инструкции по замене тормозных колодок были чересчур общими и недостаточными для того, чтобы неподготовленный пользователь мог справиться с задачей. Это снижает практическую ценность модели.

Заключение. Deepseek даёт ответы среднего уровня детализации, но зачастую этого недостаточно для полного понимания темы. Это особенно заметно при выполнении практических заданий, где инструкции оказываются недостаточно подробными. Точность также оставляет желать лучшего: например, утверждение о самом популярном музыкальном треке года оказалось недостоверным.

Итоговый балл: 25 из 40.

ChatGPT

Полнота ответа (9/10). GPT-4o продемонстрировала высокую степень детализации. Её ответы отличались глубиной проработки, сопровождались качественными пояснениями и примерами. Например, на вопрос о фотосинтезе GPT-4o не просто описала процесс, но и привела примеры научных исследований, делая информацию более доступной. Как и Perplexity, модель предлагала визуальные примеры.

Релевантность и контекстуальность (9/10). ИИ успешно справлялся с большинством запросов, давая точные и учитывающие нюансы формулировок ответы. Тем не менее, были моменты, когда информация о поп-культуре оказалась не вполне актуальной, например, список популярных сериалов 2024 года включал проекты, которые не занимали верхние строчки рейтингов. Также ИИ предложил видео, которое не полностью соответствовало запросу.

Точность информации (8/10). Научные данные, представленные GPT-4o, были точными, но, как и другие модели, она допустила ошибки в отношении текущих культурных тенденций.

Практическая применимость (10/10). Ответы на практические задачи были чёткими, а пошаговые инструкции — полезными и снабжёнными примерами.

Заключение. Сильные стороны GPT-4o — это объёмные и структурированные ответы, идеально подходящие для научных и аналитических запросов. Однако, как и у других моделей, проблема с актуальностью данных о культурных трендах остается заметной.

Итоговый балл: 36 из 40

Copilot

Полнота ответа (5/10). Ответы Copilot были короткими и поверхностными. Например, при рассмотрении механизма фотосинтеза модель упомянула основные этапы процесса, но совершенно не углубилась в молекулярные детали.

Релевантность и контекстуальность (5/10). Copilot иногда теряла нить разговора, особенно при сложных и многослойных запросах. Так, на аналитический вопрос о сравнении экономических моделей России и Китая ответы содержали общие фразы, без конкретных фактов и цифр, что затрудняло понимание различий между этими странами.

Точность информации (5/10). Предоставляемые данными модели сведения вызывали сомнения. Например, ИИ указал несуществующий сериал и использовал иностранные источники для определения музыкальных хитов.

Практическая применимость (6/10). Несмотря на общие проблемы, инструкция по замене тормозных колодок оказалась полезной и достаточно понятной.

Заключение. Copilot продемонстрировала слабую производительность, главным образом из-за недостатка глубины, точности и достоверности ответов. Она не подходит для использования в качестве основного инструмента для поиска информации в интернете, особенно для сложных запросов.

Итоговый балл: 21 из 40.

Gemini

Полнота ответа (10/10). Gemini — единственная модель, которая предоставляла максимально детализированные ответы. Например, на вопрос о фотосинтезе модель не только описала молекулярные процессы, но и дополнила их историческими примерами исследований.

Релевантность и контекстуальность (8/10). Модель отлично понимала контекст, даже если запросы были сложными или недостаточно чётко сформулированы. Например, при анализе миграционных процессов модель учла климатические, экономические и социальные факторы, что свидетельствует о её способности разбираться в многофакторных ситуациях. Однако, как и другие ИИ, Gemini допустил ошибки в области поп-культуры.

Точность информации (9/10). При сравнении экономических моделей России и Китая модель подробно описала их эволюцию, основываясь на актуальных фактах. Единственным недостатком было то, что для получения ссылок на источники необходимо было специально указывать это в запросе.

Практическая применимость (10/10). Инструкции Gemini были понятными и детализированными. Информация о замене тормозных колодок была представлена пошагово с чёткими рекомендациями.

Заключение. Gemini занял первое место в исследовании благодаря высокой степени полноты, точности и практической ценности своих ответов. Способность этой модели справляться со сложными запросами делает её незаменимой как для профессионалов, так и для рядовых пользователей.

Итоговый балл: 37 из 40.

Заключение

Топ-6 ИИ-поисковиков по результатам тестирования:

1. Gemini;

2. ChatGPT и Perplexity;

3. Mistral;

4. Deepseek;

5. Copilot.

Исследование подтвердило, что ИИ-поисковики находятся на разных этапах развития. Лидерство захватила Gemini, которая справилась с поставленными задачами лучше остальных. Высокая степень полноты, точности и практической полезности этой модели делают её наиболее эффективным инструментом для поиска информации.

ChatGPT и Perplexity также показали хорошие результаты. Mistral уверенно занимает третье место, демонстрируя достойную работу. Что касается Copilot и Deepseek, их ещё рано использовать для постоянного поиска в интернете.

Будущее ИИ-поисковиков связано с повышением их точности, особенно в области культурных данных, и разработкой более интуитивных интерфейсов для пользователей. Эти технологии становятся всё более необходимыми в повседневной жизни.


Источник: vk.com

Комментарии: