Напомню, что анализ документа или нескольких документов по чеклисту предполагает их полную загрузку в контекстное окно LLM.
Fiction.liveBench — это первый в своем роде реальный бенчмарк для оценки способности моделей искусственного интеллекта понимать и обрабатывать длинные контексты в текстах.
Fiction.live, платформа для писателей, представила инструмент Fiction.liveBench. Этот бенчмарк предназначен для тестирования и оценки производительности AI-моделей в понимании длинных текстовых последовательностей, что является критически важным для генерации связных и логически последовательных историй.
Я пока на OpenAI API. Но в бэклог уже закинул задачу по реализации возможности переключения между моделями и тестирования их работы.
https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
#LLM