Quinex: Новый инструмент для извлечения количественных данных из научных публикаций
В научных исследованиях именно числовые данные часто играют ключевую роль, позволяя сравнивать технологии, уточнять модели и выявлять новые тенденции. Однако такие показатели, как температура, КПД, выбросы и медицинские параметры, обычно скрыты в тексте, что затрудняет их сбор при большом объёме публикаций.
Исследовательская группа из Юлиха разработала Quinex (Quantitative Information Extraction) — инструмент, который автоматически находит числовые значения в научных статьях, связывает их с единицами измерения и восстанавливает контекст, включая условия, время и методы получения данных. Например, упоминание эффективности в 63–71% в 2025 году превращается в структурированную запись с указанием параметра, диапазона, года и источника.
Фреймворк основан на открытых языковых моделях, что обеспечивает прозрачность, гибкость и доступность без необходимости в дорогостоящей инфраструктуре. Quinex показал высокую точность: около 98% по F1 для чисел и единиц измерения, а также 87% и 82% для классификации свойств и сущностей соответственно. Это достигнуто благодаря специально подготовленным обучающим наборам и методическим доработкам.
Тестирование проведено на тысячах аннотаций из различных сфер — энергетики, медицины, материаловедения — что подтверждает универсальность системы. Quinex не заменяет исследователя, а служит вспомогательным инструментом, облегчая рутинную работу и позволяя проверять найденные данные по оригинальным текстам.
В планах разработчиков — расширение набора данных и адаптация под конкретные дисциплины, а также открытый доступ к проекту для международного сообщества.