Preview

Труды Института системного программирования РАН

Расширенный поиск
Том 37, № 6: часть 2. ноябрь-декабрь
7-20
Аннотация

В последние годы широкую популярность получил протокол QUIC, как альтернатива TCP. Кроме того, в настоящее время широко внедряется и исследуется технология Multipath, реализованная в протоколе MPQUIC. Центральным компонентом протокола MPQUIC является планировщик, принимающий решение по какому пути и в какой момент времени отправить следующие пакеты данных. Существуют реализации планировщиков как на основе эвристических правил, так и на основе обучения с подкреплением. На данный момент поведение планировщиков в различных, с точки зрения характеристик путей, средах изучено подробно. Однако вопрос их эффективности в зависимости от используемых алгоритмов контроля перегрузки недостаточно освящён. В данной работе представлена реализация различных планировщиков и исследование их эффективности в зависимости от алгоритма контроля перегрузки. Полученные результаты, на основе проведённых экспериментов, говорят о том, что планировщик может эффективно работать в сетевой среде с определённым алгоритмом контроля перегрузки, но при этом быть не эффективным в среде с другим алгоритмом контроля перегрузки.

21-36
Аннотация

В операционной системе (ОС) Astra Linux кроме традиционного для большинства ОС дискреционного управления доступом ее подсистемой безопасности PARSEC реализуются механизмы мандатного контроля целостности (МКЦ) и мандатного управления доступом (МРД). С учетом многообразия имеющихся в данной ОС сущностей (объектов доступа, файлов, каталогов, сокетов и др.) и субъектов (процессов) эти механизмы имеют сложную логику функционирования, затрудняющую их тестирование с использованием вручную подготовленных тестов. Влияет на проблему необходимость выполнения процессов разработки безопасного программного обеспечения (ПО) для соответствия ОС Astra Linux требованиям высших классов защиты и уровней доверия. Вместе с тем в основе механизмов МКЦ и МРД этой ОС используется мандатная сущностно-ролевая ДП-модель управления доступом и информационными потоками в ОС семейства Linux (МРОСЛ ДП-модель), описанная в классической математической нотации и в формализованной нотации на языке формального метода Event-B. Авторами развивается рекомендованный ГОСТ Р 59453.4-2025 подход к тестированию механизмов управления доступом на основе сбора трасс системных вызовов ОС и их перевода на язык формальной модели с целью проверки соответствия ей логики функционирования механизма управления доступом ОС. Результатам этой работы посвящена настоящая статья, в которой, во-первых, изложены итоги разработки и верификации используемого для тестирования нижнеуровневого представления МРОСЛ ДП-модели (PARSEC-модели), выполненного на языке формального метода Event-B и представляющего функциональную спецификацию связанных с управлением доступом системных вызовов ОС. Во-вторых, описывается система тестирования, включающая модуль ядра ОС для сбора трасс системных вызовов, ПО для их преобразования в модельные трассы, аниматор модельных трасс, выполненный с применением инструментального средства ProB, и ПО для формирования результатов тестирования в формате инструментального средства Allure. В-третьих, в статье рассматривается подход к использованию для распараллеливания тестирования технологии eBPF.

37-52
Аннотация

В работе представлена реализация статического анализа для языка Visual Basic .NET в рамках промышленного инструмента SharpChecker. С помощью фреймворка компилятора Roslyn в SharpChecker была интегрирована поддержка языка Visual Basic .NET. Это позволило выполнять статический анализ исходного кода на языке Visual Basic .NET. В рамках работы также был создан репрезентативный набор синтетических тестов, содержащий суммарно более 2000 тестов. Тестирование производилось как на созданной выборке тестов, так и на наборе реальных проектов с открытым исходным кодом суммарным объемом более 1.6 млн. строк кода. Было обнаружено 7926 новых предупреждений в исходном коде на языке Visual Basic .NET, из которых 1093 были проанализированы и размечены вручную. Итоговая точность анализа составила 84.72%. Кроме того, были обнаружены предупреждения, связанные с кодом на языках C# и Visual Basic .NET одновременно, что показало возможность производить межъязыковой анализ в проектах, которые содержат сразу два языка платформы .NET. Добавление поддержки языка Visual Basic .NET в инструмент SharpChecker не отразилось на времени работы и на качестве анализа для языка C#.

53-64
Аннотация

Анализ программ и автоматизированное тестирование в последнее время стали неотъемлемой частью РБПО. Направленный фаззинг – один из самых популярных методов автоматизированного тестирования, который фокусируется на поиске ошибок в заранее определенных областях кода. Однако этот метод не способен преодолевать сложные программные ограничения. Эта проблема может быть эффективно решена с помощью символьного выполнения, но ценой более низкой производительности. Таким образом, комбинирование методов направленного фаззинга и символьного выполнения может привести к более эффективному поиску ошибок в программах.

В этой статье мы предлагаем гибридный подход к направленному фаззингу с оригинальным алгоритмом планирования входных данных, основанным на пользе для достижения целевых точек и увеличения покрытия кода. В подходе также выполняется минимизация и сортировка результатов анализа в соответствии с информацией о целевых точках. Мы реализовали наш подход в инструменте Sydr-Fuzz, используя LibAFL-DiFuzz в качестве направленного фаззера и Sydr в качестве динамического символьного исполнителя. Мы оценили наш подход с помощью метрики Time to Exposure и сравнили его с чистым LibAFL-DiFuzz, а также с инструментом AFLGo и другими направленными фаззерами. Согласно результатам, гибридный подход Sydr-Fuzz к направленному фаззингу демонстрирует высокую производительность и помогает повысить эффективность направленного фаззинга.

65-76
Аннотация

Обучение высококачественных классификаторов в условиях ограниченного количества размеченных данных является одной из фундаментальных проблем машинного обучения. Несмотря на то, что большие языковые модели (LLM) демонстрируют впечатляющие результаты при решении задач классификации явного обучения (zero-shot), их прямое применение на практике затруднено из-за высокой вычислительной стоимости, чувствительности к формулировкам запросов (prompt engineering) и ограниченной интерпретируемости. В качестве масштабируемой альтернативы выступает обучение со слабым контролем, которое основано на объединении множества неточных функций разметки (labeling functions, LF). Однако создание и последующая настройка таких функций обычно требует существенных затрат ручного труда. В данной работе мы предлагаем подход LLM-Guided Iterative Weak Labeling (LGIWL), который сочетает генерацию функций разметки с помощью больших языковых моделей и методику обучения со слабым контролем в рамках итеративного цикла обратной связи. Вместо прямого использования LLM в качестве классификатора, мы применяем её для автоматического создания и постепенного уточнения функций разметки на основе ошибок промежуточного классификатора. Полученные функции фильтруются с использованием небольшого размеченного набора данных и затем применяются к неразмеченной выборке при помощи генеративной модели меток. Это позволяет обучить итоговый дискриминативный классификатор высокого качества при минимальных затратах на ручную аннотацию. Эффективность предложенного подхода продемонстрирована на реальной задаче классификации диалогов службы поддержки клиентов на русском языке. LGIWL существенно превосходит как классические эвристики на основе ключевых слов (Snorkel), так и подходы zero-shot на основе GPT-4, а также полностью контролируемый классификатор CatBoost, обученный на размеченных данных аналогичного размера. В частности, вариант LGIWL с моделью RuModernBERT достигает высокого показателя полноты при значительном улучшении точности, демонстрируя итоговый результат по метрике F1 = 0.863. Полученные результаты подтверждают как высокую устойчивость метода, так и его практическую применимость в условиях ограниченных ресурсов размеченных данных.

77-92
Аннотация

Идея компиляции запросов в системах управления базами данных берёт своё начало в System R, где впервые была реализована схема генерации кода, при которой небольшие фрагменты машинного кода объединялись вместе для создания специализированной подпрограммы, обрабатывающей конкретный SQL запрос. В дальнейшем подходы изменились: вместо машинного кода начали генерировать код на языке С, который затем компилировался с помощью системных компиляторов, таких как GCC, в динамические библиотеки и подгружался в процессе выполнения. Сегодня стандартом де-факто в области динамической компиляции запросов стал фреймворк LLVM. Благодаря своей модульной архитектуре он позволяет избежать дорогостоящего этапа трансляции с языка высоко уровня в промежуточное представление, обеспечивая его прямую генерацию с последующим применением машинно-независимых оптимизаций и генерации эффективного машинного кода. Однако LLVM изначально разрабатывался как оптимизирующий компилятор, и его использование может приводить к значительным накладным расходам на компиляцию – в отдельных случаях они превышают время выполнения запроса в десятки раз. Это особенно проблематично для коротких запросов с миллисекундным временем исполнения. В данной работе рассматриваются два легковесных генератора кода для архитектуры x86-64 в качестве альтернативы LLVM в СУБД PostgreSQL. Оцениваются как скорость генерации кода с использованием этих фреймворков, так и качество получаемого исполняемого кода. Приведено качественное сравнение с LLVM, анализируются компромиссы между скоростью компиляции и производительностью выполнения запросов на базах данных различного размера. Результаты экспериментов показывают, что легковесные решения не только превосходят LLVM по производительности на небольших наборах данных, но и сохраняют её конкурентноспособной на больших объёмах информации.

93-106
Аннотация

Обработка пропусков в табличных данных остаётся важной задачей при построении надёжных моделей машинного обучения. В данной работе рассматривается новый подход к заполнению пропущенных значений, основанный на идее унарной классификации. Предложенный метод использует ансамбль персептронов, обучаемых отдельно для каждого класса, для оценки правдоподобия восстанавливаемых значений относительно эмпирического носителя класса. В качестве фона используется равномерное распределение на ограниченной области признакового пространства. Это позволяет интерпретировать выход модели как аппроксимацию апостериорной вероятности принадлежности объекта к классу и использовать её в процессе итеративного заполнения пропусков и обучения классификатора. Теоретически обоснована состоятельность построенной оценки. Проведены эксперименты на синтетических двумерных выборках с пропусками, распределёнными по механизму MCAR. Полученные результаты демонстрируют преимущества предложенного подхода по сравнению с классическими методами заполнения, особенно при высокой доле пропусков и сложной геометрии классов.

107-122
Аннотация

Таблицы широко используются для представления и хранения данных, но, как правило, они не сопровождаются явной семантикой необходимой для машинной интерпретации своего содержания. Семантическая интерпретация таблиц является ключевой задачей для интеграции структурированных данных с графами знаний, однако существующие методы сталкиваются с проблемами при обработке русскоязычных таблиц из-за недостатка размеченных данных и языковой специфики. В данной работе предложен подход на основе контрастного обучения, направленный на устранение зависимости от ручной разметки и улучшение качества аннотирования столбцов редкими семантическими типами. Подход включает адаптацию алгоритма контрастного обучения для табличных данных с использованием аугментаций (удаление и перестановка ячеек), а также дистиллированной мультиязычной модели DistilBERT для эффективного обучения на неразмеченных данных корпуса RWT, содержащего 7.4 млн. столбцов. Обученные табличные представления интегрируются в конвейер аннотирования фреймворка RuTaBERT, что позволяет снизить вычислительные затраты. Эксперименты показали, что предложенный подход достигает микро-F1 97% и макро-F1 92%, превосходя некоторые базовые решения, что подтверждает его эффективность в условиях разреженности данных и языковых особенностей русского языка. Результаты демонстрируют, что контрастное обучение позволяет моделировать семантическое сходство между столбцами без явной разметки, что особенно важно для данных редких типов.

123-130
Аннотация

В работе предложена метрика для оценки качества работы алгоритмов выделения ключевых точек на изображении в условиях пересеченной местности при отсутствии однозначно определяемых ориентиров и углов. Проведено сравнение различных алгоритмов выделения ключевых точек для последующей реализации в составе SLAM алгоритма на борту беспилотного летательного аппарата. Получены значения предложенной метрики для популярных алгоритмов выделения ключевых точек и другие параметры на основе запуска решения в контролируемом окружении. Показаны преимущества алгоритмов на основе моделей машинного обучения.

131-150
Аннотация

Повышение уровня безопасности железнодорожного движения напрямую связано с необходимостью оперативного обнаружения структурных аномалий элементов рельсового пути. Данная задача реализуется посредством регулярных проверок состояния рельсов с применением методов неразрушающего контроля. Среди современных технологий, используемых для этой цели, выделяется вихретоковая дефектоскопия. Дефектоскоп формирует многоканальный дискретный сигнал, который называется дефектограммой. Дефектограммы нуждаются в анализе, то есть в выявлении полезных сигналов, указывающих на дефект или конструктивные элементы рельса. В работе рассматривается применение детектирующих свёрточных нейронных сетей семейства YOLO (You Only Look Once) для автоматического обнаружения полезных сигналов рельсов на вихретоковых дефектограммах рельсов. Цель исследования – оценить эффективность различных способов преобразования многоканального сигнала в двумерные изображения, совместимые с YOLO. Исследованы четыре метода преобразования: пороговое, основанное на сравнении амплитуд с пороговым уровнем шума, оконное преобразование Фурье, непрерывное вейвлет‑преобразование и преобразование Гильберта‑Хуанга. Набор данных для обучения состоит из фрагментов дефектограмм по 50 тыс. отсчётов с полезными сигналами трёх классов (болтовые стыки, электроконтактные и алюминотермитные сварки). Данные разделены на обучающую, валидационную и тестовую выборки. Обученные на этих данных модели YOLO для всех рассмотренных методов преобразования продемонстрировали высокие показатели сбалансированной средней точности mAP. Наилучшие показатели были достигнуты при использовании непрерывного вейвлет-преобразования, в то время как пороговое преобразование оказалось наименее вычислительно затратным. Оконное преобразование Фурье позволило достичь лучшего баланса между точностью и полнотой обнаружения полезных сигналов. Результаты исследования подтверждают потенциал использования сетей YOLO для анализа вихретоковых дефектограмм и сигналов в целом.

151-168
Аннотация

В статье представлены принципы составления словаря имен собственных водных объектов (гидронимов) Республики Саха (Якутия) для дальнейшей работы с ним на платформе ЛингвоДок. В работе над словарем применяется комплексный подход с точки зрения лексикографии, лексикологии, семантики, морфологии, этимологии, картографии. Описана методология отбора и анализа топонимического материала, описаны проблемы искажения названий при картографировании по правилам русского языка, основные структурные типы гидронимов, принципы выделения семантических признаков, разделения их на группы. Представлены карты, созданные на основе данных словарей топонимов, загруженных на платформу ЛингвоДок. Словарь гидронимов является первой попыткой систематизации названий водных объектов Республики Саха (Якутия) на платформе ЛингвоДок.

169-176
Аннотация

В статье дана характеристика проекта, реализация которого начата в текущем году в Институте языка, литературы и истории Карельского научного центра РАН, – «Язык памятников прибалтийско-финской письменности XVII-XIX вв.: комплексный анализ на базе лингвистической платформы LingvoDoc». Платформа LingvoDoc – цифровое хранилище, предназначенное для резервирования языковых данных, инструменты которого предоставляют возможность одновременно осуществлять обработку языкового материала и проводить в онлайн-режиме анализ фонетических, морфологических, лексических особенностей языка. Размещение текстов памятников карельской и вепсской письменностей на платформе LingvoDoc позволит не только решать исследовательские задачи (текстологический анализ, выявление диалектной специфики, создание конкордансов и т.д.), но и выйти на решение вопросов языковой документации. Метод обработки больших данных обеспечит релевантность результатов.

177-190
Аннотация

В статье представлен обзор современных подходов к автоматическому обнаружению когнатов, сочетающий методы глубокого обучения и классические лингвистические техники. Основная цель исследования - систематизировать существующие архитектуры, выявить их сильные и слабые стороны и предложить интегративную модель, объединяющую фонетические, морфологические и семантические представления лексических данных. Для достижения этой цели проведён критический анализ работ, опубликованных в период 2015–2025 гг. и отобранных с помощью специализированного парсера научного репозитория arXiv.org. В рамках анализа рассмотрены следующие задачи: (1) оценка точности и устойчивости сиамских сверточных нейронных сетей (CNN) и трансформеров при переносе фонетических паттернов между разнородными языковыми семьями; (2) сопоставление эффективности орфографических метрик (LCSR, нормализованное расстояние Левенштейна, индексы Джарро-Винклера и др.) и семантических эмбеддингов (fastText, MUSE, VecMap, XLM-R); (3) исследование гибридных архитектур, включающих морфологические слои и механизмы транзитивности для выявления частичных когнатов. В результате выявлено, что комбинирование фонетических модулей (сиамские CNN + трансформеры), морфологической обработки (BiLSTM на основе данных UniMorph) и обучаемых семантических векторов обеспечивает наилучшие показатели точности и устойчивости для различных языковых пар, включая малоресурсные. Предложена интегративная архитектура, способная адаптироваться к разнообразию языковых групп и эффективно оценивать степень родства слов. Итогом работы стал не только аналитический отчёт о передовых методах, но и разработка рекомендаций для дальнейшего развития автоматизированного выявления когнатов.

191-210
Аннотация

Самоубийство – это ужасающий поступок человека, которого вводит в заблуждение его собственное психическое состояние. Эта проблема актуальна для многих странах и в России в том числе. К счастью, некоторые из этих людей пишут о своих проблемах в социальных сетях, что позволяет найти их и помочь справиться с их проблемами. Однако эти значимые тексты теряются среди большего количества нерелевантных текстов, что значительно замедляет процесс принятия решения о суицидальном риске человека. Чтобы помочь справиться с этой проблемой, в этой работе представлена подробная методология создания набора данных для обнаружения текстов, содержащих пресуицидальные и антисуицидальные сигналы. Эта методология описывает процесс создания инструкций и таблиц классов, процесс аннотирования, проверки и исправления после аннотирования. Руководствуясь этой методологией, был собран и размечен большой русскоязычный набор данных, содержащий более 50 тысяч текстов из социальных сетей. В работе предоставлена статистика количества данных в наборе данных, а также общие проблемы с разметкой, которые возникли в процессе. Показаны результаты базовых экспериментов по построению классификационных моделей, чтобы продемонстрировать работоспособность на разных уровнях аннотации. Кроме того, набор данных, код и все материалы были сделаны общедоступными.

211-222
Аннотация

Представлен новый метод выравнивания прочтений для задач полногеномного секвенирования (WGS), ориентированный на повышение точности и практической эффективности этого этапа геномного анализа. В отличие от графовых подходов, предложенный алгоритм интегрирует информацию об известных генетических вариантах напрямую в процесс выравнивания, что позволяет улучшить сопоставление последовательностей с эталонным геномом без строительства сложных графовых структур. Метод продемонстрировал высокую эффективность на реальных данных: наблюдается устойчивый прирост качества выравнивания на участках с высоким уровнем изменений между разными людьми, а также участках, которые сложны для однозначного выравнивания даже при отсутствии изменений в этом месте у конкретного человека. В частности, использование информации о вариантах позволяет точнее выравнивать короткие последовательности (прочтения), содержащие альтернативные аллели, снижая число ошибок в указанных регионах. При этом требуемые вычислительные ресурсы остаются на приемлемом уровне, что делает решение применимым в стандартных WGS-пайплайнах без существенного увеличения нагрузки. Скорость работы алгоритма сопоставима с традиционными решениями, что упрощает его интеграцию в существующие аналитические программные конвейеры. Практическая ценность метода заключается в улучшении точности выравнивания, что напрямую влияет на качество последующего обнаружения вариантов и других анализов. Предлагаемый подход способен служить эффективной альтернативой современным графовым методам выравнивания, обеспечивая сопоставимое повышение качества результатов выравнивания при меньшей сложности реализации. Перспективы дальнейшего развития включают оптимизацию производительности алгоритма, расширение набора учитываемых генетических вариантов и проведение углубленного сравнения с другими инструментами. Эти шаги призваны еще более повысить эффективность и надежность метода, укрепляя его значимость для практического применения в геномике.

223-236
Аннотация

Значительные затраты на обучение визуальных базовых моделей с нуля на больших и обширных наборах тренировочных данных мотивируют владельцев моделей прибегать к использованию методов защиты интеллектуальной собственности. В данной работе предложен метод ExpressPrint – новый подход к созданию цифровых водяных знаков для визуальных базовых моделей, основанный на дообучении наиболее выразительных слоев модели совместно с небольшой нейронной сетью типа “кодировщик-декодировщик” с целью встраивания цифровых водяных знаков в отложенный набор входных изображений. Предложенный метод подразумевает незначительные модификации выразительных слоев модели наряду с обучением нейронной сети типа “кодировщик-декодировщик” для извлечения специфичных для пользователя бинарных сообщений из скрытых представлений входных изображений. Данный подход позволяет отличать модель, предоставленную в пользование по лицензии, от других версии модели, и, таким образом, предотвращать несанкционированное использование модели третьими лицами. В работе было обнаружено, что способность корректно извлекать закодированные бинарные сообщения из изображений передается от исходной базовой модели, к ее функциональным копиям, полученным посредством дообучения и прунинга; помимо этого показано, что независимые визуальные базовые модели, не подвергавшиеся нанесению цифровых водяных знаков, не обладают данным свойством.

237-248
Аннотация

Алгоритм Shazam доказал свою надежность и эффективность в задачах идентификации аудио. В данной работе мы адаптируем основные принципы алгоритма Shazam для задачи обнаружения частичных видеокопий. Мы предлагаем новый метод выравнивания видеоотпечатков при поиске частичной видеокопии запроса по базе видео. Одно из лучших качеств данного метода – его высокая скорость исполнения на CPU, простота и одновременно с этим высокая эффективность. Экспериментальные результаты на общедоступных видео наборах данных демонстрируют, что наш подход достигает высокой точности в обнаружении частичных и модифицированных видеокопий, обладая конкурентной производительностью по скорости и масштабируемости. Наши результаты показывают, что создание отпечатков по принципам Shazam может служить эффективным инструментом для крупномасштабных приложений по обнаружению видеокопий.



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2079-8156 (Print)
ISSN 2220-6426 (Online)