В данной статье рассматривается случай применения методов интерпретации свёрточных нейронных сетей к модели ResNet 18 с целью обнаружения и объяснения её ошибок. Сама модель используется для решения задачи определения ориентации изображений текстовых документов. Изначально с помощью методов интерпретации было выдвинуто предположение о причине низкого качества предсказаний модели на данных, отличных от примеров из обучающего набора. Предполагаемой причиной оказалось наличие артефактов на тренировочных данных, которые были сгенерированы с использованием функции поворота изображений. Далее, с помощью методов Vanilla Gradient, Guided Backpropagation, Integrated Gradients, GradCAM и предложенной метрики удалось точно обосновать выдвинутое предположение. Полученные результаты помогли значительно улучшить точность модели.
Задача автоматического распознавания рукописного текста является важной составляющей в процессе анализа электронных документов, однако её решение все еще далеко от идеала. Одной из основных причин сложности распознавания рукописного текста на русском языке является недостаточное количество данных, используемых для обучения моделей распознавания. При этом, для русского языка проблема встаёт более остро и усугубляется большим разнообразием сложных почерков. В данной работе исследуется влияние различных методов генерации дополнительных обучающих наборов данных на качество моделей распознавания: метод на основе рукописных шрифтов, метод склейки слов из символов StackMix, метод на основе генеративно-состязательной сети. В рамках данной работы был разработан новый метод создания изображений рукописного текста на русском языке на основе шрифтов. Кроме того, предлагается алгоритм формирования нового кириллического рукописного шрифта на основе имеющихся изображений рукописных символов. Эффективность разработанного метода проверялась с помощью экспериментов, которые проводились на двух общедоступных кириллических наборах данных с помощью двух различных моделей распознавания. Результаты экспериментов показали, что разработанный метод генерации изображений позволил повысить точность распознавания рукописного текста в среднем на 6%, что сравнимо с результатами других, более сложных методов. Исходный код экспериментов, предложенного метода, а также сгенерированные в процессе экспериментов наборы данных выложены в открытый доступ и готовы для скачивания.
В данной статье рассмотрен алгоритм создания нейросети, базирующую на распознавание образов. Рассмотрены несколько видов атак на нейронные сети, описаны основные особенности таких атак. Проведен анализ Adversarial attack. Приводятся результаты экспериментальной апробации предложенной атаки. Получено подтверждение гипотезы о снижении точности распознавания нейросети при реализации атаки злоумышленником.
Статья подготовлена в ходе разработки системы классификации текстов юридических документов, особенно тех, которые издаются Законодательным собранием Пермского края. Рассматриваемая проблема заключается в отсутствии решений, отвечающих региональным требованиям, основным из которых является применяемая в регионе классификация. Представлено исследование, оценивающее применение моделей обработки естественного языка. Основным результатом исследования является фактическая применимость машины опорных векторов (SVM) к предварительно обработанной категоризации юридических документов. Для выполнения этой задачи был создан API на стороне сервера, а также модели на стороне сервера, предварительно обученные тому, какой SVM предпочтительнее.
Представлена оригинальная информационная система «ферма данных». Сегодня успешное применение алгоритмов искусственного интеллекта, прежде всего глубокого обучения на основе нейронных сетей, практически полностью зависит от наличия данных. И чем больше объем этих данных, тем лучше результаты работы алгоритмов. Хорошо известны примеры таких алгоритмов от Facebook, Google, Microsoft, Yandex и др. Данные должны содержать как обучающую выборку, так и тестируемую. Причем, данные должны быть хорошего качества и обладать определенной структурой, в идеале быть размеченными, чтобы алгоритмы обучения работали адекватно. Это представляет серьезную проблему, требующую огромных вычислительных и человеческих ресурсов. Именно решению этой проблемы посвящена данная статья. На сегодня ферма данных представляет из себя довольно сложную информационную систему, построенную по модульному принципу, схожую с известным конструктором «Лего». Отдельными модулями системы являются различные современные алгоритмы, технологии и целые библиотеки искусственного интеллекта, а все вместе они призваны автоматизировать процесс получения и структурирования качественных больших данных в различных предметных областях. Система была протестирована на данных по COVID-19 в регионах России и странах мира. Кроме того, был разработан удобный интерфейс визуализации данных, собранных и обработанных на ферме. Это дает возможность проводить наглядные численные эксперименты компьютерного моделирования и сравнивать их с реальными данными, превращая ферму в интеллектуальную информационную систему поддержки принятия решений.
Состояние дел области управления отсутствующей информацией в реляционных базах данных оставляет желать лучшего. В стандарте SQL для представления отсутствующих данных используется универсальное null-значение, а управление основано на трехзначной логике, в которой null-значение отождествляется с третьим логическим значением. Это решение концептуально противоречиво и часто приводит к интуитивно непонятному поведению СУБД. Альтернативный подход с использованием типизированных специальных значений перекладывает всю обработку отсутствующих данных на пользователей. В этой статье мы анализируем многолетнюю историю исследований и разработок, которая привела к такой ситуации. Мы приходим к выводу, что в стандарте SQL и не могло появиться другое решение из-за выбора более 50 лет тому назад механизма универсального null-значения, а альтернативный механизм не может обеспечить системную поддержку специальных значений из-за использования двухзначной логики. Мы предлагаем комбинированный подход с использованием типизированных специальных значений на основе трехзначной логики. Этот подход позволяет использовать семантику типов данных при обработке запросов с условиями, включающими неизвестные данные. Кроме того, наш подход позволяет определить полноценную трехзначную логику, в которой специальное значение булевского типа является третьим логическим значением.
Решение задач численного моделирования различных физических процессов предполагает использование вычислительных ресурсов на разных стадиях подготовки, проведения расчетов и обработки их результатов. При этом существует проблема передачи данных между различными прикладными программными комплексами, используемыми в том числе на гетерогенных вычислительных ресурсах с разной архитектурой. В статье рассматриваются основные подходы по разработке и использованию программного обеспечения для работы со структурированными данными прикладных программных комплексов на примере HDF и SIO.
В данной работе исследуются пути достижения максимально возможной производительности обменов с файлами, содержащими структурированные данные. Исследования проводились на файловых системах с параллельным доступом вычислительных систем, предназначенных для решения задач физико-математического моделирования различных процессов и объектов. На примере параллельной файловой системы Lustre рассматривается параллельный доступ к «сырым» данным. Предлагается способ организации параллельного доступа к структурированным данным на основе специального разработанного формата хранения PSIO и библиотеки доступа psio. Выполняется сравнительный анализ производительности ввода-вывода разработанного формата хранения данных и формата параллельной версии HDF5.
В данной работе приводится описание разработанных авторами средств анализа топологии сетей Ethernet, сбора, накопления и отображения статистики их работы. Описываются подходы по оценке качества работы сетевых устройств на основе статистики. Разработанное программное обеспечение используется для анализа работы сетей Ethernet в высокопроизводительных вычислительных системах, предназначенных для решения задач численного моделирования. Данная работа может быть полезна специалистам, занимающимся разработкой и эксплуатацией сетей Ethernet в вычислительных системах на основе ОС Linux.
Статья посвящена сквозному тестированию приложения для управления конфигурацией виртуальной инфраструктуры предприятия. Основная идея заключается в разработке программной среды для создания и выполнения сквозных тестов, написанных на Python. Подход включает всестороннюю оценку системы от пользовательского интерфейса до базы данных. Процесс тестирования выполняется в среде непрерывной интеграции, что позволяет команде постоянно тестировать систему по мере добавления нового кода. Процесс тестирования также включает использование автоматизированных тестов, написанных на Python. Автоматизированные тесты обеспечивают более быстрое и надежное тестирование и позволяют команде тестировать систему на нескольких платформах и в разных конфигурациях. Подход также включает использование виртуальных сред для имитации производственной среды. Это позволяет команде выявлять потенциальные проблемы, которые могут возникнуть в производственной среде, и тестировать производительность системы в различных условиях.
Объектом исследования является процесс обработки изображения при подготовке к передаче данных, а также последующее восстановление. Предметом исследования является применение параллельных вычислений в задачах обработки изображений. Целью статьи является исследование метода восстановления изображения с коррекцией искажения вектора передачи на основе ввода значения тренда его соседей. Актуальность данной темы определяется необходимостью эффективного выполнения операций, предшествующих и следующих за передачей по каналу связи. В ходе экспериментальной части были получены результаты в виде значений времени выполнения при последовательном выполнении и использовании параллельных вычислений, что дало ожидаемый прирост ускорения. Поскольку изображение состоит из несвязанных частей, его можно успешно обрабатывать, применяя распараллеливание данных.
В статье рассматриваются особенности поддержки сценариев на языке Python в активно развивающейся системе интерактивной графики. Подобная поддержка является трудоёмкой задачей, которую сложно автоматизировать в общем случае. В качестве решения этой проблемы предлагается подход, позволяющий разработчикам совмещать создание новых компонентов системы с одновременным встраиванием поддержки сценариев без написания избыточного добавочного кода. Результатом работы является дружественный пользователю объектно-ориентированный API, описывающий все аспекты взаимодействия системы и сценариев. Использующие этот API сценарии могут применяться для автоматизации моделирования, а также для расширения возможностей системы с помощью специальных скриптовых классов. Последнее особо важно, так как оставляет обычным пользователям возможность самостоятельно расширять системы с закрытым исходным кодом.
Обсуждается наиболее общая структура вычислительного алгоритма, реализующего бессеточные лагранжевы методы вычислительной гидродинамики. Затронуты не только основные, но и «вспомогательные», но оттого не менее важные процедуры, реализациям которых часто практически не уделяется внимания. Последнее может приводить к значительному дисбалансу и снижению эффективности кодов, в которых «основные» вычислительные операции существенно оптимизированы. Обсуждаются авторские коды VM2D и VM3D, развитие которых на первом («поисковом») этапе шло главным образом по пути выбора и реализации необходимых математических моделей, а достижение приемлемой эффективности обеспечивалось «экстенсивным» путем – привлечением значительных вычислительных ресурсов (в частности, видеокарт). Предпринята попытка сделать заключение о целесообразности использования существующих сторонних библиотек для выполнения операций вычислительной геометрии, решения задач на графах и т.п.
Вихревые методы вычислительной гидродинамики – эффективный в инженерной практике метод определения гидродинамических нагрузок, действующих на помещенные в поток тела. Их использование позволяет производить решение задач гидроупругости в сопряженной постановке со сравнительно малыми затратами вычислительных ресурсов. Во многих приложениях рассматривается поперечное обтекание элементов конструкций, имеющих значительное удлинение, что позволяет с допустимой точностью использовать метод плоских сечений, переходя к рассмотрению плоских задач. Современные модификации вихревых методов позволяют моделировать течения вязкой несжимаемой среды. На основе метода вязких вихревых доменов в 2017-2022 гг. в МГТУ им. Н.Э. Баумана и ИСП им. В.П. Иванникова РАН создан программный комплекс VM2D. Данный код позволяет с достаточной точностью рассчитывать обтекание профилей при малых значениях числа Рейнольдса, тогда как для повышенных чисел Рейнольдса верные результаты наблюдаются лишь для профилей с острыми кромками и угловыми точками, и только на режимах, когда наиболее интенсивный отрыв происходит именно с указанных точек. Причина погрешности результатов для других режимов видится в некорректном моделировании отрыва с гладкой поверхности профиля при высоких числах Рейнольдса, что, в свою очередь, является следствием неправильного моделирования эволюции завихренности в окрестности точек (зон) отрыва. В работе приведены некоторые результаты моделирования обтекания различных профилей при различных значениях числа Рейнольдса и выдвинута гипотеза, объясняющая причину рассогласования результатов расчетов с данными экспериментов. Показано, что спектр кинетической энергии турбулентности соответствует «двумерной турбулентности».
Рассматриваются вопросы математического моделирования турбулентного теплопроводного течения сжимаемой вязкой среды во внутреннем объеме корпуса воздушно-тепловой завесы, оснащенной тангенциальным вентилятором. Решение задачи построено на основе осредненных по Рейнольдсу (Фавру) уравнений Навье-Стокса. Решение задачи получено с применением подхода MRF (Multiple Reference Frame), который использует вращающуюся систему отсчета, и с применением преобразования основных уравнений Навье-Стокса в зоне вращения. Для корректного описания протекающих во внутреннем объеме воздушно-тепловой завесы и в окружающей среде рабочих процессов в работе применяются модульные многоблочные сетки, в том числе позволяющие разделить вращающиеся и неподвижные области. Решение поставленных задач строится с использованием инструментов пакета OpenFOAM. В результате работы подробно описаны особенности структуры потока в проточной части воздушно-тепловой завесы, оценены скорости газа, достигаемые при различных скоростях вращения вентилятора. Показана автомодельность профилей скорости на выходе из сопла завесы.
Работа посвящена параметрическим исследованиям течения криптона в коническом микросопле при истечении в область с низким давлением. Изучены особенности течений при различных значениях давления торможения в предсопловом объеме, в том числе при возникновении конденсированной фазы в потоке. Математическое моделирование проводилось на основе численного решения полной системы уравнений Навье-Стокса, дополненной уравнением массовой доли конденсата и слагаемыми в уравнении сохранения энергии, отвечающими за теплоту фазового перехода. В математической модели учитывалось изменение коэффициентов динамической вязкости и теплопроводности от температуры газа. Расчетная область включала в себя само микросопло и часть пространства за ним. Задача решалась методом контрольного объема на блочно-структурированной регулярной сетке из четырехугольных элементов с использованием схем второго порядка точности. По времени интегрирование уравнений проводилось с использованием метода Рунге-Кутты. Расчеты проводились при значениях давления торможения 5, 10 и 15 атм для однофазного и двухфазного течений. Приведены поля распределения температуры и числа Маха в сопле и в пространстве за ним. Изучено осевое распределение давления, температуры и числа Маха. Показано, что в случае однофазного потока наблюдается автомодельность течений газа. Поля давлений были подобны, а в безразмерном виде совпадали между собой. При этом наблюдалась идентичность полей скорости и температуры при различных значениях давления торможения. Автомодельность течения нарушается в зоне формирования конденсированных частиц. Размеры зон локального повышения температур, а также интенсивность тепловыделения зависят от заданного давления торможения, что отражается на скоростных характеристиках течения.
Данное исследование подчеркивает важность выравнивания коротких прочтений (ридов) в анализе данных полногеномного секвенирования человека. Процесс выравнивания состоит в определении позиций коротких генетических последовательностей относительно заранее известной референсной последовательности генома человека. Традиционные методы выравнивания используют линейную референсную последовательность, но это может привести к некорректному выравниванию, особенно если в ридах присутствуют генетические варианты. В данной работе была проведена модификация индексного файла референсной последовательности инструмента minimap2. В результате экспериментов было показано, что добавление в индекс инструмента minimap2 информации о часто встречающихся генетических вариантах приводит к повышению количества верно выявленных генетических вариантов, что влияет на качество последующего анализа данных.
ISSN 2220-6426 (Online)