Прогнозирование машинного обучения и классификация поведенческого отбора в программе обнаружения обоняния собак

Том 13 научных докладов, Номер статьи: 12489 (2023) Цитировать эту статью

218 Доступов

2 Альтметрика

Подробности о метриках

Растет интерес к исследованиям поведения собак, особенно рабочих собак. Здесь мы воспользуемся набором данных когорты обонятельного обнаружения Управления транспортной безопасности, состоящей из 628 лабрадоров-ретриверов, для выполнения исследований машинного обучения (ML) по прогнозированию и классификации поведенческих черт и воздействия окружающей среды. Данные были доступны для четырех временных точек в течение 12-месячного периода передержки, после чего собаки были приняты в программу обучения или исключены. Три контролируемых алгоритма ML показали надежную производительность при правильном прогнозировании того, какие собаки будут приняты в программу обучения, но низкую эффективность при распознавании тех, которые были исключены (~ 25% когорты). 12-месячный период тестирования дал наилучшую способность различать принятых и исключенных собак (AUC = 0,68). Классификационные исследования с использованием анализа главных компонентов и рекурсивного исключения признаков с использованием перекрестной проверки выявили важность характеристик, связанных с обонянием и владением, для теста поиска и извлечения в терминале аэропорта, а также характеристик владения, уверенности и инициативы для теста на окружающую среду. Наши результаты показывают, какие тесты, окружающая среда, поведенческие черты и временные рамки являются наиболее важными для выбора собак с обонятельным обнаружением. Мы обсуждаем, как этот подход может направлять дальнейшие исследования, охватывающие когнитивные и эмоциональные, социальные и экологические эффекты.

Машинное обучение (МО) — это область искусственного интеллекта (ИИ), которая использует комбинацию алгоритмов и статистики для выполнения различных аналитических функций с широким спектром типов данных. ML разделен на два класса алгоритмов: контролируемое обучение для помеченных обучающих данных и неконтролируемое для немаркированных данных. Контролируемые методы позволяют учиться на известных входных и выходных данных в целях прогнозирования неизвестных выходных данных на основе известных входных данных (регрессионный анализ) или определять, какие категории данных являются наиболее важными для прогнозирования результатов (классификационный анализ). Приложения контролируемого машинного обучения для изучения поведения собак использовали установленные на собаках инерционные датчики для создания автоматизированных этограмм собак, чувствительных к индивидуальным различиям1,2, а также видео для классификации поведения, подобного СДВГ3. В исследованиях ML на собаках без присмотра использовались данные видео и поведенческого опросника C-BARQ для исследовательского анализа4, а также данные датчиков для прогнозирования успеха собаки-поводыря5. У людей контролируемое ML с использованием несенсорных данных тестирования, связанных с выполнением задач, применялось для прогнозирования успеха в выполнении работы6, но нам неизвестны такие исследования на собаках. Здесь мы используем контролируемые методы, чтобы предсказать, какие собаки добьются успеха в программе предварительной подготовки по обнаружению запаха или потерпят неудачу по поведенческим причинам. Хотя это исследование применялось к служебным собакам, оно также, вероятно, будет способствовать новому пониманию обучения и производительности труда у млекопитающих в целом, в том числе у людей. Однако поведенческая генетика человека, как правило, характеризуется высоким уровнем гетерогенности, полигенности и — из-за отрицательного эволюционного отбора даже слабо вредных вариаций — незначительными размерами эффекта отдельных вариаций. Таким образом, исследования на людях потребуют гораздо большей мощности, а выявленные вариации не будут иметь прямой пользы. Напротив, у собак значительно снижена гетерогенность, полигенность и отрицательный отбор, а также сильный положительный отбор по различным признакам7. Конечным результатом является то, что собаки обладают значительно большей способностью генетически картировать все виды признаков. Обратной стороной является то, что неравновесие по сцеплению у собак в несколько раз более обширно, что приводит к большим интервалам картирования. Однако это можно смягчить путем межпородного генетического картирования вариаций, общих для разных пород8,9,10.

Собаки-детекторы по обонянию уже давно используются для обнаружения взрывчатых веществ, контролируемых веществ, других регулируемых материалов (например, насекомых, продуктов питания и растений), а также человеческого запаха в целях общественной безопасности11,12. Совсем недавно функции обнаружения запаха собак включали в себя медицинские состояния (например, низкий уровень маркера глюкозы в крови при диабете и инфекцию SARS-CoV-213). В Соединенных Штатах большинство военных и правоохранительных собак обучаются как собаки двойного назначения, выполняющие как обнаружение запаха, так и защиту. Другими основными группами рабочих собак являются собаки-поводыри для слепых или слабовидящих людей и служебные собаки для помощи людям с другими ограниченными возможностями. Диапазон затрат на большинство предварительно обученных рабочих собак составляет 40 000–80 000 долларов США14, и цены продолжают расти, поскольку спрос превышает предложение. Эти затраты могут быть увеличены примерно вдвое, если принять во внимание дрессировку. В результате этих фактов, а также того, что общий уровень успешной дрессировки составляет менее 50%, существует огромный стимул для более эффективного производства и дрессировки рабочих собак11,15. Несмотря на то, что были проведены поисковые и проспективные исследования новых схем тестирования служебных собак для обнаружения и помощи, они еще не получили широкого распространения16. Однако существуют большие наборы данных о дрессировке, производительности и состоянии здоровья рабочих собак, полученные от федеральных и частных учреждений, которые еще не были тщательно проанализированы15,17. Таким образом, остается возможным, что существующие стандартизированные наборы данных, которые продолжают собираться и уже являются большими и поэтому идеально подходят для ML, могут стать наиболее эффективным и продуктивным путем улучшения понимания поведенческих особенностей, необходимых для рабочих собак.