1. Сестринская справка: увеличение данных для маркировки семантической роли кадров (arXiv)

Автор: Аюш Панчоли, Мириам Р.Л. Петрук, Свабха Сваямдипта.

Аннотация: Хотя FrameNet широко известен как богатый ресурс семантики в обработке естественного языка, основные критические замечания касаются его недостаточного охвата и относительной нехватки размеченных данных по сравнению с другими широко используемыми лексическими ресурсами, такими как PropBank и VerbNet. В данном документе сообщается о пилотном исследовании, направленном на устранение этих пробелов. Мы предлагаем подход к дополнению данных, который использует существующую аннотацию, специфичную для фрейма, для автоматического аннотирования других лексических единиц того же фрейма, которые не аннотированы. Наш подход, основанный на правилах, определяет понятие сестринской лексической единицы и генерирует расширенные данные для обучения для конкретных фреймов. Мы представляем эксперименты по маркировке семантических ролей фреймов, которые демонстрируют важность этого увеличения данных: мы получаем значительное улучшение по сравнению с предыдущими результатами по идентификации фреймов и идентификации аргументов для FrameNet, используя как полнотекстовые, так и лексикографические аннотации в FrameNet. Наши результаты по расширению данных подчеркивают ценность автоматического создания ресурсов для улучшения моделей при семантическом анализе фреймов.

2. Нейронная неконтролируемая семантическая маркировка ролей (arXiv)

Автор: Кашиф Мунир, Хай Чжао, Цучао Ли.

Аннотация: Задача семантической ролевой маркировки (SRL) посвящена нахождению предикатно-аргументной структуры. Предыдущие работы над SRL в основном контролировались и не учитывали сложность маркировки каждого примера, которая может быть очень дорогой и трудоемкой. В этой статье мы представляем первую нейронную неконтролируемую модель для SRL. Чтобы разбить задачу на две подзадачи, связанные с аргументами, идентификацию и кластеризацию, мы предлагаем конвейер, который соответственно состоит из двух нейронных модулей. Во-первых, мы обучаем нейронную модель двум статистически разработанным правилам с учетом синтаксиса. Нейронная модель получает сигнал релевантности для каждого токена в предложении, чтобы передать его в BiLSTM, а затем в состязательный слой для одновременного добавления шума и классификации, что позволяет модели изучить семантическую структуру предложения. Затем мы предлагаем другую нейронную модель для кластеризации ролей аргументов, которая выполняется путем кластеризации изученных вложений аргументов, смещенных в сторону их отношений зависимости. Эксперименты с английским набором данных CoNLL-2009 показывают, что наша модель превосходит предыдущую современную базовую линию с точки зрения ненейронных моделей для идентификации и классификации аргументов.