Discursive Circuits: How Do Language Models Understand Discourse Relations?
Miao, Kan
Which components in transformer language models are responsible for discourse understanding? We hypothesize that sparse computational graphs, termed as discursive circuits, control how models process discourse relations. Unlike simpler tasks, discourse relations involve longer spans and complex reasoning. To make circuit discovery feasible, we introduce a task called Completion under Discourse Relation (CuDR), where a model completes a discourse given a specified relation. To support this task, we construct a corpus of minimal contrastive pairs tailored for activation patching in circuit discovery. Experiments show that sparse circuits ($\approx 0.2\%$ of a full GPT-2 model) recover discourse understanding in the English PDTB-based CuDR task. These circuits generalize well to unseen discourse frameworks such as RST and SDRT. Further analysis shows lower layers capture linguistic features such as lexical semantics and coreference, while upper layers encode discourse-level abstractions. Feature utility is consistent across frameworks (e.g., coreference supports Expansion-like relations).
academic
الدوائر الخطابية: كيف تفهم نماذج اللغة علاقات الخطاب؟
تستكشف هذه الورقة أي المكونات في نماذج لغة المحول (Transformer) مسؤولة عن فهم الخطاب. يفترض المؤلفون أن الرسوم البيانية الحسابية المتفرقة (تسمى دوائر خطابية) تتحكم في كيفية معالجة النموذج لعلاقات الخطاب. على عكس المهام البسيطة، تتضمن علاقات الخطاب امتدادات نصية أطول واستدلالاً معقداً. لجعل اكتشاف الدوائر ممكناً، يقدم المؤلفون مهمة "الإكمال تحت علاقات الخطاب" (CUDR)، التي تسمح للنموذج بإكمال الخطاب تحت علاقة محددة. تُظهر التجارب أن الدوائر المتفرقة (حوالي 0.2% من نموذج GPT-2) يمكنها استعادة قدرة فهم الخطاب في مهام CUDR القائمة على PDTB، وتعمم بشكل جيد على أطر خطابية غير مرئية مثل RST و SDRT.
البنية الخطابية حاسمة لضمان السلوك الآمن والأخلاقي لنماذج اللغة، لكن يُعرف القليل جداً عن كيفية معالجة نماذج اللغة للخطاب داخلياً، مما يحد من قدرتنا على ضمان موثوقية النموذج والمخرجات الخالية من الأضرار.
يكشف تحليل الحالات الخاطئة عن أوجه قصور في دوائر PDTB عند التعامل مع الكلمات الانفعالية ("يا!") وحذف الفاعل، بينما تتعامل دوائر SDRT بشكل أفضل مع هذه الظواهر.
طرق اكتشاف الدوائر: Wang et al. (2023), Conmy et al. (2023)
مجموعات بيانات الخطاب: Webber et al. (2019), Liu et al. (2024b)
القابلية للتفسير الآلية: Zhang & Nanda (2024), Miller et al. (2024)
التقييم الإجمالي: هذه ورقة بحثية عالية الجودة تتميز بالابتكار في الطريقة وتصميم التجارب وعمق التحليل. من خلال تصميم مهمة CUDR الذكية، نجحت في تطبيق تقنية اكتشاف الدوائر على مهمة فهم الخطاب المعقدة، مما يوفر منظوراً جديداً لفهم الآليات الداخلية لنماذج اللغة. على الرغم من وجود بعض القيود، فإن طبيعتها الرائدة والاكتشافات الغنية تجعلها ذات قيمة أكاديمية وإمكانات عملية مهمة.