2025-11-12T22:49:10.680556

Query Brand Entity Linking in E-Commerce Search

Liu, Nag
In this work, we address the brand entity linking problem for e-commerce search queries. The entity linking task is done by either i)a two-stage process consisting of entity mention detection followed by entity disambiguation or ii) an end-to-end linking approaches that directly fetch the target entity given the input text. The task presents unique challenges: queries are extremely short (averaging 2.4 words), lack natural language structure, and must handle a massive space of unique brands. We present a two-stage approach combining named-entity recognition with matching, and a novel end-to-end solution using extreme multi-class classification. We validate our solutions by both offline benchmarks and the impact of online A/B test.
academic

์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰์—์„œ์˜ ์ฟผ๋ฆฌ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น

๊ธฐ๋ณธ ์ •๋ณด

  • ๋…ผ๋ฌธ ID: 2502.01555
  • ์ œ๋ชฉ: Query Brand Entity Linking in E-Commerce Search
  • ์ €์ž: Dong Liu, Sreyashi Nag (Amazon)
  • ๋ถ„๋ฅ˜: cs.IR cs.AI cs.LG
  • ๋ฐœํ‘œ ์‹œ๊ฐ„/ํ•™ํšŒ: 2025๋…„ (arXiv ์‚ฌ์ „์ธ์‡„๋ณธ)
  • ๋…ผ๋ฌธ ๋งํฌ: https://arxiv.org/abs/2502.01555

์ดˆ๋ก

๋ณธ ๋…ผ๋ฌธ์€ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ์—์„œ์˜ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•œ๋‹ค. ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ์ž‘์—…์€ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ์ˆ˜ํ–‰๋œ๋‹ค: 1) ์—”ํ‹ฐํ‹ฐ ์–ธ๊ธ‰ ํƒ์ง€์™€ ์—”ํ‹ฐํ‹ฐ ์†Œ๊ฑฐ๊ณก(disambiguation)์„ ํฌํ•จํ•˜๋Š” 2๋‹จ๊ณ„ ํ”„๋กœ์„ธ์Šค; 2) ์ž…๋ ฅ ํ…์ŠคํŠธ์—์„œ ๋ชฉํ‘œ ์—”ํ‹ฐํ‹ฐ๋ฅผ ์ง์ ‘ ํš๋“ํ•˜๋Š” ์ข…๋‹จ๊ฐ„(end-to-end) ๋งํ‚น ๋ฐฉ๋ฒ•. ๋ณธ ์ž‘์—…์€ ๊ณ ์œ ํ•œ ๊ณผ์ œ๋“ค์— ์ง๋ฉดํ•œ๋‹ค: ๊ทน๋„๋กœ ์งง์€ ์ฟผ๋ฆฌ(ํ‰๊ท  2.4๊ฐœ ๋‹จ์–ด), ์ž์—ฐ์–ธ์–ด ๊ตฌ์กฐ ๋ถ€์žฌ, ๋Œ€๊ทœ๋ชจ ๋ธŒ๋žœ๋“œ ๊ณต๊ฐ„ ์ฒ˜๋ฆฌ ํ•„์š”์„ฑ. ๋ณธ ๋…ผ๋ฌธ์€ ๋ช…๋ช…๋œ ์—”ํ‹ฐํ‹ฐ ์ธ์‹(Named Entity Recognition)๊ณผ ๋งค์นญ์„ ๊ฒฐํ•ฉํ•œ 2๋‹จ๊ณ„ ๋ฐฉ๋ฒ•๊ณผ ๊ทน๋‹จ์  ๋‹ค์ค‘๋ถ„๋ฅ˜(extreme multi-classification)๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ์ข…๋‹จ๊ฐ„ ์†”๋ฃจ์…˜์„ ์ œ์•ˆํ•œ๋‹ค. ์˜คํ”„๋ผ์ธ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ์™€ ์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ์†”๋ฃจ์…˜์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ–ˆ๋‹ค.

์—ฐ๊ตฌ ๋ฐฐ๊ฒฝ ๋ฐ ๋™๊ธฐ

๋ฌธ์ œ ์ •์˜

์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰์—์„œ ๋ธŒ๋žœ๋“œ ์ธ์‹์€ ์ œํ’ˆ ์œ ํ˜• ๋‹ค์Œ์œผ๋กœ ๋‘ ๋ฒˆ์งธ๋กœ ์ค‘์š”ํ•œ ์†์„ฑ์ด๋‹ค. ๋ธŒ๋žœ๋“œ๋ช…(์ง์ ‘ ์–ธ๊ธ‰์ด๋“  ๊ฐ„์ ‘ ์–ธ๊ธ‰์ด๋“ )์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ธ์‹ํ•˜๋Š” ๊ฒƒ์€ ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ ์ดํ•ด์˜ ์ค‘์š”ํ•œ ๊ตฌ์„ฑ ์š”์†Œ์ด๋ฉฐ, ์–‘์งˆ์˜ ์‡ผํ•‘ ๊ฒฝํ—˜ ์ œ๊ณต์— ํ•„์ˆ˜์ ์ด๋‹ค.

๊ณผ์ œ ๋ถ„์„

  1. ์ฟผ๋ฆฌ ํŠน์„ฑ ์ œ์•ฝ: ์ „์ž์ƒ๊ฑฐ๋ž˜ ์ฟผ๋ฆฌ๋Š” ๊ทน๋„๋กœ ์งง์œผ๋ฉฐ(ํ‰๊ท  2.4๊ฐœ ๋‹จ์–ด), ์ž์—ฐ์–ธ์–ด ๊ตฌ์กฐ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ์˜คํ”ˆ์†Œ์Šค NLP ๋ชจ๋ธ์ด ์ด๋Ÿฌํ•œ ์ฟผ๋ฆฌ ๋ถ„ํฌ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ต๋‹ค
  2. ๊ฑฐ๋Œ€ํ•œ ๋ธŒ๋žœ๋“œ ๊ณต๊ฐ„: ์ˆ˜์‹ญ๋งŒ ๊ฐœ์˜ ๊ณ ์œ  ๋ธŒ๋žœ๋“œ๋ฅผ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋ฉฐ, ์ง€์†์ ์œผ๋กœ ์ƒˆ๋กœ์šด ๋ธŒ๋žœ๋“œ๊ฐ€ ์ถ”๊ฐ€๋œ๋‹ค
  3. ๋‹ค์–‘์„ฑ ๋ฌธ์ œ:
    • ์„œ๋กœ ๋‹ค๋ฅธ ์–ธ์–ด ๋ฐ ์ง€์—ญ์—์„œ์˜ ๋ธŒ๋žœ๋“œ๋ช… ๋ณ€ํ˜• ํ†ต์ผ
    • ๋™์ผ ๋ธŒ๋žœ๋“œ์˜ ๋‹ค์–‘ํ•œ ํ‘œ๋ฉด ํ˜•ํƒœ(์•ฝ์ž vs ์ „์ฒด๋ช…)
    • ๋ชจ๋ธŒ๋žœ๋“œ์™€ ์„œ๋ธŒ๋ธŒ๋žœ๋“œ ๊ด€๊ณ„ ์ธ์‹

์—ฐ๊ตฌ ๋™๊ธฐ

๊ธฐ์กด์˜ ๋ฌธ์ž์—ด ๊ธฐ๋ฐ˜ ๋ธŒ๋žœ๋“œ ์ธ์‹ ๋ฐฉ๋ฒ•์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋ธŒ๋žœ๋“œ ๊ฐœ๋…์„ ๋‹จ์ผ ๋ช…๋ช… ๊ณต๊ฐ„์˜ ์ „์—ญ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ๋กœ ํ†ต์ผํ•˜์—ฌ ์–ธ์–ด, ์ƒ์ , ํ‘œ๋ฉด ํ˜•ํƒœ ์ „๋ฐ˜์— ๊ฑธ์นœ ํ†ต์ผ๋œ ์ธ์‹์„ ๊ตฌํ˜„ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

ํ•ต์‹ฌ ๊ธฐ์—ฌ

  1. 2๋‹จ๊ณ„ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ๋ชจ๋ธ ๊ตฌ์ถ•: ์‚ฌ์ „ํ•™์Šต๋œ NER ๋ชจ๋ธ๊ณผ ํ‘œ๋ฉด ํ˜•ํƒœ ๋งค์นญ์„ ๊ฒฐํ•ฉํ•œ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์˜ˆ์ธก ํ”„๋ ˆ์ž„์›Œํฌ
  2. ๋งค์นญ ๊ธฐ์ˆ  ํƒ์ƒ‰: ์–ดํœ˜ ๋ฐ ์˜๋ฏธ๋ก ์  ๋งค์นญ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ, ๋Œ€๊ทœ๋ชจ ๋ธŒ๋žœ๋“œ ์ถœ๋ ฅ ๊ณต๊ฐ„์˜ ์—”ํ‹ฐํ‹ฐ ์˜ˆ์ธก ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ์ œํ’ˆ ์œ ํ˜• ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง ๋‹จ๊ณ„ ์ œ์•ˆ
  3. ์ข…๋‹จ๊ฐ„ ๊ทน๋‹จ์  ๋‹ค์ค‘๋ถ„๋ฅ˜ ๋ชจ๋ธ ์ œ์•ˆ: ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ํ•˜์—ฌ ๊ด€๋ จ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜๊ณ  2๋‹จ๊ณ„ ๋ชจ๋ธ๊ณผ ์œตํ•ฉ
  4. ํฌ๊ด„์  ๊ฒ€์ฆ: ๋Œ€๊ทœ๋ชจ ์˜คํ”„๋ผ์ธ ์‹คํ—˜ ๋ฒค์น˜๋งˆํฌ ํ…Œ์ŠคํŠธ ๋ฐ ์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ๋ฅผ ํ†ตํ•œ ์†”๋ฃจ์…˜ ์œ ํšจ์„ฑ ๊ฒ€์ฆ

๋ฐฉ๋ฒ• ์ƒ์„ธ ์„ค๋ช…

์ž‘์—… ์ •์˜

์ฃผ์–ด์ง„ ๋ธŒ๋žœ๋“œ ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ(์˜ˆ: " running shoes")์—์„œ ๋ธŒ๋žœ๋“œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ ๊ณ ์œ  ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ๋ฅผ ์ธ์‹ํ•˜๊ณ  ๋งํ‚นํ•œ๋‹ค. ์ž…๋ ฅ์€ ์›๋ณธ ์ฟผ๋ฆฌ ํ…์ŠคํŠธ์ด๊ณ , ์ถœ๋ ฅ์€ ํ•ด๋‹นํ•˜๋Š” ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ID์ด๋‹ค.

๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜

1. 2๋‹จ๊ณ„ ํ”„๋ ˆ์ž„์›Œํฌ

๊ธฐ๋ณธ 2๋‹จ๊ณ„ ๋ฐฉ๋ฒ• (NER + ์ •ํ™• ์–ดํœ˜ ๋งค์นญ):

  • 1๋‹จ๊ณ„: MetaTS-NER ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ธŒ๋žœ๋“œ ์–ธ๊ธ‰ ์ถ”์ถœ
    m = f_NER(q)
    
  • 2๋‹จ๊ณ„: ์ •์  ์‚ฌ์ „์„ ํ†ตํ•œ ์ •ํ™• ๋ฌธ์ž์—ด ๋งค์นญ
    E_ID = g(m)
    
  • ํ•„ํ„ฐ๋ง ๋‹จ๊ณ„: ์ œํ’ˆ ์œ ํ˜• ๊ธฐ๋ฐ˜ ์†Œ๊ฑฐ๊ณก
    e = h(E_ID, q, PT_q)
    

๊ฐœ์„ ๋œ 2๋‹จ๊ณ„ ๋ฐฉ๋ฒ• (NER + PECOS ์˜๋ฏธ๋ก ์  ๋งค์นญ):

  • ๋งค์นญ ๋‹จ๊ณ„๋ฅผ ๊ทน๋‹จ์  ๋‹ค์ค‘๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ๋ชจ๋ธ๋ง
  • PECOS ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๊ณต๊ฐ„ ์ฒ˜๋ฆฌ(์•ฝ 6๋งŒ ๊ฐœ ์—”ํ‹ฐํ‹ฐ)
  • ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋ฐ ๊ด€๋ จ์„ฑ ์ ์ˆ˜ ์ถœ๋ ฅ: (E_ID, S) = g_M2E(m)

2. ์ข…๋‹จ๊ฐ„ ํ”„๋ ˆ์ž„์›Œํฌ (Q2E-PECOS)

์ฟผ๋ฆฌ์—์„œ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ๋ฅผ ์ง์ ‘ ์˜ˆ์ธกํ•˜์—ฌ NER ๋‹จ๊ณ„์˜ ์˜ค๋ฅ˜ ์ „ํŒŒ ๋ฐฉ์ง€:

(E_ID, S) = g_Q2E(q)
e = h(E_ID, PT_q, S, q)

์ฃผ์š” ํŠน์„ฑ:

  • ๋น„๋ธŒ๋žœ๋“œ ์ฟผ๋ฆฌ ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ NIL ํด๋ž˜์Šค ์ถ”๊ฐ€
  • ์‹œ๊ฐ„ ๋ณต์žก๋„: O(b ร— log L), ์—ฌ๊ธฐ์„œ b๋Š” ๋น” ํฌ๊ธฐ, L์€ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์ˆ˜
  • ๊ณต๊ฐ„ ๋ณต์žก๋„: O(d ร— L)์—์„œ O(d ร— log L)๋กœ ๊ฐ์†Œ

3. ์œตํ•ฉ ํ”„๋ ˆ์ž„์›Œํฌ

2๋‹จ๊ณ„ ์ •ํ™• ๋งค์นญ๊ณผ ์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์˜ ์žฅ์ ์„ ๊ฒฐํ•ฉ:

  • ๋‘ ๋ฐฉ๋ฒ•์„ ๋ณ‘๋ ฌ๋กœ ์‹คํ–‰
  • ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ์ •ํ™• ๋งค์นญ ๊ฒฐ๊ณผ ์šฐ์„  ์„ ํƒ
  • ์ปค๋ฒ„๋ฆฌ์ง€ ํ–ฅ์ƒ์„ ์œ„ํ•ด Q2E-PECOS ๊ฒฐ๊ณผ๋กœ ํด๋ฐฑ

๊ธฐ์ˆ  ํ˜์‹ ์ 

  1. ๋ธŒ๋žœ๋“œ ๋งํ‚น์—์„œ์˜ PECOS ์ ์šฉ: ๊ทน๋‹จ์  ๋‹ค์ค‘๋ถ„๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น์— ์ฒ˜์Œ ์ ์šฉ
  2. ์ œํ’ˆ ์œ ํ˜• ๋ณด์กฐ ์†Œ๊ฑฐ๊ณก: ์ฟผ๋ฆฌ ์ œํ’ˆ ์œ ํ˜• ์ •๋ณด๋ฅผ ํ™œ์šฉํ•œ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์†Œ๊ฑฐ๊ณก
  3. ๋‹ค์ค‘์–ธ์–ด ์ง€์›: 13๊ฐœ ์–ธ์–ด์˜ ๋ธŒ๋žœ๋“œ ์ธ์‹ ์ง€์›
  4. ์œตํ•ฉ ์ „๋žต: ๋†’์€ ์ •ํ™•๋„์™€ ๋†’์€ ์žฌํ˜„์œจ ๋ฐฉ๋ฒ•์˜ ๊ต๋ฌ˜ํ•œ ๊ฒฐํ•ฉ

์‹คํ—˜ ์„ค์ •

๋ฐ์ดํ„ฐ์…‹

๋ฐ์ดํ„ฐ์…‹๊ทœ๋ชจ
๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์ˆ˜61,697
Brand2entity616,974
๊ฐ•ํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ(SL)806,972
์•ฝํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ(WL)1,308,816
ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ28,439

๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ:

  1. Brand2entity (B2E): ๋ธŒ๋žœ๋“œ๋ช…-์—”ํ‹ฐํ‹ฐ ์Œ์˜ ๋‚ด๋ถ€ ์‚ฌ์ „
  2. ๊ฐ•ํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ(SL): ์ธ๊ฐ„์ด ์ฃผ์„ํ•œ 13๊ฐœ ์–ธ์–ด ๊ฒ€์ƒ‰ ์ฟผ๋ฆฌ ๋ฐ์ดํ„ฐ
  3. ์•ฝํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ(WL): ์—ญ์‚ฌ์  ์ฟผ๋ฆฌ-์ œํ’ˆ ์ƒํ˜ธ์ž‘์šฉ์—์„œ ํŒŒ์ƒ๋œ ์•ฝํ•œ ๊ฐ๋… ๋ฐ์ดํ„ฐ

ํ‰๊ฐ€ ์ง€ํ‘œ

  • ์žฌํ˜„์œจ: Recall = |C| / |L_single|
  • ์ •ํ™•๋„: Precision = |C| / |P_single|
  • ์ปค๋ฒ„๋ฆฌ์ง€: Coverage = |P_single| / |T|
  • F1 ์ ์ˆ˜: ์กฐํ™” ํ‰๊ท 

์—ฌ๊ธฐ์„œ C๋Š” ์ •ํ™•ํ•œ ์˜ˆ์ธก ์ง‘ํ•ฉ, L_single์€ ๋‹จ์ผ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋ ˆ์ด๋ธ” ์ฟผ๋ฆฌ ์ง‘ํ•ฉ, P_single์€ ๋ชจ๋ธ์ด ์˜ˆ์ธกํ•œ ๋‹จ์ผ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์ฟผ๋ฆฌ ์ง‘ํ•ฉ์ด๋‹ค.

๋น„๊ต ๋ฐฉ๋ฒ•

  1. NER + ์ •ํ™• ์–ดํœ˜ ๋งค์นญ: ๊ธฐ๋ณธ 2๋‹จ๊ณ„ ๋ฐฉ๋ฒ•
  2. NER + M2E-PECOS: ์˜๋ฏธ๋ก ์  ๋งค์นญ์˜ 2๋‹จ๊ณ„ ๋ฐฉ๋ฒ•
  3. Bi-encoder: Qwen3 Embedding 0.6B๋ฅผ ์‚ฌ์šฉํ•œ ์ด์ค‘ ์ธ์ฝ”๋” ๊ธฐ๋ณธ์„ 
  4. Q2E-PECOS: ์ข…๋‹จ๊ฐ„ PECOS ๋ฐฉ๋ฒ•
  5. ์œตํ•ฉ ๋ชจ๋ธ: ํ˜ผํ•ฉ ๋ฐฉ๋ฒ•์˜ ๋‹ค์–‘ํ•œ ์กฐํ•ฉ

์‹คํ—˜ ๊ฒฐ๊ณผ

์ฃผ์š” ๊ฒฐ๊ณผ

๋ฐฉ๋ฒ•ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์œตํ•ฉGroup-1Group-2
์ปค๋ฒ„๋ฆฌ์ง€/์žฌํ˜„์œจ/์ •ํ™•๋„/F1์ปค๋ฒ„๋ฆฌ์ง€/์žฌํ˜„์œจ/์ •ํ™•๋„/F1
NER + ์ •ํ™• ๋งค์นญโœ“ โœ“58.28/64.66/97.22/77.6770.16/86.21/99.15/92.23
Q2E-PECOSโœ“ โœ“ โœ“70.98/75.26/96.13/84.4280.77/94.71/98.92/96.77
Q2E-PECOSโœ“ โœ“ โœ“โœ“75.31/77.35/94.93/85.2485.09/94.64/98.55/96.56

์ฃผ์š” ๋ฐœ๊ฒฌ:

  • ์ข…๋‹จ๊ฐ„ Q2E-PECOS๋Š” ์ปค๋ฒ„๋ฆฌ์ง€์™€ ์žฌํ˜„์œจ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ
  • ์œตํ•ฉ ์ „๋žต์€ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์žฌํ˜„์œจ ํ–ฅ์ƒ
  • ์•ฝํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ๋Š” ์ข…๋‹จ๊ฐ„ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๋ช…๋ฐฑํ•œ ์˜ํ–ฅ

๋‹ค์ค‘์–ธ์–ด ์„ฑ๋Šฅ ๋ถ„์„

๋‹ค์–‘ํ•œ ์–ธ์–ด์˜ ์„ฑ๋Šฅ ์ฐจ์ด๋Š” ์ƒ๋‹นํ•˜๋‹ค:

  • ๊ณ ์ž์› ์–ธ์–ด(์˜์–ด, ์ŠคํŽ˜์ธ์–ด): ๋ชจ๋“  ๋ฐฉ๋ฒ•์ด ์–‘ํ˜ธํ•œ ์„ฑ๋Šฅ ๋ฐœํœ˜
  • ์ €์ž์› ์–ธ์–ด(์ผ๋ณธ์–ด): NER+์ •ํ™• ๋งค์นญ ์ปค๋ฒ„๋ฆฌ์ง€๋Š” 19.03%์— ๋ถˆ๊ณผ
  • ์œตํ•ฉ ๋ฐฉ๋ฒ•: ๋ชจ๋“  ์–ธ์–ด์—์„œ ์ •ํ™•๋„์™€ ์žฌํ˜„์œจ์˜ ๊ท ํ˜• ์œ ์ง€

์˜ค๋ฅ˜ ๋ถ„์„

85K๊ฐœ์˜ ๋น„๋ธŒ๋žœ๋“œ ์ฟผ๋ฆฌ์—์„œ์˜ ๊ฑฐ์ง“ ์–‘์„ฑ์œจ:

  • NER + ์ •ํ™• ๋งค์นญ: 1.177%
  • Q2E-PECOS(์•ฝํ•œ ์ฃผ์„ ํฌํ•จ): 6.550%

์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์˜ ๊ฑฐ์ง“ ์–‘์„ฑ์œจ์ด ๋” ๋†’์ง€๋งŒ, ์ „์ฒด ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ณ ๋ คํ•˜๋ฉด ์—ฌ์ „ํžˆ ํ—ˆ์šฉ ๋ฒ”์œ„ ๋‚ด์ด๋‹ค.

์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ

์ง€ํ‘œGroup-1 ์ƒ์ Group-2 ์ƒ์ 
๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ์žฌํ˜„์œจ+11.00%+5.44%
๊ณ ๊ฐ ์ฐธ์—ฌ๋„+0.02%-
์ฆ‰์‹œ ๊ธฐ์—ฌ ์ด์ต+0.03%-

์˜จ๋ผ์ธ ํ…Œ์ŠคํŠธ๋Š” ์œตํ•ฉ ์†”๋ฃจ์…˜์˜ ์‹ค์ œ ๋น„์ฆˆ๋‹ˆ์Šค ๊ฐ€์น˜๋ฅผ ํ™•์ธํ–ˆ๋‹ค.

๊ด€๋ จ ์—ฐ๊ตฌ

์ „ํ†ต์  ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ๋ฐฉ๋ฒ•

  • 2๋‹จ๊ณ„ ์„ค๊ณ„: ์—”ํ‹ฐํ‹ฐ ์ธ์‹ + ์—”ํ‹ฐํ‹ฐ ์†Œ๊ฑฐ๊ณก
  • ํ›„๋ณด ์ƒ์„ฑ: ํ‘œ๋ฉด ํ˜•ํƒœ ๋งค์นญ, ๋ณ„์นญ ํ™•์žฅ, ์‚ฌ์ „ ํ™•๋ฅ  ๋งค์นญ
  • ํ›„๋ณด ์ˆœ์œ„ ์ง€์ •: ํŽธ์ง‘ ๊ฑฐ๋ฆฌ, ์˜๋ฏธ๋ก ์  ๋ฒกํ„ฐ ์œ ์‚ฌ๋„

์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•

  • ๊ฒฐํ•ฉ ํ•™์Šต: ์ธ์‹๊ณผ ์†Œ๊ฑฐ๊ณก์„ ๋™์‹œ์— ์ˆ˜ํ–‰
  • ์ˆ˜์—ด ํ‘œ์ง€: BERT ๊ธฐ๋ฐ˜ ํ† ํฐ ๋ถ„๋ฅ˜
  • ์ž๋™ํšŒ๊ท€ ์ƒ์„ฑ: ํ† ํฐ๋ณ„ ์—”ํ‹ฐํ‹ฐ๋ช… ์ƒ์„ฑ

์ „์ž์ƒ๊ฑฐ๋ž˜ ์˜์—ญ์˜ ํŠน์ˆ˜์„ฑ

  • ์ฟผ๋ฆฌ ํŠน์„ฑ: ์งง์Œ, ๋…ธ์ด์ฆˆ, ๋ชจํ˜ธ์„ฑ
  • ์‘์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค: ์ œํ’ˆ ๊ฒ€์ƒ‰, ์ฟผ๋ฆฌ ์žฌ์ž‘์„ฑ, ๊ฒ€์ƒ‰ ๊ฒฐ๊ณผ ํ’ˆ์งˆ ํ–ฅ์ƒ
  • ๊ธฐ์ˆ ์  ๊ณผ์ œ: ์–ดํœ˜ ๋ฌธ๋งฅ ๋ถ€์žฌ, ๋Œ€๊ทœ๋ชจ ์ง€์‹ ๊ธฐ๋ฐ˜

๊ฒฐ๋ก  ๋ฐ ํ† ๋ก 

์ฃผ์š” ๊ฒฐ๋ก 

  1. ์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์˜ ์žฅ์ : Q2E-PECOS๋Š” ์ปค๋ฒ„๋ฆฌ์ง€์™€ ์žฌํ˜„์œจ์—์„œ ์ „ํ†ต์  2๋‹จ๊ณ„ ๋ฐฉ๋ฒ•์„ ํฌ๊ฒŒ ๋Šฅ๊ฐ€
  2. ์œตํ•ฉ ์ „๋žต์˜ ํšจ๊ณผ์„ฑ: ๋†’์€ ์ •ํ™•๋„์˜ ์–ดํœ˜ ๋งค์นญ๊ณผ ๋†’์€ ์žฌํ˜„์œจ์˜ ์˜๋ฏธ๋ก ์  ๋งค์นญ์„ ๊ฒฐํ•ฉํ•œ ์œตํ•ฉ ๋ฐฉ๋ฒ•์ด ์ตœ๊ณ  ์„ฑ๋Šฅ ๋ฐœํœ˜
  3. ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ: ์•ฝํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ๋Š” ์ข…๋‹จ๊ฐ„ ๋ชจ๋ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํ•ต์‹ฌ์ 
  4. ์‹ค์ œ ๊ฐ€์น˜: ์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ๋Š” ๋ฐฉ๋ฒ•์˜ ์ƒ์—…์  ๊ฐ€์น˜ ์ž…์ฆ

ํ•œ๊ณ„

  1. ๊ฑฐ์ง“ ์–‘์„ฑ์œจ: ์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์˜ ๋น„๋ธŒ๋žœ๋“œ ์ฟผ๋ฆฌ์—์„œ์˜ ๊ฑฐ์ง“ ์–‘์„ฑ์œจ์ด ๋†’์Œ
  2. ์–ธ์–ด ์ฐจ์ด: ์ €์ž์› ์–ธ์–ด ์„ฑ๋Šฅ ๊ฐœ์„  ์—ฌ์ง€ ์žˆ์Œ
  3. ๊ณ„์‚ฐ ๋ณต์žก๋„: ์œตํ•ฉ ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ ๋ชจ๋ธ์„ ๋ณ‘๋ ฌ ์‹คํ–‰ ํ•„์š”
  4. ๋ฐ์ดํ„ฐ ์˜์กด์„ฑ: ์ข…๋‹จ๊ฐ„ ํ›ˆ๋ จ์„ ์œ„ํ•ด ๋Œ€๋Ÿ‰์˜ ์•ฝํ•œ ์ฃผ์„ ๋ฐ์ดํ„ฐ ํ•„์š”

ํ–ฅํ›„ ๋ฐฉํ–ฅ

  1. ๋ชจ๋ธ ์ตœ์ ํ™”: ๊ฑฐ์ง“ ์–‘์„ฑ์œจ ์ถ”๊ฐ€ ๊ฐ์†Œ, ์ €์ž์› ์–ธ์–ด ์„ฑ๋Šฅ ํ–ฅ์ƒ
  2. ํšจ์œจ์„ฑ ํ–ฅ์ƒ: ๊ณ„์‚ฐ ๋ณต์žก๋„ ์ตœ์ ํ™”, ์ถ”๋ก  ์ง€์—ฐ ๊ฐ์†Œ
  3. ๊ต์ฐจ ์˜์—ญ ์ด์ „: ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฅธ ์ „์ž์ƒ๊ฑฐ๋ž˜ ์†์„ฑ ์ถ”์ถœ ์ž‘์—…์œผ๋กœ ํ™•๋Œ€
  4. ๋™์  ์—…๋ฐ์ดํŠธ: ์ƒˆ๋กœ์šด ๋ธŒ๋žœ๋“œ์˜ ์‹ค์‹œ๊ฐ„ ์ถ”๊ฐ€ ๋ฐ ์—…๋ฐ์ดํŠธ ์ฒ˜๋ฆฌ

์‹ฌ์ธต ํ‰๊ฐ€

์žฅ์ 

  1. ๋ฌธ์ œ์˜ ์ค‘์š”์„ฑ: ์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰์˜ ํ•ต์‹ฌ ๋ฌธ์ œ ํ•ด๊ฒฐ, ๋†’์€ ์‹ค์šฉ์  ๊ฐ€์น˜
  2. ๋ฐฉ๋ฒ•์˜ ํ˜์‹ ์„ฑ: PECOS ๊ทน๋‹จ์  ๋‹ค์ค‘๋ถ„๋ฅ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ๋ธŒ๋žœ๋“œ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น์— ์ฒ˜์Œ ์ ์šฉ
  3. ํฌ๊ด„์  ์‹คํ—˜: ๋‹ค์ค‘์–ธ์–ด, ๋‹ค์ค‘ ๋ฐฉ๋ฒ• ๋น„๊ต, ์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ ๊ฒ€์ฆ ํฌํ•จ
  4. ๊ณตํ•™์  ์‹ค์šฉ์„ฑ: ์‹ค์ œ ๋ฐฐํฌ์˜ ํšจ์œจ์„ฑ๊ณผ ์ •ํ™•๋„ ๊ท ํ˜• ๊ณ ๋ ค
  5. ํ’๋ถ€ํ•œ ๋ฐ์ดํ„ฐ: ๋Œ€๊ทœ๋ชจ ์‹ค์ œ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ

๋ถ€์กฑํ•œ ์ 

  1. ์ด๋ก ์  ๋ถ„์„ ๋ถ€์กฑ: ์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์ด ๋” ํšจ๊ณผ์ ์ธ ์ด์œ ์— ๋Œ€ํ•œ ์ด๋ก ์  ์„ค๋ช… ๋ถ€์กฑ
  2. ์ œํ•œ๋œ ์†Œ๊ฑฐ ์‹คํ—˜: ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ ๊ธฐ์—ฌ๋„ ๋ถ„์„ ๋ถ€์กฑ
  3. ๊ฑฐ์ง“ ์–‘์„ฑ ๋ฌธ์ œ: ์ข…๋‹จ๊ฐ„ ๋ฐฉ๋ฒ•์˜ ๊ฑฐ์ง“ ์–‘์„ฑ์œจ์ด ๋†’์œผ๋ฉฐ ์ถ”๊ฐ€ ์ตœ์ ํ™” ํ•„์š”
  4. ๊ณ„์‚ฐ ์˜ค๋ฒ„ํ—ค๋“œ: ์œตํ•ฉ ๋ฐฉ๋ฒ•์˜ ๊ณ„์‚ฐ ๋ณต์žก๋„ ๋ถ„์„ ๋ถ€์กฑ

์˜ํ–ฅ๋ ฅ

  1. ํ•™์ˆ  ๊ธฐ์—ฌ: ์ „์ž์ƒ๊ฑฐ๋ž˜ NLP ์˜์—ญ์— ์ƒˆ๋กœ์šด ๊ธฐ์ˆ  ์†”๋ฃจ์…˜ ์ œ๊ณต
  2. ์‹ค์šฉ์  ๊ฐ€์น˜: Amazon์— ์‹ค์ œ ๋ฐฐํฌ๋˜์–ด ์ƒ์—…์  ๊ฐ€์น˜ ์ž…์ฆ
  3. ์žฌํ˜„์„ฑ: ์ƒ์„ธํ•œ ์‹คํ—˜ ์„ค์ • ๋ฐ ๋ฐ์ดํ„ฐ ์„ค๋ช… ์ œ๊ณต
  4. ์˜๊ฐ: ๋‹ค๋ฅธ ์ „์ž์ƒ๊ฑฐ๋ž˜ ์†์„ฑ ์ถ”์ถœ ์ž‘์—…์— ์ฐธ๊ณ  ์ž๋ฃŒ ์ œ๊ณต

์ ์šฉ ์‹œ๋‚˜๋ฆฌ์˜ค

  1. ์ „์ž์ƒ๊ฑฐ๋ž˜ ํ”Œ๋žซํผ: ๋‹ค์–‘ํ•œ ์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰ ์—”์ง„์˜ ๋ธŒ๋žœ๋“œ ์ธ์‹
  2. ๋‹ค์ค‘์–ธ์–ด ํ™˜๊ฒฝ: ๋‹ค์ค‘์–ธ์–ด๋ฅผ ์ง€์›ํ•˜๋Š” ๊ธ€๋กœ๋ฒŒ ์ „์ž์ƒ๊ฑฐ๋ž˜ ํ”Œ๋žซํผ
  3. ๋Œ€๊ทœ๋ชจ ์‘์šฉ: ๋Œ€๋Ÿ‰ ์ฟผ๋ฆฌ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์‹ค์‹œ๊ฐ„ ์‹œ์Šคํ…œ
  4. ์†์„ฑ ์ถ”์ถœ: ๋‹ค๋ฅธ ์ œํ’ˆ ์†์„ฑ์˜ ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ์ž‘์—…์œผ๋กœ ํ™•๋Œ€ ๊ฐ€๋Šฅ

์ฐธ๊ณ ๋ฌธํ—Œ

๋…ผ๋ฌธ์€ ๋‹ค์Œ์„ ํฌํ•จํ•œ ์—ฌ๋Ÿฌ ์ค‘์š”ํ•œ ๊ด€๋ จ ์—ฐ๊ตฌ๋ฅผ ์ธ์šฉํ–ˆ๋‹ค:

  • PECOS ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์›๋ณธ ๋…ผ๋ฌธ Yu et al., 2022
  • MetaTS-NER ๋‹ค์ค‘์–ธ์–ด ์ˆ˜์—ด ํ‘œ์ง€ ๋ชจ๋ธ Li et al., 2021
  • ์ „ํ†ต์  ์—”ํ‹ฐํ‹ฐ ๋งํ‚น ๋ฐฉ๋ฒ• Cao et al., 2017; Le & Titov, 2019
  • ์ „์ž์ƒ๊ฑฐ๋ž˜ ์ฟผ๋ฆฌ ์ดํ•ด ๊ด€๋ จ ์—ฐ๊ตฌ Kozareva et al., 2016; Manchanda et al., 2020

์ข…ํ•ฉ ํ‰๊ฐ€: ์ด๋Š” ์ „์ž์ƒ๊ฑฐ๋ž˜ ๊ฒ€์ƒ‰์˜ ์ค‘์š”ํ•œ ์‹ค์ œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์‘์šฉ ์—ฐ๊ตฌ ๋…ผ๋ฌธ์ด๋‹ค. ๋ฐฉ๋ฒ•์˜ ํ˜์‹ ์„ฑ์ด ๊ฐ•ํ•˜๊ณ , ์‹คํ—˜ ๊ฒ€์ฆ์ด ์ถฉ๋ถ„ํ•˜๋ฉฐ, ํŠนํžˆ ์˜จ๋ผ์ธ A/B ํ…Œ์ŠคํŠธ๊ฐ€ ์‹ค์ œ ๊ฐ€์น˜๋ฅผ ์ž…์ฆํ–ˆ๋‹ค. ์ด๋ก ์  ๋ถ„์„๊ณผ ์ผ๋ถ€ ๊ธฐ์ˆ  ์„ธ๋ถ€ ์‚ฌํ•ญ์—์„œ ๊ฐœ์„  ์—ฌ์ง€๊ฐ€ ์žˆ์ง€๋งŒ, ์ „๋ฐ˜์ ์œผ๋กœ ์ „์ž์ƒ๊ฑฐ๋ž˜ NLP ์˜์—ญ์˜ ์ค‘์š”ํ•œ ๊ธฐ์—ฌ์ด๋‹ค.