دانلود مقاله ISI بهینه سازی تولید و شناسایی پارافراسی با استفاده از مدل های زبانی در پردازش زبان طبیعی
موضوع انگلیسی:Optimization of paraphrase generation and identification using language models in natural language processing
فرمت فایل: pdf
تعداد صفحه:9
چکیده
یکی از مهمترین و چالش برانگیزترین کارها در زمینه تولید زبان طبیعی است. تکنیکهای بازنویسی به شناسایی یا استخراج/تولید عبارات/جملاتی که معنای مشابه را منتقل میکنند کمک میکند. وظیفه بازنویسی را می توان به دو زیر کار تقسیم کرد، یعنی شناسایی Paraphrase (PI) و Paraphrase Generation (PG). اکثر سیستم های پیشرفته پیشنهادی موجود، پتانسیل حل تنها یک مشکل را در هر زمان دارند. این مقاله یک مدل یکپارچه سبک وزن را پیشنهاد میکند که میتواند به طور همزمان طبقهبندی کند که آیا جفت جملات مفروض جملاتی از یکدیگر هستند یا خیر و این مدل همچنین میتواند با توجه به یک جمله ورودی، چند پارافری تولید کند. ماژول Paraphrase Generation با هدف تولید جملات روان و از نظر معنایی مشابه و سیستم شناسایی Paraphrase قصد دارد طبقه بندی کند که آیا جفت جملات عباراتی از یکدیگر هستند یا خیر. رویکرد پیشنهادی از ادغام نمونهگیری دادهها یا انواع دادهها با یک مدل تبدیلکننده متن به متن (T5) با تنظیم دقیق دانهای استفاده میکند. این مقاله یک رویکرد یکپارچه را پیشنهاد میکند که هدف آن حل مشکلات شناسایی و تولید پارافراسی با استفاده از نقاط داده با دقت انتخاب شده و یک مدل T5 دقیق تنظیم شده است. نکته قابل توجه این مطالعه این است که همان مدل سبک وزن آموزش داده شده با حفظ هدف تولید Paraphrase نیز می تواند برای حل تکلیف شناسایی Paraphrase مورد استفاده قرار گیرد. از این رو، سیستم پیشنهادی از نظر اندازه مدل به همراه دادههای مورد استفاده برای آموزش مدل سبک وزن است که یادگیری سریع مدل را بدون به خطر انداختن نتایج تسهیل میکند. سپس سیستم پیشنهادی بر اساس معیارهای ارزیابی رایج مانند BLEU (دو زبانه ارزیابی زیر مطالعه):، ROUGE (مطالعه فراخوان برای ارزیابی Gisting)، METEOR، WER (نرخ خطای کلمه)، و GLEU (Google-BLEU) برای معیارهای تولید و طبقه بندی پارافراسی مانند دقت، دقت، فراخوانی و امتیاز F1 برای سیستم شناسایی پارافراسی. مدل پیشنهادی به نتایج پیشرفتهای در هر دو وظایف شناسایی پارافراسی و تولید بازنویسی دست مییابد.