ساده سازی متن با شبکه عصبی بدون ناظر

ساده سازی متن

چکیده:

در این نوشته، خلاصه و ترجمه‌ای از مقاله Unsupervised Neural Text Simplification را ارائه می‌دهم. این مقاله در اکتبر 2018 سابمیت شده ولی تا لحظه نگارش این نوشته هنوز انتشار رسمی نداشته است.

در این مقاله برای اولین بار روشی جهت ساده سازی متن به صورت بدون ناظر به کمک شبکه عصبی پیشنهاد می‌شود که فقط متکی به یک پیکره بدون برچسب است. تا پیش از این برای تسک ساده سازی متن یا Text Simplification هیچ روش بدون ناظری به کمک شبکه عصبی وجود نداشته است. هسته این چارچوب از یک انکدر مشترک shared encoder و یک جفت اتنشنال دیکدر attentional decoder تشکیل شده است که اطلاعات و دانش خود را از هر دو موردِ «ساده سازی متن» و «پیچیده سازی متن» از طریق discriminator based losses و back translation و denoising بدست می‌آورد.

این فریم‌ورک به وسیله یک پیکره بدون برچسب جمع آوری شده از en-Wikipedia dump آموزش داده می‌شود. آنالیزهای انجام شده توسط نویسندگان (هم کمیت‌سنجی و هم کیفیت‌سنجی شامل ارزیابی کنندگان انسانی) روی یک مجموعه داده عمومی نشان داد که کارایی این فریم ورک هم در اجرای ساده سازی واژگانی متن و هم در اجرای ساده سازی ساختاری متن، قابل مقایسه با متد‌های با ناظر فعلی است. همچنین نویسندگان مقاله مدعی شده‌اند که پیاده سازی این پروژه را برای استفاده‌های آکادمیک به صورت اوپن سورس منتشر کرده‌اند (که تا این لحظه من نتوانستم پیدا کنم).

مقدمه

ساده سازی متن یا Text Simplificatoin یا به اختصار TS عملی است که طی آن متن اصلی به گونه‌هایی ساده شده از آن تبدیل می‌شود تا خوانایی و قابل فهم بودن آن افزایش یابد. ساده‌سازی متن، یکی از وظایف مهم در زمینه زبان‌شناسی محاسباتی است. ساده سازی متن کاربرد‌های زیادی در زمینه‌هایی مانند فناوری آموزشی، تولید محتوای هدفمند، آموزش زبان و به طور کلی زمینه‌هایی که تولید نمونه‌های متفاوت متن با درجات سادگی متفاوت مطلوب است دارد.

سیستم‌های ساده‌ساز متن به طور معمول طوری طراحی شده‌اند که ساده‌سازی را از دو جنبه به انجام برسانند:

  • از جنبه واژگانی یا لکسیکال Lexical، با جایگزینی واژگان پیچیده در ورودی با مترادف‌های ساده‌تر
  • از جنبه ساختاری یا سینتکتیک Syntactic، با دگرگونی ساختار سلسله مراتبی ذاتی جمله

از دیدگاه تولید جمله، ساده‌سازی جمله می‌تواند به عنوان یک نوع از دگرگونی متن text-transformation در نظر گرفته شود که شامل سه عملیات عمده است:

  • تقسیم کردن یا اسپلیتینگ Splitting
  • حذف/فشرده‌سازی Deletion/Compression
  • تفسیرسازی یا پارفریزینگ Paraphrasing

ادامه مقاله به زودی …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *