چکیده:
در این نوشته، خلاصه و ترجمهای از مقاله Unsupervised Neural Text Simplification را ارائه میدهم. این مقاله در اکتبر ۲۰۱۸ سابمیت شده ولی تا لحظه نگارش این نوشته هنوز انتشار رسمی نداشته است.
در این مقاله برای اولین بار روشی جهت ساده سازی متن به صورت بدون ناظر به کمک شبکه عصبی پیشنهاد میشود که فقط متکی به یک پیکره بدون برچسب است. تا پیش از این برای تسک ساده سازی متن یا Text Simplification هیچ روش بدون ناظری به کمک شبکه عصبی وجود نداشته است. هسته این چارچوب از یک انکدر مشترک shared encoder و یک جفت اتنشنال دیکدر attentional decoder تشکیل شده است که اطلاعات و دانش خود را از هر دو موردِ «ساده سازی متن» و «پیچیده سازی متن» از طریق discriminator based losses و back translation و denoising بدست میآورد.
این فریمورک به وسیله یک پیکره بدون برچسب جمع آوری شده از en-Wikipedia dump آموزش داده میشود. آنالیزهای انجام شده توسط نویسندگان (هم کمیتسنجی و هم کیفیتسنجی شامل ارزیابی کنندگان انسانی) روی یک مجموعه داده عمومی نشان داد که کارایی این فریم ورک هم در اجرای ساده سازی واژگانی متن و هم در اجرای ساده سازی ساختاری متن، قابل مقایسه با متدهای با ناظر فعلی است. همچنین نویسندگان مقاله مدعی شدهاند که پیاده سازی این پروژه را برای استفادههای آکادمیک به صورت اوپن سورس منتشر کردهاند (که تا این لحظه من نتوانستم پیدا کنم).
مقدمه
ساده سازی متن یا Text Simplificatoin یا به اختصار TS عملی است که طی آن متن اصلی به گونههایی ساده شده از آن تبدیل میشود تا خوانایی و قابل فهم بودن آن افزایش یابد. سادهسازی متن، یکی از وظایف مهم در زمینه زبانشناسی محاسباتی است. ساده سازی متن کاربردهای زیادی در زمینههایی مانند فناوری آموزشی، تولید محتوای هدفمند، آموزش زبان و به طور کلی زمینههایی که تولید نمونههای متفاوت متن با درجات سادگی متفاوت مطلوب است دارد.
سیستمهای سادهساز متن به طور معمول طوری طراحی شدهاند که سادهسازی را از دو جنبه به انجام برسانند:
- از جنبه واژگانی یا لکسیکال Lexical، با جایگزینی واژگان پیچیده در ورودی با مترادفهای سادهتر
- از جنبه ساختاری یا سینتکتیک Syntactic، با دگرگونی ساختار سلسله مراتبی ذاتی جمله
از دیدگاه تولید جمله، سادهسازی جمله میتواند به عنوان یک نوع از دگرگونی متن text-transformation در نظر گرفته شود که شامل سه عملیات عمده است:
- تقسیم کردن یا اسپلیتینگ Splitting
- حذف/فشردهسازی Deletion/Compression
- تفسیرسازی یا پارفریزینگ Paraphrasing
ادامه مقاله به زودی …
سلام
من دانشجوی زبانشناسی رایانشی هستم و برای پایاننامه میخوام روی موضوع ساده سازی متون فارسی روی وب کار کنم.
آیا شما کاری در این حیطه در فارسی سراغ دارید و اگر امکانش هست میشه پایگاههای داده مفید دراین زمینه رو به من معرفی کنید؟
با تشکر
با سلام
لطفا با آزمایشگاه داده کاوی آقای دکتر مینایی دانشکده کامپیوتر دانشگاه علم و صنعت در ارتباط باشید.
ادامه مقاله را لطفا بگذارید