توسط محققان كشور؛

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

ایت بال: پژوهشگران کشور موفق به تهیه مجموعه پاک سازی شده پیکره بزرگ متنی و قابل استفاده ای در زمینه پردازش زبان طبیعی فارسی شدند.



به گزارش ایت بال به نقل از مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با اعلان اینکه «پیکره متنی بزرگ» یکی از مهم ترین نیازهای آموزش مدلهای شبکه عصبی عمیق به ویژه شبکه های بر پایه ترنسفورمر است، اظهار داشت: استفاده از پیکره متنی برای زبان های با منابع کمتر مانند فارسی بیشتر احساس می شود.
وی اضافه کرد: بدین منظور تیمی از لابراتوار پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه پژوهشگران مرکز نوآوری یک شرکت دانش بنیان برای این مساله راهکار پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک سازی شده و قابل استفاده مستقیم برای پژوهشگران حوزه پردازش زبان طبیعی در فارسی است.
حسینیان با اعلان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، اظهار داشت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده پیکره خودرا بسازند.
وی اضافه کرد: مرکز نوآوری این شرکت دانش بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده های پژوهشی پژوهشگران را به عرصه واقعیت پرورش دهد.
در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست لابراتوار پردازش زبان طبیعی و گفتار این دانشگاه اظهار داشت: از این پیکره می توان برای روان کردن مدلهای زبانی، که در اصل برای زبان انگلیسی تهیه شده اند نیز استفاده نمود. همچون این مدلهای زبانی می توان به BERT، BART، T۵ و... اشاره نمود.


منبع:

1401/06/20
23:07:19
5.0 / 5
362
تگهای خبر: آموزش , تیم , صنعت , مدل
این مطلب را می پسندید؟
(1)
(0)

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۵ بعلاوه ۵
بیلیارد