مصاحبه‌ها

مصاحبه مجله دیجیتالی سایبرپژوهی با طراح سامانه ترجمیار

مصاحبه مجله دیجیتالی سایبرپژوهی با طراح سامانه «ترجمیار»

     «ترجمیار» یک سامانه دیجیتالی برای ترجمه سریع متون است که به جای ترجمه کامل متن ، مترجم را همراهی نموده و به صورت هوشمند ضمن دنبال کردن فرایند ترجمه، پیشنهادات ترجمه را ارائه می‌دهد . این سامانه توسط آقایان «سید محمد محمدزاده ضیابری» و «دکتر بهروز ودادیان» و تیم ایشان در شرکت «پردازش هوشمند ترگمان» طراحی و روانه بازار شده است. با توجه به اینکه «مجله دیجیتالی سایبرپژوهی» به تجربه دیجیتالی شدن فرهنگ در ایران معاصر معطوف است، در این شماره قصد داریم خوانندگان محترم را با این سامانه دیجیتالی بومی‌سازی شده آشنا کنیم.

سید محمد محمدزاده ضیابری ، بنیان‌گذار و قائم‌مقام مدیرعامل شرکت پردازش هوشمند ترگمان

جناب آقای  مهندس محمدزاده ابتدا از اینکه وقت ارزشمند خود را در اختیار مجله ما قرار می‌دهید، بسیار سپاسگزاریم. لطفاً خودتان را معرفی کنید و بفرمایید چطور شد که به فکر راه‌اندازی سامانه «ترجمیار» افتادید؟

ابتدا سپاسگزاری می‌کنم از توجه مجله سایبرپژوهی به سامانه ترجمیار و مقوله دیجیتالی شدن فرهنگ در ایران معاصر. بنده بنیان‌گذار و قائم‌مقام مدیرعامل شرکت پردازش هوشمند ترگمان هستم. فعالیت رسمی شرکت ترگمان در سال ۱۳۹۴ آغاز شد، اما سابقه همکاری هیئت مؤسس آن به سال ۱۳۸۹ بازمی‌گردد که طی قراردادی با پژوهشگاه ارتباطات و فناوری اطلاعات که به‌ منزله بازوی تحقیقاتی وزارت ارتباطات شناخته می‌شود، مقرر می‌شود تا سامانه‌ای برای ترجمه ماشینی انگلیسی – فارسی طراحی شود. این طرح در دانشگاه صنعتی امیرکبیر و با مدیریت جناب آقای دکتر خدیوی آغاز و در سال ۱۳۹۰ مدل تحقیقاتی آن به‌ بهره‌برداری می‌رسد. همزمان با بر روی طرح جویشگر بومی سامانه ترجمه ماشینی نیز مورد توجه قرارگرفته و به‌عنوان زیرساخت ترجمه در جویشگر بومی مورداستفاده قرار گرفت.

         در سال ۱۳۹۲ قرارداد جدیدی میان پژوهشگاه ارتباطات و دانشگاه امیرکبیر منعقد گردید و در پی آن سامانه ترجمه ماشینی ترگمان به‌صورت کامل بومی‌سازی شد. سامانه اخیر در بهمن‌ماه ۱۳۹۴ افتتاح شد و به‌صورت متوسط روزانه بیش از ۳ میلیون کلمه متن در این سامانه ترجمه می‌شود. علی‌رغم تمامی تلاش‌های صورت گرفته و حمایت‌های به‌عمل‌آمده کیفیت ترجمه این سامانه تاکنون تنها اندکی بهتر از مترجم گوگل است و تا رسیدن به نقطه مطلوب هنوز فاصله دارد. ازاین‌رو، برای رفع نیاز جامعه در حوزه ترجمه بالأخص نیاز دانشجویان و مترجمان تصمیم گرفتیم تا ظرفیت‌های نهفته ترجمه ماشینی را به‌صورت ملموس در اختیار جامعه کاربری قرار دهیم.

لطفاً بفرمایید که یک سامانه ترجمه غالباً از چه بخش‌هایی تشکیل می‌شود؟

به‌صورت کلی می‌توان مترجم‌های ماشینی را به دودسته مبتنی بر قواعد زبانی و مبتنی بر یادگیری ماشینی تقسیم‌بندی نمود. در مترجم‌های مبتنی بر قواعد که در حال حاضر دوران افول خود را سپری می‌کنند، سعی بر آن است که قواعد زبان انسانی استخراج و به ماشین داده شود، اما تمامی تلاش‌های صورت گرفته در طول ۶۰ سال گذشته نتایج مطلوبی در برنداشته است. این در حالی است که در سیستم‌های مبتنی بر یادگیری ماشینی که عمدتاً بر اساس الگوریتم‌های آماری و عصبی کار می‌کنند، با ارائه متن‌های ترجمه‌شده به یک الگوریتم هوشمند سعی می‌شود تا خود ماشین فرایند ترجمه و جمله‌سازی را فرابگیرد. به‌صورت کلی سیستم‌های مبتنی بر قواعد از سرعت بالاتری برخوردارند و منابع کمتری هم لازم دارند. درنتیجه می‌توان آن‌ها را بر روی رایانه‌های شخصی هم نصب و راه‌اندازی نمود ، اما سیستم‌های مبتنی بر یادگیری ماشینی نیازمند منابع بسیار زیاد هستند و درنتیجه تنها به‌صورت آنلاین می‌توان از آن‌ها بهره‌برداری کرد. موج اول سرمایه‌گذاری‌ها بر روی تحقیقات در حوزه ترجمه ماشینی به دهه ۸۰ میلادی بازمی‌گردد. اما پس‌ازآنکه نتایج حاصل از ترجمه‌ها که در آن زمان عمدتاً معطوف به روش‌های مبتنی بر قاعده بود، نتوانست راضی‌کننده باشد، این تحقیقات با کمبود بودجه مواجه شد و نظریات افرادی نظیر نوام چامسکی موجب شد تا تحقیقات حتی در حوزه‌های یادگیری ماشینی نیز متوقف گردد.

       در حدود سال ۲۰۰۵ با رشد سخت‌افزارها و الگوریتم‌های یادگیری ماشینی مجدداً نگاه‌ها به سمت استفاده از روش آماری در ترجمه ماشینی معطوف شد و تلاش‌های صورت گرفته موجب شد تا سیستم‌هایی تولید شوند که باکیفیتی به‌مراتب بهتر از مترجم‌های مبتنی بر قواعد ترجمه کنند. ماحصل این تلاش‌ها مترجم‌هایی نظیر گوگل، بینگ و ترگمان است. از حدود ۳ سال پیش نیز همانند بسیاری از حوزه‌های دیگر یادگیری ماشینی، استفاده از الگوریتم‌های عصبی موسوم به «یادگیری عمیق» در ترجمه ماشینی مورد آزمایش قرارگرفته و قرار است سامانه ترگمان نیز به این روش نوین ارتقا یابد.

کلامی چند درباره معماری موتور ترجمه سامانه «ترجمیار» صحبت بفرمایید.

ترجمیاردر اصل واسط کاربری نوین بر روی هسته ترگمان است. در‌واقع بخش هوشمند کار توسط ترگمان صورت گرفته و ترجمه‌های پیشنهادی و عبارات از طریق ترگمان پیشنهاد می‌شوند و ترجمیار آن‌ها را با روشی مناسب در اختیار کاربر قرار می‌دهد تا با انتخاب معادل های مناسب ترجمه ای بتواند به کیفیت ترجمه مطلوب دست پیدا کند. در ترجمیارسعی شده تا به‌جای ایجاد واسط کاربری جدید و ناآشنا از واسط کاربر ورد که برای همگان آشنا است، استفاده کنیم تا کاربر نیازی به یادگیری ابزارهای جدید نداشته باشد.

فرآیند طراحی سامانه «ترجمیار» به چه صورت بود؟

جرقه اولیه ایجاد یک سیستم دستیار ماشین در سال ۱۳۹۱ زده شد . آن زمان دو طرح دانشجویی در سطح کارشناسی نیز در دانشگاه امیرکبیر پیاده‌سازی شد. بااین‌حال ازآنجایی‌که این سیستم‌ها به‌نوعی گرته‌برداری شده و بومی‌سازی شده نرم‌افزارهای خارجی بودند، نتوانستند آن‌چنان موردتوجه قرار بگیرند. در بهمن ۹۴ ایده اولیه توسعه سامانه ترجمیار با ساختار فعلی از سوی دوست گران‌قدرم آقای دکتر بهروز ودادیان مطرح شد. با توجه به نو بودن ایده و نداشتن نمونه خارجی فرایند طراحی آن بیش از زمان مورد انتظار به طول انجامید و کل پروسه ایده پردازی، طراحی و توسعه سامانه در حدود ۹ ماه زمان برد.

برای طراحی این سامانه از چه پیکره‌های استفاده کرده اید؟ این پیکره‌ها را چگونه جمع‌آوری می­کنید؟

همان‌طور که پیش‌تر توضیح داده شد، بخش هوشمند و ترجمه ماشینی سامانه بر عهده ترگمان است. برای آموزش این سامانه در سال ۱۳۸۹ حدود ۱۰ میلیون کلمه متن از سایت‌های CNN و BBC انتخاب شد و این پیکره ها با همکاری شبکه مترجمین ایران (Transnet) ترجمه شدند. علاوه بر آن، پیکره‌های متفرقه از سطح اینترنت و مراکز تحقیقاتی تهیه شد و تا پایان سال ۱۳۹۴ در حدود ۳۸ میلیون کلمه پیکره گردآوری شد. در سال گذشته نیز با فراخوان در شبکه‌های اجتماعی درخواست خرید پیکره از مترجمین را داشتیم و تاکنون در حدود ۵ میلیون کلمه نیز از مترجمین آزاد خریداری‌شده است. بااین‌حال برای توسعه کیفی این سامانه به حجم بسیار بیشتری از پیکره نیاز است و ضرورت دارد که مترجمین در سطوح مختلف اعم از مترجمین آزاد، دارالترجمه‌ها، مؤسسات و حتی ادارات و وزارتخانه‌ها درزمینه تأمین پیکره همکاری کنند. اخیراً مذاکراتی با شورای عالی فضای مجازی داشته‌ایم و امید است بتوانیم حجم قابل قبولی پیکره از سوی سازمان‌های دولتی کسب کنیم. درهرصورت هرچه حجم پیکره موجود بالاتر باشد ،کیفیت سامانه نیز بیشتر خواهد بود.

کمی درباره همکاران خود و تیم ترجمیار توضیح بدهید. آیا در تیم شما کسی در رشته «زبان‌شناسی رایانشی» (Computational Linguistics) تحصیل‌کرده است؟

عمده همکاران در سامانه ترگمان و ترجمیار نیروهای متخصص دانشگاهی و دانشجویان دانشگاه‌های امیرکبیر، شریف، الزهرا و علم‌و‌فرهنگ هستند. تاکنون فارغ‌التحصیلان زبان‌شناسی رایانشی در تیم ما حضور نداشته‌اند و ما از حضور آن‌ها به‌شدت استقبال می‌کنیم. دوستان و علاقه‌مندان می‌توانند رزومه خودشان را به نشانی job@targoman.com ارسال نمایند.

برای تأمین بودجه این پروژه چه کردید؟

حجم عمده بودجه موردنیاز این طرح مربوط به توسعه، نگهداری و سرویس‌دهی سامانه ترگمان است که از طریق حمایت پژوهشگاه ارتباطات و فناوری اطلاعات و در قالب طرح جویشگر ملی صورت می‌گیرد. اما توسعه ترجمیار تاکنون به‌صورت شخصی سرمایه‌گذاری شده و در حال مذاکره با سرمایه‌گذاران هستیم.

استقبال از این سامانه چگونه بوده است؟ در زمینه تبلیغات چه اقداماتی انجام داده‌اید؟

با توجه به اینکه سرمایه‌گذاری بر روی ترجمیار به‌صورت شخصی بوده است ، بودجه چندانی برای تبلیغات سامانه وجود نداشته است. بااین‌حال در چند نمایشگاه و همایشی که شرکت کردیم ، با استقبال بسیار خوبی مواجه شدیم.  به‌عنوان‌مثال، ۲۰ درصد کسانی که در اولین عرضه سامانه در نمایشگاه الکامپ با آن مواجه شدند، یکی از اکانت‌های آن را خریداری کردند. در پنج ماه گذشته از تاریخ عرضه عمومی سامانه با وجود تعطیلات عید و بحث انتخابات ، تاکنون بیش از ۴۰ هزار جمله توسط این سامانه ترجمه شده است.

مزایای ترجمیار نسبت به دیگر سامانه‌های ترجمه (مثلاً ترادوس) چیست؟

اتفاقاً به سؤال بسیار خوبی اشاره کردید. نرم‌افزار ترادوس نرم‌افزاری تخصصی در حوزه ترجمه است و امکانات بسیار زیادی دارد که ما به‌مرور بخشی از آن امکانات را به ترجمیار اضافه خواهیم کرد. اما مهم‌ترین تفاوت ترجمیار با ترادوس سهولت استفاده از آن می باشد. استفاده از ترادوس نیازمند کلاس آموزشی بوده و محیطی بسیار پیچیده دارد، درحالی‌که برای استفاده از ترجمیار کافیست کار کردن با وورد و آکروبات را بلد باشید. از طرف دیگر در تمامی نرم‌افزارهای کمک مترجم نظیر ترادوس کاربر پیوستگی مطالب و آرایش آن را از دست می‌دهد ، اما در ترجمیار کاربر فایل PDF را با همان شمایل اصلی مشاهده می‌کند و درنتیجه راحت‌تر می‌تواند در مورد کیفیت و کمیت ترجمه تصمیم‌گیری کند.

آیا در ایران نمونه‌های مشابهی وجود دارد؟

تا جایی که ما بررسی کرده‌ایم و با مشاهده مجموعه بیش از ۲۰ نرم‌افزار و ۵۰ ثبت اختراع موجود در این زمینه، نه در سطح ایران و نه در سطح بین‌المللی نرم‌افزاری با ویژگی‌های ترجمیار وجود ندارد. هرچند برخی ممکن است دستیار مترجم مایکروسافت یا دستیار مترجم «فرازین» را به‌نوعی رقیب محسوب کنند اما اگر فقط یک‌بار ترجمیار را با این نرم‌افزارها مقایسه کنند، خواهند دید که میزان تفاوت بسیار بیشتر از میزان شباهت است.

درباره برنامه‌های آینده ترجمیار مختصری توضیح بفرمایید.

در آینده نزدیک امکان ترجمه در جهت فارسی به انگلیسی و همچنین استفاده از افزونه ویراستیار به ترجمیار اضافه خواهد شد. همچنین مطابق برنامه تا پایان شهریورماه پشتیبانی از PDF های تصویری نیز به‌صورت محدود به سامانه افزوده‌شده و امکان بارگذاری حافظه‌های ترجمه نیز در سامانه فراهم می‌گردد.

جناب آقای محمد زاده چنانچه نکته خاص یا مطلبی هست که ازقلم‌افتاده باشد، بفرمایید.

فرصت را غنیمت می‌شمارم و از زحمات تک‌تک همکاران در شرکت پردازش هوشمند ترگمان تشکر می‌کنم. همین‌طور از مجله وزین سایبر پژوهی و جناب آقای دکتر کریم زاده بابت بذل‌توجه به سامانه ترجمیار و معرفی آن به جامعه ترجمه و علاقه‌مندان به سایبر پژوهی سپاسگزارم. به‌پاس قدردانی از توجهات مجله سایبر پژوهی یک کد تخفیف ۳۰٪ در اختیار خوانندگان این مجله قرار می‌گیرد که می‌توانند با مراجعه به آدرس http://tarjomyar.ir/buy.html و درج کد CyberResearch17 در جعبه کد تخفیف از آن بهره‌مند شوند.

جناب آقای محمد زاده، در پایان مجدداً از اینکه اطلاعات ارزشمندی را در اختیار خوانندگان محترم مجله سایبر پژوهی قراردادید، بسیار سپاسگزاریم.

نام مصاحبه‌کننده: کیوان رضائی‌منش، دانشجوی فوق‌لیسانس مطالعات ترجمه دانشگاه تهران

استفاده از مطالب این مصاحبه فقط با ذکر منبع بلامانع است.

نظر دادن