مصاحبه‌ها

مصاحبه مجله سایبر پژوهی با آقای دکتر مجید لطیفی پیرامون پروژه DBPedia

مصاحبه مجله سایبر پژوهی با آقای دکتر مجید لطیفی پیرامون پروژه DBPedia

آقای دکتر مجید لطیفی پژوهشگر هوش مصنوعی و پردازش زبان‌های طبیعی دکتری تخصصی خود را از دانشگاه UPC بارسلونا دریافت کرده‌اند و هم‌اکنون در مؤسسه تحقیقاتی ADAPT واقع در کشور ایرلند مشغول تحقیق و ارزیابی فنی پروژه سیستم پاسخ‌دهی به پرسش‌های معنایی و متنی بر روی‌داده‌های پیوندی (Linked Data) و نیز هستی‌شناسی (آنتولوژی) هستند. ایشان پروژه دکتری خود را روی طراحی و پیاده‌سازی و توسعه سیستم‌های اتوماتیک پرسش و پاسخ کارکرده‌اند و مقالات متعددی در این حوزه منتشر نموده‌اند.

جناب آقای لطیفی، ضمن تشکر و سپاس از این‌که وقت گران‌بهای خود را در اختیار مجله «سایبر پژوهی» قرار می‌دهید تا خوانندگان ما از زبان خود شما با پروژه DBPedia آشنا شوند؛ به‌عنوان سؤال اول، بفرمایید که دیبی پدیا با ویکی‌پدیا چه تفاوت‌هایی دارد؟

بنده هم خوشحال هستم ازین که فرصتی فراهم شد تا مطالبی را خدمت علاقه‌مندان و محققان از طریق مجله سایبر پژوهشی ارائه نمایم تا دریچه ایی دیگر از تحولات دنیای فناوری اطلاعات و ارتباطات معرفی گردد. بهتر است بگویم ویکی‌پدیا دانشنامه‌ای با محتویات آزاد و ویرایش پذیر مبتنی بر وب چندزبانه است که توسط بنیاد ویکی مدیا پشتیبانی می‌شود. این دانشنامه یکی از منابع دانش مردم محور است که از طریق جمع سپاری (Crowdsourcing) و مشارکت آحاد مردم جهان توسعه می‌یابد. مقالات ویکی‌پدیا لینک‌های طراحی‌شده برای هدایت کاربر به صفحات مرتبط با اطلاعات اضافی را در موضوعات مختلف فراهم می‌کند.

درحالی‌که دیبی پدیا که دردهه اخیر ظهور پیداکرده است، اطلاعات ساخت‌یافته از ویکی‌پدیا را استخراج و این اطلاعات را بر روی وب در دسترس قرار می‌دهد. دیبی پدیا طرح سوالات پیچیده از ویکی‌پدیا و همچنین اتصال مجموعه داده‌های مختلف بر روی وب به داده‌های ویکی‌پدیا را امکان‌پذیر می‌کند. علاوه بر این، دیبی پدیا به‌خودی‌خود الهام‌بخش مکانیسم‌های جدیدی برای کاوش، ارتباط و بهبود دانشنامه است. Berners-Lee Tim مخترع وب جهانی و وب معنایی، دیبی پدیا را داده‌های پیوند شده ساخت‌یافته (Linked Data) غیرمتمرکز توصیف می‌کند.

به زبان ساده‌تر، دیبی پدیا اطلاعات واقعی را از صفحات ویکی‌پدیا استخراج می‌کند و این امکان را فراهم می‌کند که کاربران بتوانند پاسخ سؤالات خود را از دل انبوهی از اطلاعات که در مقالات مختلف ویکی‌پدیا پراکنده‌شده است، پیدا کنند. داده‌ها با استفاده از یک‌زبان پرس‌وجوی شبیه به SQL بر روی RDF مانند SPARQL قابل‌دسترسی می‌باشد.

Linked Data

آقای دکتر، این پروژه نخستین بار چگونه شروع شد؟ آیا جزو پروژه‌های بنیاد ویکی مدیا است؟

این پروژه توسط متخصصان دانشگاه لایپزیک آلمان با همکاری نرم‌افزار OpenLink آغاز شد و اولین مجموعه داده در سال 2007 جهت دسترسی عوام منتشر شد. در سالهای اخیر نیز نسخه‌های به‌روز شده آن در دسترس محققان قرارگرفته شده است. در پاسخ به بخش دوم سؤال شما باید بگویم که دیبی پدیا متعلق به دانشگاه لایپزیک است و بنابراین، تاکنون جزو پروژه‌های طبقه‌بندی‌شده توسط بنیاد ویکی مدیا نبوده است.

این پروژه چه اهدافی را دنبال می‌کند؟ با توجه به اینکه نسل‌های جدید وب به سمت تعاملی‌تر و هوشمندتر شدن می‌روند،  برای این پروژه چه دورنمایی پیش‌بینی‌شده است؟

هدف اصلی آن اضافه نمودن قابلیت معنایی به ویکی‌پدیا است، زیرا ساختار ویکی‌پدیا به‌صورت متنی و غیرساخت یافته است و رایانه نمی‌تواند آن را به‌راحتی تفسیر کند. بهتر است بگویم که دیبی پدیا حوزه‌های مختلف دانش بشری را پوشش می‌دهد. این ویژگی باعث می‌شود که دیبی پدیا یک هاب طبیعی برای اتصال مجموعه داده‌ها (Datasets) باشد؛ به‌طوری‌که مجموعه داده‌های خارجی می‌توانند به مفاهیم خود پیوند داشته باشند. با توجه به جنبه فنی این پروژه در ایجاد و اتصال پایگاه‌های دانش از هستی‌شناسی (آنتولوژی) خارجی مثل Freebase, OpenCyc, UMBEL به دیبی پدیا، می توان گفت که یک شبکه گرافی ساخت‌یافته گسترده در حال شکل گرفتن است.

جناب آقای لطیفی، با توجه به اینکه  یکی از اهداف مجله «سایبر پژوهی» تحلیل علمی فرایند «دیجیتالی شدن فرهنگ در ایران معاصر» است، ازنظر شما برای پروژه دیبی پدیا چه جایگاهی در تجربه دیجیتالی شدن فرهنگ  را می توان متصور شد؟

البته آنچه روشن است، این است که ویکی‌پدیا و دیبی پدیا بخشی از توجه تحلیلگران اجتماعی، اقتصادی و سیاسی و … را در دنیای دیجیتالیزه شده به خود اختصاص داده‌اند و به نظرم آنچه مسلم است، این است که دیبی پدیا در راستای رشد وب معنایی می‌تواند در استخراج دانش و آمارهای درست از اقیانوس اطلاعات موجود در وب در زمینه‌های مختلف فرهنگی به تحلیلگران فرهنگی کمک کند.

جنابعالی سال‌ها روی NLP کارکرده‌اید. می‌توانید نقش   NLP در پروژه دیبی پدیا را توضیح دهید؟

ازیک‌طرف سیستمهای پردازش زبان طبیعی باهدف تحلیل لغوی و دستوری و یا حتی معنایی متون و یا صدا بر روی مستندات مختلف از قبیل فایل‌های متنی، وب سایت‌های خبری، ویدیو، عکس و … درحال‌توسعه هستند. از طرف دیگر، وب‌سایت‌ها ما را به پیوند اسناد مربوطه و مشابه به اطلاعات و داده‌ها قادر می‌سازند. بهتر است به مفهومی به نام داده‌های پیوندی (Linked data- LD) اشاره‌کنم. داده‌های پیوندی به مجموعه‌ای از اقدامات عملی برای انتشار و نیز ارتباط دادن داده‌های ساخت‌یافته در وب اطلاق می‌شود. یکی از فناوری‌های کلیدی که LD ها را حمایت می‌کند، RDF است. با توجه به اینکه ساختار دیبی پدیا در سطوح RDF می‌باشد، امکان استفاده از ابزارها و روش‌های NLP در بستر معنایی فراهم می‌گردد و نهایتاً به قابلیت چنین سیستمهایی این ویژگی مهم افزوده می‌شود.

پس از مطالعاتی که صورت گرفت در سال ۱۳۹۲ ایده یک فرمت تبادل مبتنی بر معنا در پردازش زبان طبیعی را در کنفرانس‌های علمی بین‌المللی ارائه دادم که بعدها تحت ‌عنوان (NLP Semantic Based Interchange Format) NSIF معرفی گردیده است و هدف آن بهره‌برداری فنی و علمی از دو فناوری برای تولید کاربردهای واقعی رو به رشد می‌باشد. ما با الهام گرفتن از این ایده در طراحی و پیاده‌سازی سیستم پیچیده و اتوماتیک پرسش و پاسخ معنایی، در پیشبرد اهداف پروژه گام‌های مهمی را برداشتیم.

آیا در ایران و به زبان فارسی کار خاصی درباره دیبی پدیا صورت گرفته است؟

با مروری که بر وب سایتها داشتم، متأسفانه هیچ اقدامی در زبان فارسی حتی به‌صورت ترجمه و در اختیار قرار دادن آن به پژوهشگران و علاقه‌مندان صورت نگرفته است. حتی صفحه دیبی پدیا به زبان فارسی هم در ویکی‌پدیا ترجمه نشده است.

مسلماً طراحی دیبی پدیای فارسی نیازمند بررسی‌های اولیه دیبی پدیای انگلیسی است.

این پروژه برای حوزه علوم انسانی چه فوایدی می‌تواند داشته باشد؟

دیبی پدیا در حال حاضر یکی از بزرگ‌ترین هستی‌شناسی‌های (آنتولوژی ها) چند دامنه است که ساختار مفهومی دارد و توسط ماشین قابل تفسیر است. لذا می‌توان برای آن کاربردهای زیادی را در حوزه‌های فرهنگی، اجتماعی و حتی اقتصادی تعریف کرد. با استفاده از آن می‌توان از خرد جمعی الهام گرفت و از مزایای داده‌های پیوندی ساخت‌یافته آزاد و قابل‌دسترس بهره لازم را برد.

در حوزه فرهنگ چه استفاده‌ای می‌توان از این پروژه کرد؟

از پتانسیل‌های دیبی پدیا در حوزه فرهنگ می‌توان به تولید پرسشنامه‌های مدل‌سازی کاربر برای به دست آوردن پروفایل از کاربران برای انطباق اشاره کرد. مکانیسم‌هایی وجود دارد که توسط آن می‌توان حقایق مرتبط بافرهنگ را از دیبی پدیا استخراج کرد و با ایجاد گرافی از اطلاعات فرهنگی و توسعه آن به‌عنوان منبع دانش در سیستم‌های تعاملی با کاربر و یا تحقیقات فرهنگی و اجتماعی از آن بهره جست.

آقای دکتر آیا نکته خاصی در مورد دی. بی پدیا باقی مانده است که بیان نکرده باشید؟

به نظرم با افزوده شدن کاربردهای دیگر دیبی پدیا در جستجوهای معنایی نظیر اطلاعات مکانی در DBPedia Mobile می‌توان به اهمیت توسعه آن پی برد.

به عنوان حسن ختام مایلم نظر شما را درباره مجله «سایبر پژوهی» بدانم. آیا انتقاد و یا پیشنهادی دارید؟ چه توصیه‌هایی برای کاربردی‌تر شدن محتوای این مجله دارید؟

با توجه به اینکه به‌تازگی با مجله سایبر پژوهی آشنا شده‌ام، معتقدم که این مجله می‌تواند خلأ دانش هم‌وطنان ایرانی درزمینهٔ فناوری‌های اطلاعات ارتباطات را پر کند و آنان را از تحقیقات به‌روز در سایر کشورها آگاه کند. این مجله هنوز در آغاز راه است و پیشنهاد می‌کنم که زیر بخش‌هایی از قبیل فناوری اطلاعات و تحلیل‌های وب در آینده فعال شود و مطالب آن به‌طور جداگانه برای دسترسی آسان طبقه‌بندی گردد.

نکته دیگر که شاید مرتبط با فعالیت و اهداف شما باشد، گنجاندن بخش معرفی فناوری‌ها و محصولات تأثیرگذار و مدرن در شبکه‌های دیجیتالی اجتماعی و فعال نمودن نظرات کاربران است تا بتوان فاصله‌ای که در تحقیقات بین‌رشته‌ای در علوم فرهنگی و انسانی و سایر علوم هست را کاهش داده و در راستای بهره‌وری و عملیاتی نمودن آن گام‌هایی را برداشت.

جناب آقای دکتر لطیفی مجدداً از وقتی‌که در اختیار مجله سایبر پژوهی قراردادید، کمال تشکر رادارم.

مصاحبه‌کننده: دکتر عبد اله کریم زاده.

استفاده از مطالب این سایت فقط با ذکر منبع بلامانع است.

نظر دادن