فرمت فایل: ورد –Word و قابل ویرایش
تعداد صفحات: 215
اطلاعات باعث قدرت است و دانش قدرتمند تر. اکنون بیشتر از 80 درصد از
دانش ما به صورت متن، مستندات و دیگر صورت های رسانه ای نظیر ویدیو و صدا
نگهداری می شود. اگر از منظر علوم کامپیوتری به این مستندات نگاه کنیم همه ی
آنها به طبیعتی غیر ساختیافته وابسته اند. یک فرد برای دریافت دانش از
اطلاعات یک متن، بایستی ابتدا آنرا درک کند و سپس آنرا پردازش کند تا بفهمد
چه معانی و مفاهیمی در آن موجود است، چه ارتباطی میان مفاهیم وجود دارد و
از میان این مفاهیم کدام جدید است و کدام قدیمی. با این حال در این عصر
تکنولوژی، ما معتقدیم که هر چیزی باید بتواند اتوماتیک انجام شود حتی اگر
این کار " درک معنی متن" باشد. این تنها یکی از نامهایی است که شما برای
این نوع از پردازش می یابید. "متن-کاوی"، "کاوش داده های متنی" و نیز نام
معروف "کشف دانش در متن" یا KDT، از نامهای بیشتر مورد قبول دراین زمینه
هستند.
افرادی که دارای پیشینه کار در زمینه ی داده-کاوی بودند می خواستند که
همان مفاهیم و روشهای موجود در داده-کاوی را بر متون اعمال کنند و تعاریف
شان نیز منطبق بر همین زمینه بود. اما کسانی که از جامعه ی زبان دانان
محاسباتی آمده بودند، قصد داشتند که این توانایی را به کامپیوتر بدهند که
بتوانند متن را بفهمند و این غایت چیزی است که از متن-کاوی مورد انتظار
است.
در دنیای کنونی این کمبود اطلاعات نیست که مسئله است بلکه کمبود دانشی
است که از این اطلاعات می توان حاصل کرد. میلیونها صفحه ی وب، میلیون ها
کلمه در کتابخانه های دیجیتال و هزاران صفحه اطلاعات در هر شرکت تنها چند
دست از این منابع اطلاعاتی هستند. اما نمی توان به طور مشخص منبعی از دانش
را در این بین معرفی کرد. دانش خلاصه ی اطلاعات است و نیز نتیجه گیری و
حاصل فکر و تحلیل بر روی اطلاعات.
داده کاوی، یک روش بسیار کاراست برای کشف اطلاعات از داده های ساختیافته
ای که در جداول نگهداری می شوند. داده کاوی، الگوها را از تراکنش ها ،
استخراج می کند، داده را گروه بندی می کند و نیز آنرا دسته بندی می کند.
بوسیله ی داده کاوی می توانیم پی به
وجود روابطی میان اقلام داده ای که دیتابیس را پر کرده اند ببریم. در
عین حال ما با داده کاوی مشکلی داریم و آن عدم وجود عامیت در کاربرد آن
است. تعداد منابع داده ای ساخت یافته ی ما که به حد کافی بزرگ نیز باشند که
مفاهیم داده کاوی قابل اعمال بر آنها باشد، چندان زیاد نیستند. در واقع
بیشتر دانش ما اگر به صورت غیر دیجیتال نباشند، کاملاً غیر ساختیافته اند.
کتابخانه های دیجیتال، اخبار، کتابهای الکترونیکی، بسیاری از مدارک مالی،
مقالات علمی و تقریباً هر چیزی که شما می توانید در داخل وب بیابید،
ساختیاقته نیستند. در نتیجه ما نمی توانیم آموزه های داده کاوی را در مورد
آنها به طور مستقیم استفاده کنیم.
با این حال، سه روش اساسی در مواجهه با این حجم وسیع از اطلاعات غیر
ساختیافته گسترده شده در جهان وجود دارد. بازیابی اطلاعات ، استخراج
اطلاعات و کشف دانش در متن این سه روش برخورد با این مسئله هستند.
بازیابی اطلاعات اصولاً مرتبط است با بازیابی مستندات و مدارک. کار
معمول در IR اینست که بسته به نیاز مطرح شده از سوی کاربر، مرتبط ترین متون
و مستندات و یا در واقع " بقچه ی کلمه" را ازمیان دیگر مستندات یک مجموعه
بیرون بکشد. این یافتن دانش نیست بلکه تنها آن بقچه ای از کلمات را که به
نظرش مرتبط تر به نیاز اطلاعاتی جستجو گر است را به او تحویل می دهد. این
روش به واقع هیچ دانشی و حتی هیچ اطلاعاتی را برایمان به ارمغان نمی آورد.
در نظر بگیرید که مؤسسه ای بسیار موفق دارید و از اینرو تعداد زیادی
ایمیل در روز دریافت می کنید. شما می خواهید سابقه ی این ایمیل ها را ثبت
کنید. چه کسانی آنرا فرستاده اند،
تاریح فرستادن آن چه روزی بوده است، عنوان و متن آن چه بوده است و نظایر
آن. این با بیرون کشیدن این اطلاعات از تک تک ایمیل ها و پر کردن یک
پایگاه داده از این اطلاعات میسر است. این ممکن است با تعریف یا کشف یک
قالب از داده هایی بدست آید که با آن سروکاردارید. مثلا می توان برنامه ای
داشت که به طور اتوماتیک به دنبال کلمه ی title در سند بگردد و آنچه را که
بعداز آن آمده به عنوان یک فیلد در پایگاه داده پرکند. هرچند یافتن این
قالب در داده های غیر ساختیافته ی دیگر، ممکن است به هیچ وجه ساده نباشد.
اما زمانی که شما این کار را به پایان بردید، با داده های کاملاً ساختیافته
ای مواجه هستید که از دل ایمیل ها بیرون کشیده شده است. اما از سویی دیگر،
این تنها اطلاعات است که هنوز شما دارید؛ به این معنی که هیچ چیز جدیدی از
آنچه که دارید کشف نشده است و همان را که قبلاً می دانستید، هنوز هم می
دانید.
دو مفهوم A و B را درنظر بگیرید که از مجموعه متون، استحصال شده اند.
همچنین تصور کنید که شما ارتباطی را نیز میان این دو مفهوم یافته اید. مثلا
اینکه "مناطق بارانی" و " کشت برنج" دارای رابط ای به این صورتند که کشت
برنج به مناطق بارانی نیاز دارد. ( A->B). به علاوه فرض کنید که مفهوم B
نیز با مفهوم C، به همین شکل دارای ارتباط است؛ مثلاً "مناطق شمال کشور" و
"مناطق بارانی" این رابطه را به هم دارند که مناطق شمال کشور "هستند"
منطقه ی بارانی(C ISA A). آنچه ما تاکنون داریم تنها اطلاعات است که
استخراج شده است، اما سیستم می تواندکمی باهوش تر باشد و بتواند بادرک این
دو گزاره نتیجه دهد که گزاره ی سومی نیز قابل طرح است به این صورت که
"مناطق شمال کشور" قابل " کشت برنج" است. این مثال نشان می دهد که کشف دانش
به چه می ماند. تاکید در
این مثال همانطور که می بینید بر نو بودن آن چیزی است که بدست آمده است.
هرچند افرادی , معتقد بر تفاوت اندکی در IE و KDT ، هستند. آنها بر این
باورند که یافته های نسبتاً جدید نیز قابل پذیرشند به عنوان متن کاوی. نظیر
یافته های دسته بندی متون، خلاصه سازی متون و شبیه آن است. [15]
1-7-2- فرآیند متن کاوی
متن کاوی فرآیندی است که شامل فیلدهای تکنولوژیکی فراوانی است. بازیابی
اطلاعات، داده کاوی و هوش مصنوعی و زبانشناسی محاسباتی همه فیلدهایی هستند
که در این زمینه، نقشی را دارا هستند. اما به طور کلی دو فاز اصلی در
فرآیند متن کاوی وجود دارد که در شکل 1-18 نشان داده شده است.
شکل1-18: مراحل متن کاوی
اولین فاز پیش پردازش مستندات است. خروجی نخستین فاز می تواند دو قالب
مختلف داشته باشد؛ مبتنی برسند و مبتنی بر مفهوم . در اولین فرمت نمایش،
آنچه برای ما مهم است، نحوه ی نمایش بهتری است برای مستندات. این می تواند،
تبدیل آنها به یک فرمت میانی و نیمه ساختیافته ، باشد یا بکار بردن یک
ایندکس بر روی آن یا هر نوع نمایش دیگری که کار کردن با مستند را کاراتر می
کند. در این حال هر موجودیت در این نمایش در نهایت باز هم یک مستند خواهد
بود. در نوع دوم بهبود بخشی به نمایش مستند، مفاهیم و معانی موجود در سند و
نیز ارتباط میان آنها و هر نوع اطلاعات مفهومی دیگری که قابل استخراج است،
از متن استخراج می شود. در این نوع نمایش دیگر با مستندات به عنوان یک
موجودیت مواجه نیستیم بلکه با مفاهیمی روبروییم که از این مستندات استخراج
شده اند.
قدم بعدی استخراج دانش است از این فرمهای میانی نمایش مستندات. بسته به
نحوه ی نمایش یک مستند، روال استخراج دانش برای یک مستند متفاوت است. نمایش
مبتنی بر مستند، برای گروه بندی، طبقه بندی، تصویر گری و نظایر آن استفاده
می شود، درحالیکه نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم ،
ساختن اتوماتیک تزاروس و آنتولوژی (هستی شناسی) و نظایر آن بکار می
رود.[16]
1-7-3- کاربردهای متن کاوی
تعاریف گسترده ای از متن-کاوی در دست است، در نتیجه این عجیب نیست که در
باره ی کاربردهای متن کاوی نیز عقاید گوناگونی وجود داشته باشد. از اینرو
ما تلاش می کنیم که تعدادی از کاربردهای مورد قبول از این روند را بررسی
کنیم و سعی در تطابق این کاربردها با تعاریف قبلی نداشته باشیم. [17]
- جستجو وبازیابی
- گروه بندی (دسته بندی بدون نظارت ) و طبقه بندی (دسته بندی با نظارت)
- خلاصه سازی
- استخراج روابط
- یافتن و تحلیل ترند ها
- برچسب زدن نحوی
- ساخت اتوماتیک آنتولوژی و تزاروس
- ....
همانطور می بیند بعضی از عناوین مشترک بین زمینه هایی چون بازیابی اطلاعات، هوش مصنوعی و نیز پردازش زبانهای طبیعی است.
1-7-3-1- جستجو و بازیابی
روشهای جدیدی در رابطه با جستجو وبازیابی اطلاعات با درنظر گرفتن
متن-کاوی، قابل تصور است. همانطور که قبلاً گفته شد، بازیابی اطلاعات دارای
این هدف است که از میان مجموعه ای از مدارک و متون، آنهایی را که مرتبط
ترند به نیاز اطلاعاتی کاربر، جدا کنند و به کاربر نشان دهند. بنابر این
همیشه شرایطی هست که کاربر نتواند به نیاز اطلاعاتی خود، حتی از میان نتایج
دریافت شده، برسد. ممکن است در میان 100 مدرک نیاز به مطالعه باشد تا
کاربر آنچه را که می خواهد بدست آورد. در بسیاری از شرایط داشتن سیستمی که
بتواند جواب دقیق را برگرداند در بسیاری از موارد ترجیح بیشتری دارد. این
نوع از سیستمهای IR، به سیستمهای پاسخگو به پرسش ، معروفند.
اگرچه این نوع از سیستمهای بازیابی اطلاعات بر اساس استفاده از گستره ای
از تکنولوژی ها مانند NLP و یادگیری ماشین استوار است اما در نهایت آنچه
در این سیستمها، نقش اصلی را داراست، یک پایگاه دانش است که از طریق روشهای
مبتنی بر NLP و یا روشهای آماری بر روی مدارک موجود در مجموعه ساخته شده
است. در استخراج این روابط، می توان از متن کاوی استفاده کرد. استخراج چنین
روابطی در واقع یکی از کاربردهای متن کاوی است.
1-7-3-2- گروه بندی و طبقه بندی داده
یکی از مواردی که می تواند به کاربر در یافتن سریعتر اطلاعات مورد نظرش
کمک کند، دسته بندی اطلاعات موجود است. این دسته بندی به کاربر یک نگاه کلی
از آنچه در مجموعه متون موجود است می دهد. در ساختن این دسته بندی دو روش
کلی وجود دارد.
در روش اول شما کلاسهای از پیش تعریف شده ای از مفاهیم دارید و تلاش می
کنید که سیستمی داشته باشید که مستندات و مدارک جدید را به یکی از این
کلاسها، نگاشت کند. این کار درواقع به طبقه بندی داده ها ، معروف است. در
سوی دیگر، گروه بندی داده ها، ساختن این کلاسها به طور اتوماتیک است. در
واقع با گروه بندی مدارک، قصد بر این است که مشخص شود تمرکز مفاهیم در
مجموعه ی متون، حول چه چیزهایی است. در واقع در اینجا ما کلاس از پیش تعریف
شده ای نداریم. این دو در واقع مفاهیمی هستند که از داده کاوی رایج در
دیتابیسها، به قرض گرفته شده اند.
1-7-3-3- خلاصه سازی
منظور ما از خلاصه سازی، روند ساختن مجموعه ای مفاهیم پایه ای از متن
است تنها در چند خط. در این نوع از متن کاوی به نظر می رسد که اطلاعات
جدیدی از متن به دست نیاید به این دلیل که خود نویسنده احتمالاً می دانسته
است که چه چیزی می خواسته است بگوید و خلاصه ی نوشته های او، اطلاع جدیدی
را اضافه نمی کند.گرچه این کار می تواند بررسی محتویات مستندات را برای
کاربران ساده تر کند و آنهارا در مسیر رسیدن به آنچه نیاز دارند، سرعت دهد.
1-7-3-4- روابط میان مفاهیم
از جمله واقعیت هایی که می توان از یک مجموعه متون دریافت، ارتباط و
وابستگی بعضی مفاهیم است با مفاهیم دیگر. این واقعیات به طور مثال می تواند
بگوید که پدیدار شدن بعضی کلمات ممکن است که وابسته باشد به ظاهر شدن بعضی
دیگر از کلمات. منظور این است که هرگاه شما مجموعه ی اول کلمات را ببینید،
ما می توانیم انتظار داشته باشیم که مجموعه ی دوم لغات را نیز ببینیم. این
مفهوم نیز از داده کاوی در دیتابیس به امانت گرفته شده است. ما در این
مورد در ادامه بیشتر صحبت خواهیم کرد.
1-7-3-5- یافتن و تحلیل ترند ها
فرض کنید که شما مدیر یک کمپانی تجاری هستید. مشخصاً شما بایستی همواره
چشمی بر فعالیتهای رقیبانتان داشته باشید. این می تواند هر نوع اطلاعاتی
باشد که شما از اخبار، معاملات بورس و یا از مستندات تولید شده توسط همان
کمپانی رقیب گرفته اید.
اگرچه در حال حاضر که اطلاعات به طور فزآینده ای در حال افزایش است،
مدیریت تمامی این منابع داده ای قطعاً تنها به کمک چشمانتان ممکن نیست.
متن-کاوی به شما این اجازه را می دهد که به طور اتوماتیک ترندها و تغییرات
جدید را بیابید. در واقع آنچه اصولاً باید از متن کاوی انتظار برود اینست
که به شما بگوید چه اخباری در میان گستره ای از اخبار به آنچه می خواهید
مرتبط است و در این میان کدام خبر جدیداست، چه پیشرفتهایی در زمینه ی کاری
شما صورت می گیرد و علایق و ترندهای فعلی چگونه است و با چه روندی تغییر می
کند. با استفاده از این اطلاعات، مدیر تنها از اطلاعات کشف شده برای بررسی
وضعیت رقیب می تواند سود جوید.
1-7-3-5- برچسب زدن نحوی (POS)
اگرچه تعداد زیادی معتقد به این نیستند که اینکار جزئی از متن-کاوی است
ولی برای مثال سیستمی به نام GATE در دانشگاه شفیلد، در یک کتابخانه ی
دیجیتال به این قصد جاگذاری شده است. GATE شامل ابزاراتی است برای برچسب
زدن بر جملات. برای مثال این سیستم می تواند در داخل یک متن، نام موقعیتهای
جغرافیایی، نام اشخاص و چیزهایی شبیه اینرا بیابد. به این خاطر این سیستم
بیشتر شامل استخراج اطلاعات است تا استخراج دانش. در عین حال، POS اغلب نقش
بزرگی را در پردازش زبانهای طبیعی بازی می کند. در حقیقت این اولین قدم در
پردازش زبان طبیعی است و پردازش زبان طبیعی یکی از پایه های متن-کاوی
است.[18]
1-6-2-7- ایجاد تزاروس و آنتولوژی به صورت اتوماتیک
می توان تزاروس و آنتولوژی را به عنوان یک ابزار مناسب برای نمایش دانش
استخراج شده از یک مجموعه متن دانست. تزاروس، مجموعه ای است از لغات به
اضافه ی تعاریفشان و رابطه ی میان آنها. این روابط معمولاً به کمک دست از
دل مجموعه ی متون استخراج می شود.ما می توانیم تزاروسهای خاص یا همه منظوره
داشته باشیم. رابطه ی میان این کلمات می تواند چیزهای شبیه "کلی تر"، "خاص
تر" و "مرتبط" یا نظیر آن باشد. اگر ما تزاروسی داشته باشیم که در آن تمام
ارتباطات میان لغات مشخص شده باشد، می توانیم آنرا آنتولوژی این لغات
بنامیم. هر دوی تزاروس و آنتولوژی کاملاً مفید هستند چون به ما دنیای لغات و
مفاهیمی را نشان می دهند که در مجموعه ی متون ما وجود دارد. اگر شما یک
موتور جستجو را در نظر بگیرید، یک تزاروس، می تواند مجموعه لغاتی باشد که
ما می توانیم در حین جستجوبکار بریم.
|