ترجمه مقاله نقش ضروری ارتباطات 6G با چشم انداز صنعت 4.0
- مبلغ: ۸۶,۰۰۰ تومان
ترجمه مقاله پایداری توسعه شهری، تعدیل ساختار صنعتی و کارایی کاربری زمین
- مبلغ: ۹۱,۰۰۰ تومان
Schema matching is a crucial step in data integration. Many approaches to schema matching have been proposed so far. Different types of information about schemas, including structures, linguistic features and data types, etc have been used to match attributes between schemas. Relying on a single aspect of information about schemas for schema matching is not sufficient. Approaches have been proposed to combine multiple matchers taking into account different aspects of information about schemas. Weights are usually assigned to individual matchers so that their match results can be combined taking into account their different levels of importance. However, these weights have to be manually generated and are domain-dependent. We propose a new approach to combining multiple matchers using the Dempster-Shafer theory of evidence, which finds the top-k attribute correspondences of each source attribute from the target schema. We then make use of some heuristics to resolve any conflicts between the attribute correspondences of different source attributes. Our experimental results show that our approach is highly effective.
1 Introduction
There are now many searchable databases on the Web. These databases are accessed through queries formulated on their query interfaces only which are usually query forms. The query results from these databases are dynamically generated Web pages in response to form-based queries. The number of such dynamically generated Web pages is estimated around 500 times the number of static Web pages on the surface Web [1]. In many domains, users are interested in obtaining information from multiple sources. Thus, they have to access different Web databases individually via their query interfaces. For large-scale data integration over the Deep Web, it is not practical to manually model and integrate these Web databases. We aim to provide a uniform query interface that allows users to have uniform access to multiple sources [2]. Users can submit their queries to the uniform query interface and be responded with a set of combined results from multiple sources automatically.
7 Conclusions and Future Work
In this paper we proposed a new approach to combining multiple matchers by using the Dempster-Shafer theory of evidence and presented an algorithm for resolving the conflicts among the correspondences of different source attributes. In our approach, different matches are viewed as different sources of evidence, and mass distributions are defined on the basis of the match results from these matchers. We use Dempster’s combination rule to combine these mass dustributions, and choose the top k correspondences of each source attribute. Conflicts between the correspondences of different source attributes are finally resolved. We have implemented a prototype and tested it using a large dataset that contains real-world query interfaces in five different domains. The experimental results demonstrate the feasibility and accuracy of our approach.
تطابق الگو یک گام حیاتی در ادغام داده ها با یکدیگر است. تا به حال روش های زیادی برای تطابق الگو ارائه شده است. انواع مختلفی از معلومات در مورد الگو ها ، از قبیل ساختار ها ، خصیصه های زبانی و انواع داده ها و ... برای تطابق صفات بین الگوها استفاده شده اند. اتکا بر تنها یک جنبه از معلومات در مورد الگو ها برای تطابق الگو کافی نیست. روش هایی برای ترکیب تطابق دهند ه های مختلف با در نظر گرفتن جنبه های مختلف معلومات در مورد الگوها ارائه شده اند.به تطابق دهنده های منحصر به فرد اغلب وزن اختصاص داده می شود تا نتایج تطابق آنها با درنظر گرفتن سطح اهمیت با هم ترکیب شوند.اگرچه این وزن ها ، باید بصورت دستی تولید شوند و وابسته به دامنه هستند.ما طرح جدیدی برای ترکیب تطابق دهنده های چندگانه ارائه می دهیم که از دِمپستِر-شِیفِر (Dempster-Shafer) نظریه شواهد استفاده می کند،که بهترین صفات را از منبع صفات و از الگو هدف پیدا می کند.از این رو ما از فن آوری های هوشمند برای حل هرگونه تضاد بین صفات موجود در منبع صفات استفاده می کنیم.نتایج حاصل از تجربیات ما نشان می دهد که روش ما بسیار موثر و کارآمد است.
1 مقدمه
در حال حاضر تعداد زیادی پایگاه های داده قابل جست و جو در وب هستند. این پایگاه های داده از طریق پرس و جو هایی که فقط بر روی رابط های پرس و جو تنظیم شده اند در دسترس هستند که اغلب فرم های پرس و جو هستند. نتایج پرس و جو از این پایگاه های داده بصورت پویا صفحات وب را در پاسخ به پرس و جو های مبتنی بر فرم می سازند. تعداد صفحات وب در سطح وب که بطور پویا ساخته می شوند حدود 500 برابر صفحات ایستا تخمین زده شده است. در بسیاری از دامنه ها، کاربران علاقه دارند اطلاعات را از منابع مختلف بدست آورند. بدین ترتیب ، مجبور اند به پایگاه های داده مختلف وب به صورت جداگانه از طریق رابط پرس و جوی خود دسترسی پیدا کنند.برای مقیاس یزرگ در ادغام داده در وب عمیق ، کاربردی نیست که این پایگاه های داده را بطور دستی نمونه سازی و ادغام کنیم.هدف ما این است که یک رابط پرس و جو یکنواخت ارائه دهیم که به کاربران اجازه می دهد تا دسترسی یکنواخت به منابع مختلف داشته باشند.کاربران می توانند پرس و جو های خود را به رابط پرس و جو یکنواخت ارسال کنند و پاسخ را خودکار،بعنوان مجموعه ای از جواب های ترکیب شده از منابع مختلف دریافت کنند.
7. نتیجه گیری و کار آینده
در این مقاله ما روش جدیدی برای ترکیب تطابق دهنده های چندگانه با استفاده از دِمپستِر-شِیفِر نظریه شواهد ارائه کردیم و الگوریتمی برای حل تضاد بین تطابق های صفات منبع مختلف معرفی شد.در روش ما،تطابق های مختلف بعنوان منابع مختلف از شواهد در نظر گرفته می شوند،و توزیع های جرم بر مبنای نتایج تطابق از این تطابق دهنده ها معنی می شوند.از قانون ترکیب دِمپستِر برای ترکیب این توزیع های جرم استفاده می کنیم،و بهترین تطابق ها از هر صفت منبع را انتخاب می کنیم.تضادهای بین تطابق های صفت های منبع مختلف در نهایت حل می شوند.نمونه اولیه ای را پیاده سازی کردیم و آن را با مجموعه داده بزرگی که شامل رابط های پرس و جو در دنیای واقعی در 5 دامنه مختلف است،آزمایش کردیم. نتایج این آزمایش ها امکان پذیر بودن و دقت روش ما را نشان داد.