عنوان مقاله:
بررسی پایگاههای داده قابل یادگیری: دیدگاه یادگیری ماشینی
Survey on Learnable Databases: A Machine Learning Perspective
سال انتشار: 2022
رشته: مهندسی کامپیوتر
گرایش: هوش مصنوعی _ نرم افزار
دانلود رایگان این مقاله:
دانلود مقاله دیدگاه یادگیری ماشینی
مشاهده سایر مقالات جدید:
2. Database parameter configuration
The workload of the database is changing more and more rapidly, and the database system requires to use intelligent approaches to improve the ability to respond quickly. Machine learning can be used to learn historical data to predict the unknown data so that the database system can dynamically configure the parameters under different workloads to form an optimization plan. 2.1. Workload analysis During the decades of the development of database self-tuning, some system tuning methods have been proposed. The research on the parameter configuration of the database can be traced back to the modification of the database system design [15] in 2005. Management tasks have gradually become the dominant task in the database system. It is inefficient to adjust CPU, memory and storage resources for the current workload only by administrator. To address this issue, Narayanan et al. proposed a way to upgrade the configuration by predicting the workload. The authors propose a modification plan for the database system design so that resource consultants can answer “what-if” questions about resource upgrades. The machine learning models of this selfprediction DBMS system are buffer pool and storage models, the input feature is workload, and the output feature is buffer pool size. This model demonstrates the superiority of performance by predicting the throughput and response time of OLTP workloads. The advantage is that it uses a modular architecture to increase the extensibility, but it still needs to reduce response time. For many OLTP applications, it is generally used dynamic allocation to calculate how to adjust resource allocation to adapt to the workloads that are constantly evolving. Despite this method responds to workload changes, it will reconfigure and add extra burden to the system that has been overloaded. An OLTP database, called P-Store [16], can predict the workload and make the database readjust the resource configuration before the peak workload. It re-configures the database through a time series model based on dynamic programming algorithms, which can accurately predict the load of different applications, thereby reducing the resource configuration overhead of the database. Optimizing the configuration is also critical to operating modern cloud systems, but the difficulties come from the different workloads of the cloud system, the scale of large systems, and the huge parameter space.
3. Database storage management
learnable database storage management is mainly divided into data partition and index. The query load and data layout of the database determines the characteristics of the partition. Using the learning prediction characteristics of the intelligent can realize the partition optimization to improve the overall performance of the database. The index is a decentralized storage structure to speed up the retrieval. The intelligent is used to replace the index or select an efficient index to improve storage management performance. 3.1. Data partition After data partitioning, the table can be further divided into finer granularity to facilitate distributed data processing. [26] proposed OpenAI Gym that realized a self-adjusting function of data partition and layout. Through the reinforcement learning model, the input feature is the prediction of external workload and current physical design, and the output result is the selection of an adaptive partition. In order to use in the online environment, the agent learns n action sequences of fixed length, which maximizes the time reward of the predicted workload. Its advantage is that it can greatly reduce parallelism in training, GPU utilization, and memory footprint reductions, but the overall system has not been developed. The DEL-based [27] that uses a DRL (deep reinforcement learning model) to solve the partition problem of a distributed database and provide a ready-made extended database solution for OLAP style workload in the cloud. DRL agents learn from experience by monitoring the returns of different workloads and partitioning schemes. Set up an online learning stage to continue learning the actual execution time of the data partition after the estimated execution time of the learning load. Through evaluation, this method not only finds better partitions than the existing automatic partition design method but also easily adapts to different deployments, it is not currently supported in the OLTP database.
(دقت کنید که این بخش از متن، با استفاده از گوگل ترنسلیت ترجمه شده و توسط مترجمین سایت ای ترجمه، ترجمه نشده است و صرفا جهت آشنایی شما با متن میباشد.)
2. پیکربندی پارامتر پایگاه داده
حجم کار پایگاه داده با سرعت بیشتری در حال تغییر است و سیستم پایگاه داده نیاز به استفاده از رویکردهای هوشمند برای بهبود توانایی پاسخگویی سریع دارد. از یادگیری ماشینی می توان برای یادگیری داده های تاریخی برای پیش بینی داده های ناشناخته استفاده کرد تا سیستم پایگاه داده بتواند به صورت پویا پارامترها را تحت بارهای کاری مختلف پیکربندی کند تا یک طرح بهینه سازی تشکیل دهد. 2.1. تجزیه و تحلیل حجم کار در طول دهه های توسعه خود تنظیم پایگاه داده، برخی از روش های تنظیم سیستم پیشنهاد شده است. تحقیق در مورد پیکربندی پارامتر پایگاه داده را می توان به اصلاح طراحی سیستم پایگاه داده [15] در سال 2005 ردیابی کرد. وظایف مدیریت به تدریج به وظیفه غالب در سیستم پایگاه داده تبدیل شده است. تنظیم CPU، حافظه و منابع ذخیره سازی برای حجم کاری فعلی فقط توسط مدیر ناکارآمد است. برای پرداختن به این موضوع، نارایانان و همکاران. راهی برای ارتقاء پیکربندی با پیشبینی حجم کار پیشنهاد کرد. نویسندگان یک طرح اصلاحی را برای طراحی سیستم پایگاه داده پیشنهاد میکنند تا مشاوران منابع بتوانند به سؤالات «چه میشد» در مورد ارتقای منابع پاسخ دهند. مدلهای یادگیری ماشینی این سیستم DBMS خودپیشبینی، مدلهای استخر و ذخیرهسازی بافر، ویژگی ورودی حجم کار و ویژگی خروجی اندازه استخر بافر است. این مدل با پیشبینی توان عملیاتی و زمان پاسخ بارهای کاری OLTP، برتری عملکرد را نشان میدهد. مزیت آن این است که از معماری ماژولار برای افزایش توسعه پذیری استفاده می کند، اما همچنان نیاز به کاهش زمان پاسخ دارد. برای بسیاری از برنامه های OLTP، معمولاً از تخصیص پویا برای محاسبه نحوه تنظیم تخصیص منابع برای انطباق با بارهای کاری که دائماً در حال تغییر هستند استفاده می شود. علیرغم اینکه این روش به تغییرات بار کاری پاسخ می دهد، پیکربندی مجدد می کند و بار اضافی به سیستمی که بیش از حد بارگذاری شده است اضافه می کند. یک پایگاه داده OLTP، به نام P-Store [16]، می تواند حجم کار را پیش بینی کند و پایگاه داده را وادار کند تا پیکربندی منبع را قبل از اوج بار کاری مجددا تنظیم کند. این پایگاه داده را از طریق یک مدل سری زمانی بر اساس الگوریتم های برنامه نویسی پویا پیکربندی مجدد می کند، که می تواند به طور دقیق بار برنامه های مختلف را پیش بینی کند، در نتیجه سربار پیکربندی منابع پایگاه داده را کاهش می دهد. بهینهسازی پیکربندی برای کارکرد سیستمهای ابری مدرن نیز حیاتی است، اما مشکلات ناشی از بارهای کاری مختلف سیستم ابری، مقیاس سیستمهای بزرگ و فضای پارامتر بزرگ است.
3. مدیریت ذخیره سازی پایگاه داده
مدیریت ذخیره سازی پایگاه داده قابل یادگیری عمدتاً به پارتیشن داده و فهرست تقسیم می شود. بار پرس و جو و طرح داده پایگاه داده مشخصه های پارتیشن را تعیین می کند. استفاده از ویژگی های پیش بینی یادگیری هوشمند می تواند بهینه سازی پارتیشن را برای بهبود عملکرد کلی پایگاه داده محقق کند. ایندکس یک ساختار ذخیره سازی غیرمتمرکز برای سرعت بخشیدن به بازیابی است. هوشمند برای جایگزینی شاخص یا انتخاب یک شاخص کارآمد برای بهبود عملکرد مدیریت ذخیره سازی استفاده می شود. 3.1. پارتیشن داده ها پس از پارتیشن بندی داده ها، جدول را می توان به دانه بندی دقیق تری تقسیم کرد تا پردازش داده های توزیع شده را تسهیل کند. [26] OpenAI Gym را پیشنهاد کرد که عملکرد خودتنظیمی پارتیشن و چیدمان داده را تحقق بخشید. از طریق مدل یادگیری تقویتی، ویژگی ورودی پیشبینی حجم کار خارجی و طراحی فیزیکی فعلی است و نتیجه خروجی انتخاب یک پارتیشن تطبیقی است. به منظور استفاده در محیط آنلاین، عامل n دنباله عمل با طول ثابت را می آموزد که پاداش زمانی بار کاری پیش بینی شده را به حداکثر می رساند. مزیت آن این است که می تواند موازی سازی در آموزش، استفاده از GPU و کاهش ردپای حافظه را تا حد زیادی کاهش دهد، اما سیستم کلی توسعه نیافته است. مبتنی بر DEL [27] که از یک DRL (مدل یادگیری تقویتی عمیق) برای حل مشکل پارتیشن یک پایگاه داده توزیع شده و ارائه یک راه حل پایگاه داده توسعه یافته آماده برای بار کاری سبک OLAP در فضای ابری استفاده می کند. عوامل DRL با نظارت بر بازگشت بارهای کاری مختلف و طرح های پارتیشن بندی از تجربه یاد می گیرند. برای ادامه یادگیری زمان اجرای واقعی پارتیشن داده پس از زمان تخمینی اجرای بار یادگیری، یک مرحله یادگیری آنلاین راه اندازی کنید. از طریق ارزیابی، این روش نه تنها پارتیشن های بهتری را نسبت به روش طراحی پارتیشن خودکار موجود پیدا می کند، بلکه به راحتی با استقرارهای مختلف سازگار می شود، در حال حاضر در پایگاه داده OLTP پشتیبانی نمیشود.