Tikimybinis dažnų posekių paieškos algoritmas

Julija Pragarauskaitė; Gintautas Dzemyda

doi:10.15388/Im.2009.0.3211

Duomenų analizė ir vaizdavimas

Julija Pragarauskaitė

Gintautas Dzemyda

Published 2009-01-01

https://doi.org/10.15388/Im.2009.0.3211

352-357.pdf

How to Cite

Pragarauskaitė, J., & Dzemyda, G. (2009). Tikimybinis dažnų posekių paieškos algoritmas. Information & Media, 50, 352-357. https://doi.org/10.15388/Im.2009.0.3211

Download Citation

Abstract

Dažnų posekių paieška didelėse duomenų bazėse yra svarbi biologinių, klimato, fi nansinių ir daugelio kitų duomenų bazių analizei. Tikslieji algoritmai, skirti dažnų posekių paieškai, daug kartų perrenka visą duomenų bazę. Jeigu duomenų bazė didelė, tai dažnų posekių paieška yra lėta arba reikalingi superkompiuteriai. Straipsnyje pasiūlytas naujas tikimybinis dažnų posekių paieškos algoritmas, kuris analizuoja tam tikru būdu sudarytą pradinės duomenų bazės atsitiktinę imtį. Remiantis šia analize
daromos statistinės išvados apie dažnus posekius pradinėje duomenų bazėje. Šis algoritmas nėra tikslus, tačiau veikia daug greičiau negu tikslieji algoritmai ir tinka žvalgomajai statistinei analizei. Tikimybinio algoritmo klaidų tikimybės įvertinamos statistiniais metodais. Tikimybinis algoritmas gali būti derinamas su tiksliaisiais dažnų posekių paieškos algoritmais. Jį galima taikyti ir bendrajam struktūrų paieškos uždaviniui.

Probabilistic Algorithm for Mining Frequent Sequences
Julija Pragarauskaitė, Gintautas Dzemyda

Summary
Frequent sequence mining in large volume databases is important in many areas, e.g., biological, climate, fi nancial databases. Exact frequent sequence mining algorithms usually read the whole database many times, and if the database is large enough, then frequent sequence mining is very long or requires supercomputers. A new probabilistic algorithm for mining frequent sequences is proposed. It analyzes a random sample of the initial database. The algorithm makes decisions about the initial database according to the random sample analysis results and performs much faster than the exact mining algorithms. The probability of errors made by the probabilistic algorithm is estimated using statistical methods. The algorithm can be used together with the exact frequent sequence mining algorithms.

352-357.pdf

Downloads

Download data is not yet available.

Most read articles by the same author(s)

Aurimas Rapečka, Virginijus Marcinkevičius, Gintautas Dzemyda, Rekomendacinės sistemos algoritmų veikimo elektroninio knygyno duomenų bazėje analizė , Information & Media: Vol. 65 (2013): Informacijos mokslai
Laura Ringienė, Gintautas Dzemyda, Specialios struktūros daugiasluoksnis perceptronas daugiamačiams duomenims vizualizuoti , Information & Media: Vol. 50 (2009): Informacijos mokslai