EPUB
|
WORKING PAPERS
|
DISSERTATIONS
|
|
Text mining has become an established discipline both in research as in business intelligence. However, many existing text mining toolkits lack easy extensibility and provide only poor support for interacting with statistical computing environments. Therefore we propose a text mining framework for the statistical computing environment R which provides intelligent methods for corpora handling, meta data management, preprocessing, operations on documents, and data export. We present how well established text mining techniques can be applied in our framework and show how common text mining tasks can be performed utilizing our infrastructure. The second part in this thesis is dedicated to a set of realistic applications using our framework. The first application deals with the implementation of a sophisticated mailing list analysis, whereas the second example identifies the potential of text mining methods for business to consumer electronic commerce. The third application shows the benefits of text mining for law documents. Finally we present an application which deals with authorship attribution on the famous Wizard of Oz book series. (author's abstract) Text Mining hat sich zu einer etablierten Disziplin sowohl in der Forschung als auch in der Industrie entwickelt. Dennoch fehlt es vielen Text Mining Umgebungen an einfacher Erweiterbarkeit und sie bieten nur wenig Unterstützung zur Interaktion mit statistischen Rechenumgebungen. Aus dieser Motivation heraus wird in dieser Dissertation eine Text Mining Infrastruktur für die statistische Rechenumgebung R vorgestellt, die fortgeschrittene Methoden zur Manipulation von Textkorpora und deren Metadaten, zu Verarbeitungsschritten, zum Arbeiten mit Dokumenten, und zum Datenexport bietet. Es wird dargelegt, wie etablierte Text Mining Techniken mit der vorgestellten Infrastruktur durchgeführt werden können. Dazu wird auch gezeigt wie man diese Techniken einsetzt um gängige Aufgaben des Text Mining durchzuführen. Der zweite Teil dieser Arbeit ist realistischen Anwendungen aus diversen Themenbereichen unter Nutzung der präsentierten Text Mining Infrastruktur gewidmet. Die erste Anwendung zeigt die Durchführung einer anspruchsvollen Analyse auf Daten einer E-Mail Verteilerliste. Die zweite Anwendung offenbart das Potential von Text Mining Methoden für den elektronischen Handel vorallem im sogenannten Business-to-Consumer Bereich. Das dritte Beispiel beschäftigt sich mit den Vorteilen von Text Mining auf juristischen Dokumenten. Zum Schluss wird eine Anwendung zur Identifikation von Autoren gezeigt, unter Verwendung der im englischsprachigen Raum recht bekannten Geschichten über den Zauberer von Oz. (Autorenref.)
text mining / R
© 2009 University Library and Institute for Information Business, Vienna University of Economics and Business | Thu Sep 2 19:48:40 2010 |