SISTEM DETEKSI BAHASA MENGGUNAKAN N-GRAM UNTUK DOKUMEN BAHASA INDONESIA DAN BAHASA INGGRIS

KHARISMA, 080810705 (2015) SISTEM DETEKSI BAHASA MENGGUNAKAN N-GRAM UNTUK DOKUMEN BAHASA INDONESIA DAN BAHASA INGGRIS. Skripsi thesis, UNIVERSITAS AIRLANGGA.

[img]
Preview
Text (ABSTRAK)
ABSTRAK.pdf

Download (242kB) | Preview
[img] Text (FULLTEXT)
FULLTEXT.pdf
Restricted to Registered users only

Download (1MB) | Request a copy
Official URL: http://lib.unair.ac.id

Abstract

Koleksi dokumen yang berjumlah besar dan terdiri dari berbagai macam bahasa meningkatkan kompleksitas pada sistem temu kembali informasi. Salah satu cara dalam mempermudah kerja sistem temu kembali informasi adalah dengan melakukan deteksi bahasa pada dokumen. Salah satu metode dalam melakukan deteksi bahasa adalah dengan menggunakan N-gram. N-gram adalah potongan N-karakter yang diambil dari suatu string. Tujuan dari penelitian ini adalah untuk membangun dan merancang sistem deteksi bahasa menggunakan N-gram untuk mendeteksi dokumen bahasa Indonesia dan bahasa Inggris dalam upaya mempermudah proses temu kembali sistem informasi. Sistem deteksi bahasa menggunakan N-gram untuk dokumen bahasa Indonesia dan bahasa Inggris memiliki tiga proses utama. Proses pertama adalah Proses Training dokumen-dokumen bahasa Inggris dan bahasa Indonesia yang terdiri dari 25 dokumen bahasa Indonesia dan 25 Dokumen bahasa Inggris untuk menghasilkan profil frekuensi N-gram unigram, bigram dan trigram untuk setiap bahasa. proses kedua adalah menentukan nilai threshold, yaitu dengan melakukan percobaan yang berulang pada dokumen. proses ketiga adalah testing dokumen untuk menentukan bahasa apa yang dimiliki oleh dokumen yang diuji dengan menggunakan 20 dokumen bahasa Indonesia, 20 dokumen bahasa Inggris dan 20 dokumen bahasa lainnya. Evaluasi sistem dilakukan dengan menghitung nilai Recall, Precision dan F-Measure untuk mengetahui kemampuan sistem dalam melakukan deteksi bahasa. Hasilnya adalah sistem yang dapat mendeteksi dokumen yang memiliki bahasa Indonesia, bahasa Inggris dan bahasa lain dengan hasil yang baik. Berdasarkan ujicoba, untuk N-gram unigram menghasilkan nilai F-Measure sebesar 0,933, bigram menghasilkan nilai F-Measure sebesar 0,917 dan trigram menghasilkan nilai F-Measure sebesar 0,933. Hasil tersebut menunjukkan bahwa N-gram unigram, bigram maupun trigram memiliki kemampuan dalam melakukan deteksi bahasa dokumen dengan akurasi tidak jauh berbeda.

Item Type: Thesis (Skripsi)
Additional Information: KKC KK ST.SI.14/15 Kha s
Uncontrolled Keywords: Language detection, N-gram, Information Retrieval
Subjects: Q Science > QA Mathematics > QA75.5-76.95 Electronic computers. Computer science
Q Science > QA Mathematics > QA76.9.L63 Logic, Symbolic, mathematical and Computer logic
Divisions: 08. Fakultas Sains dan Teknologi > Sistem Informasi
Creators:
CreatorsEmail
KHARISMA, 080810705UNSPECIFIED
Contributors:
ContributionNameEmail
ContributorBadrus Zaman,, S.Kom., M.CsUNSPECIFIED
Depositing User: Dwi Prihastuti
Date Deposited: 04 Mar 2015 12:00
Last Modified: 30 Aug 2016 08:37
URI: http://repository.unair.ac.id/id/eprint/27928
Sosial Share:

Actions (login required)

View Item View Item