Sistem Deteksi Bahasa Menggunakan N-Gram Untuk Dokumen Bahasa Indonesia Dan Bahasa Inggris Repository

Sistem Deteksi Bahasa Menggunakan N-Gram Untuk Dokumen Bahasa Indonesia Dan Bahasa Inggris

Kharisma (2015) Sistem Deteksi Bahasa Menggunakan N-Gram Untuk Dokumen Bahasa Indonesia Dan Bahasa Inggris. Skripsi thesis, UNIVERSITAS AIRLANGGA.

	Text (HALAMAN JUDUL) 1. HALAMAN JUDUL.pdf Download (403kB)
	Text (ABSTRAK) 2. ABSTRAK.pdf Download (239kB)
	Text (BAB I) 3. BAB 1.pdf Download (316kB)
	Text (BAB II) 4. BAB 2.pdf Restricted to Registered users only until 27 February 2023. Download (419kB) \| Request a copy
	Text (BAB III) 5. BAB 3.pdf Restricted to Registered users only until 27 February 2023. Download (248kB) \| Request a copy
	Text (BAB IV) 6. BAB 4.pdf Restricted to Registered users only until 27 February 2023. Download (1MB) \| Request a copy
	Text (DAFTAR PUSTAKA) 7. DAFTAR PUSTAKA.pdf Download (229kB)
	Text (LAMPIRAN) 8. LAMPIRAN.pdf Restricted to Registered users only until 27 February 2023. Download (252kB) \| Request a copy

Official URL: http://lib.unair.ac.id

Abstract

Koleksi dokumen yang berjumlah besar dan terdiri dari berbagai macam bahasa meningkatkan kompleksitas pada sistem temu kembali informasi. Salah satu cara dalam mempermudah kerja sistem temu kembali informasi adalah dengan melakukan deteksi bahasa pada dokumen. Salah satu metode dalam melakukan deteksi bahasa adalah dengan menggunakan N-gram. N-gram adalah potongan N-karakter yang diambil dari suatu string. Tujuan dari penelitian ini adalah untuk membangun dan merancang sistem deteksi bahasa menggunakan N-gram untuk mendeteksi dokumen bahasa Indonesia dan bahasa Inggris dalam upaya mempermudah proses temu kembali sistem informasi. Sistem deteksi bahasa menggunakan N-gram untuk dokumen bahasa Indonesia dan bahasa Inggris memiliki tiga proses utama. Proses pertama adalah Proses Training dokumen-dokumen bahasa Inggris dan bahasa Indonesia yang terdiri dari 25 dokumen bahasa Indonesia dan 25 Dokumen bahasa Inggris untuk menghasilkan profil frekuensi N-gram unigram, bigram dan trigram untuk setiap bahasa. proses kedua adalah menentukan nilai threshold, yaitu dengan melakukan percobaan yang berulang pada dokumen. proses ketiga adalah testing dokumen untuk menentukan bahasa apa yang dimiliki oleh dokumen yang diuji dengan menggunakan 20 dokumen bahasa Indonesia, 20 dokumen bahasa Inggris dan 20 dokumen bahasa lainnya. Evaluasi sistem dilakukan dengan menghitung nilai Recall, Precision dan F-Measure untuk mengetahui kemampuan sistem dalam melakukan deteksi bahasa. Hasilnya adalah sistem yang dapat mendeteksi dokumen yang memiliki bahasa Indonesia, bahasa Inggris dan bahasa lain dengan hasil yang baik. Berdasarkan ujicoba, untuk N-gram unigram menghasilkan nilai F-Measure sebesar 0,933, bigram menghasilkan nilai F-Measure sebesar 0,917 dan trigram menghasilkan nilai F-Measure sebesar 0,933. Hasil tersebut menunjukkan bahwa N-gram unigram, bigram maupun trigram memiliki kemampuan dalam melakukan deteksi bahasa dokumen dengan akurasi tidak jauh berbeda.

Item Type:

Thesis (Skripsi)

Additional Information:

KKC KK ST.SI.14/15 Kha s

Uncontrolled Keywords:

Language detection, N-gram, Information Retrieval

Subjects:

Q Science > QA Mathematics > QA75.5-76.95 Electronic computers. Computer science
Q Science > QA Mathematics > QA76.9.L63 Logic, Symbolic, mathematical and Computer logic

Divisions:

08. Fakultas Sains dan Teknologi > Sistem Informasi

Creators:

Creators	NIM
Kharisma	NIM080810705

Contributors:

Contribution	Name	NIDN / NIDK
Thesis advisor	Badrus Zaman	NIDN0026017806

Depositing User:

Dwi Prihastuti

Date Deposited:

04 Mar 2015 12:00

Last Modified:

27 Feb 2020 02:48

URI:

http://repository.unair.ac.id/id/eprint/27928

Sosial Share:

Actions (login required)

View Item