Jumaat, 6 Februari 2009

[Kuliah] Information Retrieval (IR)

Ya Allah, perbaikilah umat Islam
Tarikh Keluaran Artikel: 06022008

IR: Satu ringkasan
Pengumpulan Maklumat (Information Retrieval - IR) adalah salah satu cabang sains didalam menukarkan data kepada informasi didalam satu dokumen agar dapat dicari dengan lebih mudah dan tepat bersesuaian dengan kehendak pengguna. IR ini sering digunakan didalam bidang sains komputer, metematik, sains perpustakaan dan fizik. Namun artikel ini akan menekankan IR didalam bidang sains komputer kerana K sendiri berada didalam bidang ini.

Contoh IR dalam kehidupan
Terdapat banyak aplikasi dan sistem yang menggunakan sistem IR. Sebagai contoh terdekat adalah enjin carian di pelayan internet (internet browser) seperti enjin carian Google dan Yahoo. Kegunaan IR yang lain adalah pengagihan dan pencarian dokumen didalam sesuatu pusat data seperti perpustakaan. Sebagai contoh terdekat, Perpustakaan Negara Malaysia dan Perpustakaan Sultanah Nur Zahirah, Universti Malaysia Terengganu yang menggunakan sistem Katalog Capaian Umum Atas Talian (Online Public Access Catalogue - OPAC).
Index dan metadata
Didalam sesuatu sistem pusat data (database), index adalah cara untuk mempercepatkan dan meningkatkan kebolehan sistem database dalam mencari maklumat yang diperlukan yang terdapat didalam database tersebut. Secara analoginya untuk mencari sesuatu didalam bekas yang besar adalah lebih mudah dengan mengasingkan barangan yang terdapat didalam bekas itu secara terperinci. Terdapat beberapa cara untuk "melabelkan" sesuatu perkara itu berdasarkan jenis subjek. Sebagai contoh IR didalam satu database adalah:
Buku, dokumen dan journal - Semua data akan dilabelkan mengikut tajuk, penulis, tarikh keluaran atau digelar sebagai data-pengkatalogan-dalam-penerbitan yang selalunya dicetak dibelakang tajuk buku seperti contoh, Faisal Tehrani - Saasatul Ibaad. Data-pengkatalogan-dalam-penerbitan ini digunakan untuk membolehkan buku atau dokumen tersebut diletakkan didalam bahagian yang betul untuk memudahkan pengguna mencari.

Gambar - Mutaakhir ini gambar kebanyakannya disimpan didalam bentuk grafik dan bukannya filem seperti dahulu, dan kerana itu juga didalam database mungkin juga terdapat simpanan gambar yang perlu disusun dan diindex. Lazimnya gambar akan menyimpan metadata didalam gambar tersebut secara automatik yang mengandungi data seperti jarak fokus, jenis kamera dan mode yang disimpan didalam EXIF. Contoh EXIF adalah seperti di bawah.

Muzik dan lagu - Seperti gambar dan foto, muzik dan lagu juga kini disimpan didalam bentuk digital yang lebih mudah disimpan. Kerana itu muzik juga perlu dilabelkan. Selalunya format muzik yang popular seperti MP3 dan OGG akan dilabelkan berdasarkan beberapa perkara seperti tajuk, penyanyi, komposer, album dan kulit album. Cara ini perlu untuk mencari kembali lagu tersebut apabila diperlukan dengan mudah tanpa perlu mencari dokumen yang dikehendaki diseluruh database. Sebagai contoh untuk metadata kepada muzik adalah seperti gambar dibawah.

Laman web dan blog - Tidak dinafikan bahawa terdapat terlalu banyak laman web dan juga blog didalam dunia pada zaman kini, soalnya bagaimana untuk mencari informasi yang betul dan bertepatan dengan fakta sebenar adalah satu cabaran kepada enjin carian. Seperti Google dan Yahoo, mereka menggunakan metadata yang diletakkan sendiri oleh pembangun laman tersebut agar dapat dicari dengan mudah oleh pengguna berdasarkan kata kunci.

Methodologi IR
Jika berkata tentang methodologi IR, terdapat beberapa methodologi yang digunakan untuk memastikan pengkatalogan tersebut membantu pengguna dalam carian mereka kelak. Oleh kerana itu, antara methodologi yang digunakan adalah;
  • Ketepatan - anggaran bahawa dokumen tersebut menepati kehendak pengguna, dianggapkan sebagai nilai positif
  • Spesifik - anggaran bahaw dokumen tersebut tidak menepati kehedak pengguna, dianggapkan sebagai nilai negatif
  • Pengulangan - mengira pengulangan kata kunci dinyatakan didalam sesuatu dokumen.
  • Perkiraan-F - sebagai pegimbang antara ketepatan dan pengulangan untuk sesuatu dokument tersebut
Methodologi yang ditulis didalam artikel ini hanya methodologi mudah kerana setiap enjin carian mempunyai cara sendiri dan methodologi sendiri yang lebih kompleks dalam menjadikan enjin carian itu lebih baik kepada pengguna. Disebabkan itu juga dapat dilihat perbezaan antara dua enjin carian (Google dan Yahoo sebagai contoh).

Nota Hujung
Artikel K ini adalah satu artikel yang bukannya boleh dikatakan sebagai satu artikel yang boleh digunakan sebagai rujukan bersifat formal kerana K tidak mempelajari IR secara langsung tetapi hanya secara tidak langsung. Oleh itu terdapat banyak perkara yang tidak tepat didalam artikel ini. Dan penambahbaikan akan sentiasa dilakukan untuk memperbaiki artikel ini. Pada artikel akan datang, mungkin K akan menyentuh tentang bagaimana proses pengakaran perkataan (stemming) berlaku.

Sumber: Wikipedia - Index, Wikipedia - EXIF

Technorati Tags: , ,

Tiada ulasan: