Information Retrieval

Information retrieval (IR) adalah penemuan bahan seperti dokumen yang bersifat terstruktur yang memenuhi kebutuhan informasi dari dalam koleksi besar yang tersimpan di dalam komputer (Manning, Raghavan, & Schütze, 2008). IR merupakan pencarian informasi berkaitan dengan representasi, penyimpanan, pengaturan, dan akses ke item informasi seperti dokumen, halaman Web, katalog online, struktur dan catatan semi-terstruktur, objek multimedia. Representasi dan pengorganisasian item-item informasi harus sedemikian rupa sehingga memberi para pengguna akses mudah ke informasi yang mereka inginkan (Baeza-Yates; & Ribeiro-Neto;, 2011).

IR dilihat dari dua sisi yaitu sisi ilmu komputer dan sisi manusia. Pada ilmu komputer, IR terdiri dari pengembangan indeks yang efisien, pemrosesan query user dengan kecepatan tinggi, dan algoritma rangking untuk meningkatkan hasil. Pada sisi manusia, IR terdiri dari pemahaman tingkah laku user, kebutuhan manusia dan menentukan pemahaman tersebut mempengaruhi organisasi dan operasi dari sistem retrieval (Budiharto, 2016). IR juga dapat memfasilitasi pencarian data dan informasi yang memiliki tipe data unstructured dan semi-structured.

Data unstructured merupakan data yang tidak memiliki model data yang telah ditentukan atau tidak terorganisir dengan cara yang telah ditentukan. Data unstructured biasanya berupa text dokumen, dan mungkin juga berisi data seperti tanggal, angka, dan fakta lainnya. Data unstructured dapat berupa: dokumen teks, email, video, audio, dan data dari sosial media (SAS Insights, 2020). Data semi-structured adalah data yang memiliki skema yang tetap, mempunyai struktur tetapi tidak kaku. Hal ini dikarenakan struktur data tidak dikenal dan data berasal dari sumber berbeda dengan struktur data yang berbeda (Connoly, Thomas; Begg, Carolyn; Strachan, 2003). Karakteristik dari sebuah sistem IR (Russel & Norvig, 2010) adalah

  1. Dokumen korpus, Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage.
  2. Query yang diajukan dalam Query Language, Sebuah query menjelaskan tentang apa yang user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan
  3. Kumpulan hasil, Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai yang relevan dengan query.
  4. Presentasi hasil yang ditetapkan, Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.

Berikut alur proses dari information retrieval.

Gambar 1.1. Proses dari Information Retrieval. (Sumber: (Suhartono, 2013))

Sistem IR sangat bergantung dengan kebutuhan informasi dan sistem index. Berikut arsitektur sistem information retrieval:

Gambar 1.2. Arsitektur Sistem Information Retrieval. (Sumber: (Budiharto, 2016)).

Referensi:

  • Baeza-Yates;, R., & Ribeiro-Neto;, B. (2011). Modern Informations Retrieval (2nd ed.). ACM Books Press.
  • Budiharto, W. (2016). Knowledge and Information Retrieval. Deepublish.
  • Connoly, Thomas; Begg, Carolyn; Strachan, A. (2003). Database Systems : A Practical Approach to Design, Implementation and Management (3rd editio). Addison Wesley.
  • Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval.
  • Russell, S. J., & Norvig, P. (2010). Artificial Intelligence: A Modern Approach (Prentice H). Prentice Hall.
  • SAS Insights. (2020). Big Data What It Is and Why It Matters. Retrieved April 5, 2020, from https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
  • Suhartono, D. (2013). Natural Language Processing. Retrieved April 6, 2020, from https://socs.binus.ac.id/2013/06/22/natural-language-processing/

Penulis: Emny Harna Yossy., S.Kom., M.T.I.