AINLP

Introduction of Natural Languange Processing (NLP)

Apa itu Natural Languange Processing (NLP) ?

Natural language Processing (NLP) adalah cabang ilmu komputer yang berfokus pada interaksi manusia dengan komputer melalui bahasa manusia alami.

NLP merupakan cabang bidang AI yang memberikan komputer kemampuan untuk memahami teks dan kata-kata yang diucapkan oleh manusia yang memiliki kecerdasan linguistik.

NLP menggabungkan prinsip-prinsip dari linguistik komputasional, pengolahan bahasa alami, dan pembelajaran mesin untuk memungkinkan komputer memahami, memproses dan menghasilkan teks atau ucapan serupa dengan cara manusia.

Tujuan NLP

Kemampuan NLP semakin dibutuhkan agar stakeholder, mulai dari organisasi pemerintahan, bisnis, dan perorangan

Tujuan utama NLP adalah untuk mengatasi kompleksitas bahasa manusia dan mengubah teks atau ucapan yang tidak terstruktur menjadi representasi yang dapat diolah oleh komputer. Hal ini melibatkan serangkaian tugas seperti pemrosesan teks, pemahaman bahasa alami, pengenalan entitas, pemodelan bahasa, terjemahan mesin, dan analisis sentimen.

Kemampuan NLP semakin dibutuhkan agar stakeholder, mulai dari organisasi, pemerintahan, bisnis, dan perorangan dapat mengambil insights dari data teks tersebut dan memanfaatkannya untuk pengambilan keputusan yang lebih baik. Data teks semacam ini mengandung informasi berharga yang dapat memberikan wawasan tentang tren, opini publik, prefrensi pelanggan.

NLP juga telah diterapakan dalam berbagai bidang termasuk pencarian web, asisten virtual, analisis sentimen media sosial, penerjemahan otomatis, pengolahan dokumen.

Cara Kerja

Pada dasarnya, NLP bekerja dengan memanfaatkan algoritma dan model statistik untuk menganalisis struktur dan makna dalam teks atau ucapan, metode yang digunakan dalam NLP meliputi tokenisasi (pemisahan teks menjadi unit-unit yang lebih kecil seperti kata atau frasa), analisis sintaksis (menganalisis struktur tata bahasa), analisis semantik (mengidentifikasi makna kata dan kalimat), dan pemodelan statistik ( menggunakan data pelatihan untuk memprediksi dan memahami teks baru)

Tantangan NLP

Tantangan dalam NLP sangat beragam, dari kompleksitas struktur bahasa hingga variasi makna dalam konteks yang berbeda, hal ini mempengaruhi keakuratan dan pemahaman mesin terhadap teks.

  1. Ambiguitas
  2. Slang
  3. Kesalahan pengejaan dan pelafalan
  4. Irony dan sarcasm
  5. Pengetahuan umum
  6. Kreativitas
  7. Training data
  8. Multilingual

Sejarah NLP

  1. Awal riset NLP : Era linguistik komputasional (1940-an)
    • Bidang NLP sudah mulai diriset pada tahun 1940-an setelah perang dunia ke-2. Pada waktu itu, para ilmuwan mulai memahami pentingnya melakukan penerjemahan dari satu bahasa ke bahasa lainnya.
  2. Era tata bahasa dan teks (1950-an s/d 1990-an)
    • Idenya adalah menggunakan aturan dan konsep ontologi.
    • Tahun 1950-an, dilakukan penerjemahan kalimat Rusia ke bahasa Inggris secara otomatis
    • Tahun 1960-an, dikembangkan sistem pemrosesan bahasa alami bernama SHRDLU
    • Tahun 1970-an, programer mulai membuat ontologi konseptual untuk mengorganisir informasi dunia nyata dalam bentuk data komputer
    • Tahun 1980-an dan awal 1990-an, berfokus pada rule-based parsing, morfologi, semantik, dan pemahaman bahasa alami (NLU)
  3. Era statistik (1980-an s/d 1990-an)
    • Ditandai dengan penggunaan algoritma machine learning (ML) dan penekanan pada analisis statistik
    • Akhir Tahun 1980-an, terjadi revolusi dalam NLP dengan diperkenalkannya algoritma ML/
    • Tahun 1990-an, terdapat keberhasilan dalam metode statistik khususnya dalam terjemahan mesin
    • Tahun 2000-an, penelitian semakin fokus pada unsupervised dan semi-supervised dengan adanya ketersediaan data bahasa mentah yang belum diannotasi.
  4. Era deep Learning (2010-sekarang)
    • Pada tahun 2010-an terjadi kebangkitan pendekatan berbasis neural network (NN) dalam NLP.
    • Kemampuan NN untuk mengatasi kompleksitas dan variasi bahasa manusia menjadi penekanan utama.
    • Penggunaan data besar dan komputasi yang canggih membantu kemajuan dalam penggunaan NN dalam NLP.

Trend dalam penerapan NLP

Penerapan NLP yang populer secara global

  • Google translate
  • Grammarly
  • Amazon Alexa
  • Chatgpt
  • Dualingo

Penerapan NLP yang populer di Indonesia:

  • Analisis sentiment saat mendekati periode pemilu
  • Virtual assistant pada aplikasi yang dapat menangani aspek customer service sampai troubleshooting
  • Pengkategorian jenis topik di media berita

Trend riset NLP

Dalam pengembangan model-model NLP terbaru ada dua konsep yang sangat penting dan populer, yaitu attention mechanism dan pretrained languange. Kedua konsep ini telah menjadi tren utama dalam menciptakana model-model NLP terkini yang menghasilkan kinerja yang sangat baik.

Kaidah Dasar dalam NLP

Text Preprocessing

Data modeling

Jenis Task NLP

Secara umum taks NLP dibagi menjadi Natural languange understanding (NLU) dan natural languange generation (NLG)

  • NLU berfokus pada analisis teks untuk mengekstrak informasi, mengenali entitas, mengindetifikasi tujuan, mengekstrak sentimen, memahami sintaksis, dan memodelkan wacana
  • NLG berfokus pada menghasilkan sebuah teks. Output dari NLG dapat berupa teks lengkap, ringkasan, dialog, cerita, atau konten bahasa alami lainnya.

Aspek dasar dalam ilmu linguistik

Linguistik adalah ilmu yang melibatkan arti bahasa, konteks bahasa, dan berbagai bentuk bahasa. Oleh karena itu, penting untuk memahami berbagai terminologi penting pada linguistik dan tingkatannya yang berbeda agar ketika melakukan NLP, hasilnya dapat lebih baik dan akurat.

Istilah dalam ilmu linguistik yang penting pada NLU:

  1. Fonologi
    • Mempelajarai suara-suara bahasa dan cara mereka diatur. Contohnya bagaimana bunyi “b” berbeda dengan bunyi “p”
  2. Morfologi
    • Mempelajari struktur kata-kata dalam bahasa. Contohnya, bagaimana kata-kata dibentuk oleh bagian-bagian kecil seperti awalan, akar kata dan akhiran.
  3. Leksikal
    • Mempelajari arti kata-kata dalam bahasa. Contohnya memahami makna kata-kata secara individu tanpa mempertimbangkan kalimat keseluruhan.
  4. Sintaksis
    • Mempelajari tata bahasa dan bagaimana kata-kata diatur dalam kalimat. Contohnya bagaimana kata-kata dihubungkan satu sama lain untuk membentuk kalimat yang bermakna
  5. Semantik
    • Mempelajari makna dalam bahasa. Contohnya memahami makna kata-kata, frasa, dan kalimat serta hubungan antara mereka.
  6. Wacana
    • Mempelajari bagaimana kalimat-kalimat membentuk teks atau percakapan yang lebih besar. Contohnya bagaimana kalimat-kalimat salit terkait dan membentuk makna yang lebih kompleks
  7. Pragmatik
    • Mempelajari penggunaan bahasa dalam konteks sosial. Contohnya memahami bagaimana makna dipengaruhi oleh konteks, tujuan komunikasi dan pengetahuan latar belakang.

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
Index