Evaluasi dan Klasifikasi Penggunaan Sintaks
dalam Menentukan Persamaan Semantik Teks Pendek
Makalah ini menguraikan dan mengkategorikan cara menggunakan informasi sintaksis di sejumlah algoritma untuk menentukan kesamaan semantik teks pendek. Kami mempertimbangkan penggunaan informasi pesanan kata, pemberian label part-of-speech, pelabelan parsing dan peran semantik. Kami menganalisis dan mengevaluasi efek penggunaan sintaks pada algoritma
kinerja dengan memanfaatkan hasil tes deteksi parafrase pada Research Paraphrase Corpus Microsoft. Kami juga mengusulkan klasifikasi algoritma baru berdasarkan penerapannya pada bahasa dengan alat pemrosesan bahasa alami yang langka.
pengolahan bahasa alami, MSRPC, parsing, penandaan part-of-speech, pelabelan peran semantik, kesamaan semantik shorttext, sintaks, urutan kata.
I. PENDAHULUAN
MEMERIKSA kesamaan semantik teks pendek adalah proses di mana nilai diberikan pada teks yang diberikan sesuai dengan tingkat keterkaitan semantik.
diantara mereka. Sistem persamaan semantik teks pendek (STSS) umumnya memberikan skor antara nol dan satu, di mana nol mewakili semimilitude semantik total,
dan satu kesetaraan semantik total. Kesamaan semantik teks pendek sangat penting karena teks pendek banyak digunakan saat ini dalam bentuk pencarian
kueri dan hasil mesin, berita utama dan cuplikan, komentar di berbagai jejaring sosial, dll.
Ada beberapa masalah pengolahan bahasa alami (NLP) yang bergantung pada penggunaan beberapa ukuran kesamaan semantik teks. Masalah seperti itu termasuk teks
summarization dan klasifikasi, menjawab pertanyaan, pencarian informasi, dll. Dalam ringkasan teks pilihan kalimat yang akan disertakan dalam ringkasan sangat penting.
Selama proses itu, terutama saat membuat ringkasan berdasarkan beberapa dokumen, penting untuk menghindari pemungutan kalimat yang berisi informasi yang sama dengan salah satu kalimat yang sudah dipilih [1]. Dalam pencarian informasi atau sistem penjawab pertanyaan, sering terjadi bahwa query terdiri dari informasi yang ditulis dengan cara yang berbeda dari yang digunakan dalam dokumen yang memegang jawabannya. Dengan memperhitungkan variasi ini, peningkatan kinerja yang signifikan dapat dicapai [2].
Ada dua cara utama untuk menentukan kesamaan semantik: pendekatan statistik, yang didasarkan pada penggunaan teks corpora, dan pendekatan topologi, berdasarkan pada penggunaan pengetahuan ahli. Metode statistik bergantung pada hipotesis distribusi yang menurutinya kata-kata dengan makna serupa cenderung muncul dalam konteks yang sama [3].
Dengan menerapkan hipotesis ini ke sebuah teks besar corpus, adalah mungkin untuk menciptakan ruang semantik yang menentukan berapa kali setiap kata muncul dalam setiap konteks. Konteks biasanya berupa kata lain yang kedekatannya dengan kata yang diamati muncul atau dokumen. Melalui proses ini setiap kata secara efektif menetapkan vektor konteksnya sendiri yang memungkinkan untuk membandingkan makna kata dengan membandingkan masing-masing vektor konteksnya. Keuntungan utama dari metode statistik terletak pada kenyataan bahwa satu-satunya sumber daya yang dibutuhkan untuk menciptakan ruang semantik adalah teks corpus yang tidak disebutkan dalam bahasa yang diinginkan.
Dalam pendekatan topologi, tingkat kesamaan semantik antara dua kata ditentukan dengan menggunakan basis pengetahuan buatan manusia, mis. yang WordNet [4]. Karena ini
Sumber daya diciptakan dengan menggunakan pengetahuan ahli manusia, mereka dapat memodelkan tingkat keterkaitan semantik dengan cukup berhasil, bila digabungkan dengan metrik jarak yang sesuai. Kelemahan utama mereka adalah kerja keras yang diperlukan untuk membangunnya.
Sisa dari makalah ini disusun sebagai berikut: Pertama-tama, kami memberikan gambaran umum tentang berbagai jenis informasi sintaksis yang dapat digunakan oleh sistem STSS, dan juga
alat yang digunakan untuk mendapatkannya. Kami kemudian menguraikan berbagai algoritma STSS dan cara masing-masing menggunakan informasi sintaksis. Setelah itu kami sampaikan sebuah evaluasi dari kata tersebut
algoritma dan karakteristik mereka dan kami mengusulkan klasifikasi algoritma baru berdasarkan penerapannya pada bahasa dengan alat NLP yang langka. Akhirnya, kami menyarankan beberapa kemungkinan jalan penelitian masa depan
II. INFORMASI SYNTACTIC DAN ALAT PENGOLAHAN SYNTAX
Informasi sintaksis paling dasar yang didapat dari teks adalah urutan kata-kata muncul di dalamnya. Tidak ada alat khusus bahasa yang diperlukan untuk memanfaatkan data pesanan kata, sehingga jenis informasi ini mudah diakses dalam segala situasi.
Jenis informasi sintaksis yang paling sering digunakan adalah tag part-of-speech (POS), yang dihasilkan oleh penutur part-of-speech bahasa tertentu (misalnya penukar POS bahasa Inggris biasanya dapat membedakan antara 36 bagian pembicaraan yang berbeda yang didefinisikan di Penn Proyek Treebank [5]). Penugasan tepat dari tag POS mewakili masalah klasifikasi, oleh karena itu penantang POS biasanya dibuat dengan menerapkan metode pembelajaran mesin yang diawasi pada teks korpus yang sebelumnya telah diberi catatan dengan tag POS yang benar. Penanda POS modern mencapai akurasi yang sangat tinggi (sekitar 97%) [6], menjadikannya alat bahasa yang sangat diperlukan yang digunakan oleh semua teknik analisis sintaksis lanjutan.
Penguraian dangkal atau chunking adalah proses yang mengidentifikasi konstituen dalam sebuah kalimat, mis. kelompok kata benda, kata kerja, kelompok kata kerja, dll. Namun, penguraian dangkal tidak menentukan struktur internal konstituen ini, juga tidak menentukan peran mereka dalam kalimat tersebut. Parsers penuh, sebaliknya, menghasilkan representasi struktur kalimat, biasanya berbentuk pohon parse berbasis konstituensi atau ketergantungan. Mirip dengan penukar POS, sebagian besar parser modern adalah statistik, yaitu mereka menggunakan teknik pembelajaran mesin dalam hubungannya dengan korpus pelatihan data parsel tangan. Inilah alasan mengapa parser untuk bahasa yang berbeda harus dibuat secara terpisah, yang merupakan usaha yang lebih besar daripada pembuatan tag penanda POS karena penguraian manual kalimat adalah proses yang lamban dan sulit. Parser statistik terbaik mencapai tingkat akurasi yang baik sekitar 91% [7], namun masih menghasilkan lebih banyak kesalahan daripada penambah POS.
Metode paling maju untuk mendapatkan informasi sintaksis adalah analisis semantik sintaksis yang disebut Semantic Role Labeling (SRL). SRL dapat dipandang sebagai bentuk penguraian yang lebih kompleks dimana label diberikan kepada konstituen sesuai dengan peran mereka dalam kalimat tersebut. Oleh karena itu, modul SRL mampu menyimpulkan kata-kata mana yang mewakili subjek, objek, kata kerja utama, dan sebagainya. Daya tarik SRL terletak pada tingkat informasi yang sangat tinggi. Meskipun demikian, kinerja TI mutakhir tetap jauh lebih rendah daripada parser dan penambah POS, berkisar antara 70% dan 90%, tergantung pada korpus pelatihan / pengujian yang digunakan dan prosedur evaluasi [8].
III. ALGORITMA SIMILARITASI STATISTIK
Mihalcea dkk. [9] mengusulkan metode dasar STSS umum di mana mereka menguji beberapa algoritma kesamaan word-to-word. Dua di antaranya menggunakan teknik statistik: PMI-IR (Informasi Saling Berpihak Pointwise - Information Retrieval) dan LSA (Latent Semantic Analysis). Dalam kasus PMI-IR Mihalcea et al. menggunakan isi indeks mesin pencari AltaVista sebagai korpus pelatihan, sedangkan untuk LSA mereka menggunakan British National Corpus yang berisi sekitar 100 juta kata. Metode mereka membandingkan teks dalam bentuk kata-kata dengan menemukan kata yang paling mirip dalam teks kedua untuk setiap kata dari kata pertama dan sebaliknya. Selama proses ini, sistem menggunakan tag POS untuk mencegah kata-kata dengan berbagai bagian ucapan dipasangkan.
Islam dan Inkpen [10] juga merancang metode mereka di sekitar prinsip tas-of-kata, tapi keduanya menyertakan metrik kesamaan string, dan memilih varian yang berbeda dari algoritma PMI, yang disebut SOC-PMI (PMI Orde Kedua), yang diterapkan di British National Corpus. Mereka bereksperimen dengan informasi sintaksis dasar dalam bentuk tatanan kata umum dalam dua teks. Furlan dkk. [11] menganggap versi modifikasi dari pendekatan Islam dan Inkpen di mana algoritma COALS (Correlated Occupence Analogue to Lexical Semantics), dilatih mengenai sebuah korpus abstrak artikel dari Wikipedia bahasa Inggris, digunakan sebagai pengganti SOC-PMI.
Lintean dan Rus [12] mengusulkan pendekatan tas-kata-kata berdasarkan kata-kata yang serakah. Di dalamnya, algoritma LSA dilatih pada korpus TASA yang berisi lebih dari 10 juta kata. Metode mereka menggunakan tag POS dengan nada yang sama seperti [9], namun mereka juga menganggap bentuk pembatasan ini lebih lemah, di mana mereka hanya menggunakan kelas kata dasar, seperti kata kerja, bukan kategori yang lebih spesifik seperti infinitives, participle, past tenses , dll.
Blacoe dan Lapata menciptakan model memori distributional (DM) yang mengandalkan tuple word-link-word tertimbang yang disusun menjadi tensor orde ketiga. Matriks yang berbeda dapat diekstraksi dari tensor semacam itu, menciptakan ruang semantik yang berbeda yang sesuai untuk berbagai masalah. Sebuah tagger POS dan parser dependensi diperlukan untuk konstruksi model ini. Blacoe dan Lapata menggabungkan beberapa perusahaan besar, termasuk British National Corpus dan versi bahasa Inggris dari Wikipedia, berjumlah lebih dari tiga miliar kata. Selain itu, mereka menganggap pendekatan yang lebih sederhana yang disebut SDS (Simple Distributional Semantic Space) yang diciptakan melalui penerapan langsung semantik distribusi di British National Corpus. Berbeda dengan model DM, SDS tidak menggunakan informasi sintaksis atau preprocessing teks.
IV. ALGORITMA SIMILARITASI TOPOLOGI
Mihalcea dkk. [9] juga menguji pendekatan STSS mereka bersamaan dengan enam algoritma yang bergantung pada WordNet sebagai basis pengetahuan. Algoritma ini berbeda di antara mereka sendiri dengan metrik khusus yang digunakan untuk menentukan jarak semilom word-to-word. Apalagi Mihalcea et al. menggabungkan semua ukuran kesamaan topologi dan statistik dan mengevaluasi kinerja bersama mereka.
Fernando dan Stevenson [14] memeriksa enam metrik WordNet yang sama pada model tas-kata-kata di mana semua kata-kata kata kesamaan diperhitungkan. Karena sebagian besar ukuran WordNet hanya dapat membandingkan arti kata-kata yang termasuk dalam kelas kata yang sama, tagger POS digunakan dengan cara yang mirip dengan [9].
Selain varian yang menggunakan algoritma LSA, Lintean dan Rus [12] juga bereksperimen dengan lima metrik WordNet pada model yang sama, memanfaatkan informasi POS dengan cara yang sudah dijelaskan.
Liu dkk. [15] merumuskan suatu metode yang menggabungkan ukuran jarak semantik berdasarkan pengetahuan WordNet dengan koefisien korelasi kesamaan urutan kata.
Koefisien ini dihitung antara vektor kata-indeks asli dan relatif dari kalimat yang diberikan.
Ramage dkk. [16] memperkenalkan model STSS di mana dua tas kata tidak dibandingkan secara langsung. Apa yang dibandingkan adalah distribusi yang disebabkan oleh setiap teks saat digunakan sebagai benih berjalan acak di atas grafik yang dibuat dengan menggunakan statistik WordNet dan korpus. Tag POS digunakan baik sebagai bagian integral dari proses konstruksi grafik dan dalam menentukan distribusi awal di atas ruang negara untuk teks singkat tertentu.
Li et al. [17] merancang pendekatan mereka di sekitar metode penguraian dangkal yang memecah kalimat menjadi kata benda, kata kerja dan frase preposisi. Perbandingan semantik kalimat dilakukan dengan membandingkan makna antara konstituen masing-masing dan kemudian menggabungkan kesamaan dari tiga jenis frasa. Arti kata individu diperoleh dari WordNet, menggunakan pendekatan yang sama seperti yang ada di [15].
Lee et al. [18] menciptakan mekanisme pemrosesan sintaksis yang bergantung pada daftar dependensi yang diketik yang dihasilkan oleh parser. Metode mereka mengubah daftar ini menjadi seperangkat pola sintaksis subjek-subjek, sehingga melakukan pelabelan semantik dasar. Set ini kemudian dibandingkan antara teks pendek yang diberikan dengan membandingkan bagian-bagian yang sesuai dari setiap pasangan pola. Proses ini dilakukan dengan menggunakan tidak hanya ukuran semantik berbasis WordNet, tapi juga metrik kesamaan string.
Furlan dkk. [11] mengusulkan sebuah algoritma yang mengandalkan jaringan semantik ConceptNet sebagai basis pengetahuannya. Mereka menggunakan mekanisme SRL yang mampu mengekstrak objek subjek tupel dari kalimat tertentu.
Oliva dkk. [19] mempertimbangkan beberapa metrik WordNet untuk menghitung kata demi kata kesamaan dan untuk sebagian besar dari mereka mereka menggunakan tagger POS untuk alasan yang sama seperti [9] dan [14]. Namun, model SyMSS Oliva dkk. secara signifikan lebih kompleks karena melakukan ketergantungan bersama yang dalam - sintaksis dan analisis semantik dari teks yang diberikan. Begitu informasi sintaksis diproses, pasangan model menyusun kata-kata yang memiliki fungsi sintaksis yang sama dan membandingkannya pada tingkat semantik. SyMSS juga menurunkan skor kemiripan akhir dalam kasus di mana satu kalimat mengandung struktur sintaksis tertentu yang tidak ada pada objek lainnya, yaitu ketika objek tidak langsung hanya muncul dalam satu kalimat dan bukan kalimat lainnya.
V. EVALUASI DAN KLASIFIKASI
Hasil dari semua algoritma yang dijelaskan, diurutkan sesuai dengan tingkat keakuratannya, ditampilkan pada Tabel 1. Jika beberapa variasi dari pendekatan dasar ditawarkan, opsi terbaik berkinerja dipilih. Selain itu, kami telah menandai jenis informasi / alat sintaksis yang digunakan masing-masing metode. Perlu dicatat bahwa penanda ini hanya berkaitan dengan algoritma STSS sendiri - parser, misalnya, tidak dapat berfungsi tanpa informasi paruh bicara, namun jika model STSS menggunakannya tidak secara eksplisit menggunakan tag POS dengan cara lain, maka hanya kolom Parsing yang berisi spidol.
Kinerja algoritma dievaluasi pada tes deteksi parafrase dengan menggunakan Microsoft Research Paraphrase Corpus (MSRPC) [20]. Korpus ini terdiri dari 5801 pasang kalimat yang semuanya setidaknya berhubungan secara semantis, namun hanya sebagian yang merupakan parafrase sejati yaitu pasangan yang setara secara semantis. Seluruh korpus diberi catatan dengan nilai kesamaan biner yang menentukan apakah pasangan kalimat mewakili parafrase atau tidak. Tugas algoritma STSS adalah mencoba mencocokkan skor kalimat-pasangan yang diberikan oleh annotator manusia. Karena kesepakatan antar-penilai rata-rata di antara hakim manusia adalah 83%, ini merupakan batas atas untuk kinerja sistem STSS.
Ukuran kinerja algoritma utama adalah akurasi, dihitung sebagai rasio pasangan kalimat yang diklasifikasikan dengan benar dan jumlah total pasangan di korpus. Beberapa metrik lain yang sering digunakan meliputi: presisi, yang mewakili rasio dari parafrase yang diidentifikasi dengan benar dan jumlah pasangan diklasifikasikan sebagai parafrase oleh sistem; ingat, dihitung sebagai rasio dari parafrase yang diidentifikasi dengan benar dan jumlah jumlah parafrase di korpus; dan ukuran F yang merupakan presisi presisi dan recall yang harmonis.
Mengingat ketersediaan alat NLP berbeda dari satu bahasa ke bahasa lainnya, dan bahwa dalam kasus bahasa kecil banyak alat canggih seringkali tidak ada, jelas bahwa penerapan pendekatan STSS sangat bergantung pada informasi sintaksis yang digunakannya. . Inilah sebabnya mengapa pada Tabel 1 kami mengusulkan klasifikasi algoritma STSS yang baru ke dalam tiga jenis - D, W dan L - sesuai dengan penerapannya pada bahasa dengan alat NLP yang langka.
Algoritma tipe-D adalah yang langsung berlaku untuk semua bahasa karena tidak memerlukan alat sintaksis bahasa tertentu. Algoritma W-type adalah yang memiliki penerapan yang luas ke banyak bahasa karena satu-satunya tool sintaksis bahasa yang mereka gunakan adalah tagger POS, yang merupakan jenis alat pengolah sintaksis yang paling dasar dan paling umum. Akhirnya, algoritma tipe-L adalah yang memiliki penerapan terbatas karena mengandalkan metode analisis sintaksis lanjutan, seperti pelabelan parsing dan label semantik, yang hanya tersedia dalam sejumlah kecil bahasa. Perlu dicatat bahwa, selain masalah penggunaan sintaksis, pendekatan kesamaan topologi harus berurusan dengan masalah terpisah untuk menemukan basis pengetahuan yang sesuai (paling sering dalam bentuk WordNet) dalam bahasa yang diinginkan.
Dapat dilihat bahwa jumlah algoritma tipe D agak rendah, dan kebanyakan menggunakan prinsip kesamaan statistik. Algoritma W-type adalah yang paling luas. Berbeda dengan metode tipe-D, algoritma tipe L biasanya berpusat pada teknik topologi. Semua pendekatan W-type yang lebih baru melakukan hal yang sama atau lebih baik dari tipe D, yang diharapkan karena mereka memiliki lebih banyak data dalam bentuk tag POS. Namun, menarik untuk dicatat bahwa, setidaknya dalam kategori kesamaan topologi, metode tipe W mengungguli bahkan tipe L, yang memanfaatkan informasi sintaksis yang lebih dalam. Salah satu alasan utama perbedaan ini terletak pada kenyataan bahwa alat sintaksis tingkat lanjut menghasilkan kesalahan yang jauh lebih banyak daripada penukar POS yang lebih sederhana, yang menyebabkan ketidakakuratan dalam penilaian STSS.
Algoritma D-type berperforma terbaik adalah pendekatan topologi yang disarankan oleh Liu etal. [15]. Di antara algoritma statistik model tipe D terbaik adalah Blacoe dan Lapata's Simple Distributional Semantic Space [13]. Metode Islam dan Inkpen [10] dekat dengannya, meskipun masuknya informasi pesanan bersama ke dalam bukunya
Kesamaan skor sebenarnya mengarah ke hasil yang sedikit lebih buruk. Meski dengan pendekatan statistik yang diajukan oleh Furlan et al. [11] sangat mirip dengan yang ada di [10], korpus yang digunakan untuk melatih algoritma COALS agak kecil, oleh karena itu hasilnya tidak mengejutkan.
Lintean dan Rus [12] menawarkan algoritma W-type terbaik, yang juga merupakan pendekatan berkinerja terbaik pada umumnya, mencapai tingkat akurasi dan F-measure tertinggi. Selain itu, penerapan metrik LSA mereka lebih baik daripada upaya sebelumnya untuk menggunakannya. Disimpulkan bahwa pilihan antara membandingkan hanya kata-kata tersebut dengan bagian pembicaraan yang persis sama dan memungkinkan perbandingan antara kelas kata yang lebih luas bergantung pada tugas yang dimaksud. Secara khusus, hasil yang lebih baik pada tes pendeteksian parafrasa dicapai dengan menerapkan pembatasan yang lebih ketat, sehingga memanfaatkan informasi POS tambahan.
Algoritma topologi W-type umumnya berkinerja lebih baik daripada statistik. Meskipun pilihan metrik WordNet untuk digunakan dalam pendekatan topologi bergantung pada berbagai faktor, dua metrik menonjol - JCN, yang menghasilkan hasil optimal pada [14] dan [19] dan hasil terbaik kedua di [12 ], dan LCH, yang
menyelesaikan tingkat kinerja mutakhir dalam hubungannya dengan [12] dan hasil terbaik kedua di [14]. Pendekatan yang lebih lawas, seperti [9], mencapai hasil maksimal dengan menggabungkan semua metrik WordNet dengan metode kesamaan statistik. Namun, sistem ini memerlukan penggunaan delapan ukuran yang berbeda, yang membuatnya tidak efisien secara komputasi.
Kebanyakan algoritma L-type masuk dalam kategori topologi, namun Blacoe dan Lapata [13] menciptakan model memori distribusi statistik yang mengungguli mereka. Namun, metode L-type state-of-the-art ini hanya sedikit lebih baik daripada pendekatan SDS yang lebih sederhana yang diusulkan di kertas yang sama, yang membuat kasus yang kuat untuk algoritma tipe-D. Selanjutnya, model tipe-D sederhana dari Liu dkk. [15] mengalahkan semua solusi tipe-L dalam hal akurasi dan ukuran F.
Wiemer-Hastings [21] menunjukkan bahwa peringkat kesamaan manusia sangat dipengaruhi oleh kemiripan kata kerja, namun kurang oleh kesamaan subjek dan objek. Sebagian besar algoritma tipe L mencoba memanfaatkan temuan ini dan berhasil memperbaiki keakuratan sistem dengan menetapkan bobot yang berbeda pada persamaan dari konstituen yang berbeda. Metode Li etal. [17] mencapai hasil terbaik jika bobot yang sedikit lebih besar diberikan pada kata kerja dan frase kata benda daripada frase preposisi. Kinerja model SyMSS Oliva etal. [19] meningkat jika pembobotan sesuai peran semantik diterapkan, dengan kata kerja membawa bobot, subjek dan objek yang paling kecil, sementara pelengkap adverbia dan peran lainnya diberi nilai lebih rendah. Pendekatan topologi Furlan dkk. [11] mencapai tingkat akurasi maksimal dengan memberi kata kerja empat kali lebih besar daripada yang digunakan untuk subjek dan objek. Namun demikian, metode ini berkinerja buruk dibandingkan dengan algoritma statistik yang disajikan dalam makalah yang sama karena banyak subjek dan objek terdiri dari kata benda yang tepat yang tidak dapat ditemukan dalam basis pengetahuan ConceptNet, yang secara efektif membuat penyusun tersebut tidak relevan dalam perhitungan nilai kemiripan. Meski model Lee et al. [18] Pada prinsipnya, juga mampu memanfaatkan bauran subjek-kata kerja, efek teknik ini pada sistem belum dieksplorasi.
VI. KESIMPULAN
Analisis menunjukkan bahwa kinerja state-of-the-art saat ini dicapai dengan menggunakan tag POS bersamaan dengan ukuran kesamaan topologi. Pendekatan yang tidak menggunakan informasi sintaksis mengorbankan tingkat akurasi untuk kesederhanaan dan penerapan yang lebih luas, sedangkan algoritma yang memanfaatkan informasi sintaksis dalam masih terhambat oleh ketepatan alat pengolahan sintaksis yang tidak mencukupi.
Masalah ini bisa diatasi dengan mengandalkan alat sintaksis sederhana sambil menganalisis konsekuensi yang lebih dalam dari hasilnya. Banyak algoritma yang ada menggunakan penukar POS baik sebagai alat preprocessing untuk teknik analisis yang lebih maju, atau untuk mencegah kata-kata dengan berbagai bagian ucapan dibandingkan. Namun, walaupun beberapa makalah telah menunjukkan bahwa akurasi STSS meningkat dengan mempertimbangkan perbedaan alami yang penting antara berbagai unsur penyusun ([11], [17], [19]), namun sejauh ini metode sejauh ini mempertimbangkan untuk mengambil keuntungan dari perbedaan ini. di tingkat POS.
Menugaskan bobot yang berbeda dengan kesamaan berbagai bagian pembicaraan akan memanfaatkan perbedaan kepentingan ini. Serentak, mengingat tingginya akurasi penanda POS, hal itu akan menghindari hukuman kinerja yang dihasilkan oleh alat sintaksis yang kompleks. Pendekatan seperti itu, terutama bila dikombinasikan dengan algoritma kesamaan statistik, akan memungkinkan terciptanya sistem STSS dengan akurasi tinggi dan penerapan yang luas terhadap bahasa dengan sumber daya NLP terbatas.