Cambridge English Corpus yang memuat miliaran kata tersebut merupakan catatan yang di-update secara terus menerus tentang bagaimana bahasa Inggris digunakan sekarang ini dalam semua bentuknya—lisan, tulisan, bisnis, akademi, pelajar dan e-language. Dikumpulkan selama lebih dari dua dekade, database elektronik tersebut berasal dari berbagai sumber mulai dari yang paling banyak dicari (buku-buku, srurat kabar, jurnal, radio, televisi) hingga yang paling mengejutkan (lirik lagu, junk mail, pesan suara dan rekaman dari flight control).
Para peneliti Cambridge University Press menggunakan korpus tersebut untuk meng-investigasi kata-kata yang paling umum, frasa-frasa dan tata bahasa dalam bahasa Inggris, dan kemudian menggunakan hasil-hasil investigasi tersebut untuk memperbaiki buku-buku pelajaran bahasa Inggris.
“Konteks dalam bahasa Inggris itu penting,” kata Dr. Claire Dembry, Direktur Penelitian Bahasa, “kami menganalisis pola-pola dalam bahasa dan bagaimana bahasa Inggris berubah tergantung pada konteks dan keadaan. Bagi pelajar bahasa Inggris untuk menjadi mahir, adanya berbagai perbedaan yang subtil ini bisa jadi sangat penting, dan hanya dengan cara mengumpulkan sejumlah besar contoh para penulis, ahli leksikografi dan peneliti kami bisa menentukan cara terbaik dalam menggambarkan pola-pola bahasa Inggris dalam materi pelajaran kami.”
Itu semua dimulai tahun 1990-an, ketika beberapa CD dari surat kabar-surat kabar Amerika dalam bentuk elektronik dimuat ke dalam database yang menyimpan data dan sekaligus ‘mempertanyakan’ data tersebut, membahas hubungan antarkata. Perlahan, embrio dari korpus tersebut meluas dengan materi yang lebih lengkap dan, sekarang ini, hampir semua bentuk-bentuk bahasa Inggris yang bisa Anda bayangkan bisa ditemukan di dalam database tersebut.
Pad tahap awal, Cambridge University Press menyadari bahwa hal yang sama pentingnya dengan mengetahui bagaimana bahasa Inggirs digunakan saat ini, adalah pengetahuan akan fitur-fitur bahasa Inggris yang dirasa sulit oleh para pembelajar bahasa tersebut. “Keputusan ini yang akhirnya bermuara pada terbitnya Cambridge Learner Corpus, mempunyai efek yang luas dan mungkin telah menjadi nilai jual unik yang paling penting bagi penerbitan Pengajaran Bahasa Inggris bagi Press,” kata Ann Fiddes, Manajer Global Language Research.
Terbukti kata-kata seperti because (yang disalahejakan menjadi becouse), which (wich), accommodation (accomodation), advertisement (advertisment) dan beautiful (beatiful) adalah lima kata teratas yang paling banyak disalahejakan oleh pelajar bahasa Inggris secara global.
Untuk tiba pada kesimpulan seperti ini telah dilakukan proses identifikasi yang telaten selama bertahun-tahun (dan bergumul dengan kode-kode komputer yang memungkinkan untuk dibaca) tentang kesalahan eja dan kesalahan tata bahasa yang dibuat dalam Cambridge English Language Assessment Examinations dalam Cambridge Learner Corpus tersebut.
Informasi komprehensif tentang pelajar yang jawaban ujiannya digunakan untuk penelitian ini—bahasa pertama, kebangsaan, usia, jenis kelamin, nilai, dan lain sebagainya—disimpan. Data-data ini, dan ‘penandaan kesalahan’, telah memungkinkan Cambridge University Press menerbitkan material-material yang secara langsung membahas jenis-jenis kesalahan yang berbeda dari setiap individu dan setiap kelompok-kelompok bahasa.
“Hal ini sangat penting bagi Press dan bisa berarti bahwa kami telah, sebagai contoh, berhasil menerbitkan edisi Bahasa Inggris bagi pembicara bahasa Spanyol dari sebagai produk global, dan menjadi pemimpin pasar dalam bidang penerbitan berbasis Corpus,” kata Fiddes.
Kini, Cambridge University Press dan Cambridge English Language Assessment telah bergabung dengan dan menentukan pandangan mereka terhadap bahasa Inggris akademik.
Cambridge English Corpus tersebut sudah berisikan lebih dari 400 juta kata bahasa Ingggris akademik—koleksi yang paling luas dan paling ekstensif dari jenisnya. Sumbernya diambil dari bahasa Inggris akademik lisan maupun tulisan pada level sarjana, pasca sarjana dan level profesional dari berbagai disiplin ilmu dan dari berbagai institusi di seluruh dunia. Penelitian terbaru kini sedang mengambil data dari siswa sekolah menengah (sixth-form students) dan juga dari disiplin ilmu, genre, dan latar belakang bahasa yang lebih luas.
“Sebagian bentuk-bentuk yang menarik sudah muncul,” kata Fiddes. “Dalam sampel-sampel bahasa Inggris akademik koleksi kami, kata sifat significant, considerable, substantial dan serious lebih sering dijumpai dibandingkan big, massive, enormous dan tremendous. Dalam bahasa Inggris percakapan, akan tetapi, kata big berada di urutan pertama. Kami juga menemukan bahwa dalam bahasa Inggris akademik, verbs seperti solve, pose, face, resolve, tackle dan circumvent sering ditemukan befungsi sebagai noun (kata benda). Pemahaman akan hal-hal seperti ini membantu kami mengembangkan pemahaman yang lebih baik tentang kemahiran bahasa yang diperlukan oleh mahasiswa pada universitas-universitas yang menggunakan bahasa Inggris sebagai bahasa pengantar.
Sebagai bagian dari penelitian mereka yang terbaru, tim tersebut menerima kontribusi bahasa Inggris akademik untuk korpus tersebut dan mengundang siapa saja yang tertarik untuk berpartisipasi agar menghubungi mereka untuk mendapat keterangan lebih lanjut. (www.cambridge.org/camcae).
“Corpus ini sangat berhubungan erat dengan kemajuan-kemajuan dalam bidang teknologi dan kami kini sedang mempelajari kemungkinan untuk mengotomatisasi sistem manual kami, seperti error tagging (penandaan kesalahan) dan transkripsi wicara,” kata Fiddes. “Penelitian kami telah memungkinkan kami untuk secara sebagian mengotomatisasi penanda kesalahan dalam tulisan para pelajar.
“Teknologi ini akan menambah kecepatan kita dalam mempertahankan pemahaman kita akan bahasa Inggris sekarang ini, dan dan bagaimana bentuknya nanti di masa yang akan datang.
Untuk informasi lebih lanjut tentang Cambridge English Corpus, silakan kunjungi www.cambridge.org/corpus
http://www.cam.ac.uk/research/features/what-is-english
0 comments:
Post a Comment