Kontentke ótiw

Google Books Ngram Viewer

Wikipedia — erkin enciklopediya
Ngram sorawınıń mısalı

Google Books Ngram Viewer — bul Googledıń inglis, qıtay (ápiwayılastırılǵan), francuz, nemis, ivrit, italyan, orıs yamasa ispan tillerindegi tekst korpuslarında[1][2] 1500-2022-jıllar aralıǵında basıp shıǵarılǵan dereklerde ushırasatuǵın n-grammalardıń jıllıq sanın qollanıp, hár qanday izlew dizbekleri toplamınıń jıyiligin kórsetetuǵın onlayn izlew sisteması[3][4]. Sonday-aq, amerikan inglis, britan inglis hám inglis kórkem ádebiyatı sıyaqlı ayırım qánigelestirilgen inglis korpusları da bar[5].

Baǵdarlama sózdi yamasa sóz dizbegin, sonıń ishinde qáte jazılǵan sózlerdi yamasa túsiniksiz sózlerdi izley aladı. N-grammalar tańlanǵan korpus ishindegi tekstke sáykeslendiriledi hám eger 40 yamasa onnan da kóp kitapta tabılsa, grafik túrinde kórsetiledi. Google Books Ngram Viewer sóz shaqapları hám almastırıw belgileri boyınsha izlewdi qollap-quwatlaydı. Ol izertlewlerde turaqlı túrde qollanıladı.

Tariyxı

Islep shıǵıw processlerinde Google Garvardtıń eki izertlewshisi Jan-Batist Mishel hám Erez Liberman Ayden menen birlesip, 2010-jıl 16-dekabrde baǵdarlamanı únsiz iske qostı[6]. Shıǵarılıwdan aldın, bul maqset ushın dúzilgen maǵlıwmatlar bazasınıń joqlıǵı sebepli lingvistikalıq ózgeris tezisin sanlıq bahalaw qıyın boldı, - dedi sol kúni járiyalanǵan Science maqalasınıń avtorlarınıń biri bolǵan belgili lingvist Stiven Pinker[7]. Google Books Ngram Viewer gumanitarlıq ilimler tarawında sanlıq izertlewlerge jańa jol ashıw úmitinde islep shıǵıldı hám maǵlıwmatlar bazası basınan-aq ashıq túrde qoljetimli bolǵan 5,2 million kitaptan alınǵan 500 milliard sózdi qamtıdı.

Kózlengen auditoriya ilimiy bolsa da, Google Books Ngram Viewer kompyuteri bar hár qanday adamǵa sózler menen sóz dizbeklerin qollanıwdıń diaxronikalıq ózgerisin kórsetetuǵın grafikti ańsat kóriw imkaniyatın berdi. Liberman New York Times gazetasına bergen juwabında baǵdarlamashılar hátte balalarǵa da tariyx dawamındaǵı mádeniy tendenciyalardı kóriw imkaniyatın beriwdi maqset etkenin ayttı. Science maqalasında Liberman hám onıń kásiplesleri cifrlı tekstlerdegi úlken kólemli maǵlıwmatlardı analizlew usılın «kulturomika» dep atadı.

Qollanılıwı

Útirler paydalanıwshı kirgizgen izlew sózlerin ajıratadı, bunda hárbir útir menen ajıratılǵan sóz maǵlıwmatlar bazasında n-gramma sıpatında izlenedi (mısalı, «nursery school» – bul 2-gramma yamasa bigramma). Sońınan Ngram Viewer sızılǵan sızıqlı diagrammanı qaytaradı. Esletpe, Ngram maǵlıwmatlar bazasınıń kólemindegi sheklewler sebepli, keminde 40 kitapta tabılǵan sáykeslikler ǵana indekslewge alınadı.

Sheklewler

Ngram Viewer maǵlıwmatlar toplamları nadurıs optikalıq belgilerdi tanıwǵa (OCR) tiykarlanǵanı hám kóp sandaǵı nadurıs sánelengen hám kategoriyalarǵa bólingen tekstlerdi óz ishine alǵanı ushın sınǵa alındı[8]. Usı qáteler sebepli hám olar bir táreplemelik ushın qadaǵalanbaǵanlıǵınan (mısalı, ilimiy ádebiyatlardıń artıp barıwı, bul basqa terminlerdiń ataqlılıǵın tómenletip atırǵanday kórsetiwi), tildi úyreniw yamasa teoriyalardı sınaw ushın korpuslardı qollanıwda abaylı bolıw kerek[9]. Bunnan tısqarı, maǵlıwmatlar toplamları ulıwma lingvistikalıq yamasa mádeniy ózgerislerdi sáwlelendirmewi múmkin hám tek ǵana sonday tásirge meńzey aladı, sebebi olarda avtorlıq huqıqtıń potencial buzılıwın boldırmaw ushın basılǵan sánesi, avtor, uzınlıq yamasa janr sıyaqlı hesh qanday metamaǵlıwmatlar joq.

XIX ásirge shekemgi tekstlerde s hám f áripleriniń shatastırılıwı (f-ǵa uqsas kórinistegi uzın s - ſ qollanılıwı sebepli) sıyaqlı sistemalı qáteler sistemalı bir táreplemelikke alıp keliwi múmkin. Google Books toparı nátiyjeler 1800-jıldan baslap isenimli ekenin aytsa da, tómen dárejeli OCR hám jetkilikli bolmaǵan maǵlıwmatlar qıtay tili sıyaqlı tiller ushın berilgen chastotalar tek 1970-jıldan baslap durıs bolıwı múmkin ekenin, al korpustıń burınǵı bólimleri ulıwma belgili terminler ushın nátiyje kórsetpewin hám ayırım jıllar ushın maǵlıwmatlar 50% ten aslam «shawqım» dı qamtıwın ańlatadı[10][11].

Google Ngram maǵlıwmatları menen izertlew alıp barıw ushın joqarıda talqılanǵan ayırım máselelerdi sheshiwge háreket etetuǵın basshılıqqa alınatuǵın usınıslar berildi[12].

Derekler

  1. Bosker. «Google Ngram Database Tracks Popularity Of 500 Billion Words». The Huffington Post (17-dekabr 2010-jıl). Qaraldı: 31-may 2012-jıl.
  2. Lance Whitney. «Google's Ngram Viewer: A time machine for wordplay». Cnet.com (17-dekabr 2010-jıl). 23-yanvar 2014-jılda túp nusqadan arxivlendi. Qaraldı: 31-may 2012-jıl.
  3. .
  4. «Google Books Ngram Viewer - University at Buffalo Libraries». Lib.Buffalo.edu (22-avgust 2011-jıl). 2-iyul 2013-jılda túp nusqadan arxivlendi. Qaraldı: 31-may 2012-jıl.
  5. «Google Books Ngram Viewer - Information». Qaraldı: 1-iyun 2024-jıl.
  6. «In 500 Billion Words, New Window on Culture». The New York Times (16-dekabr 2010-jıl). Qaraldı: 1-iyun 2024-jıl.
  7. «Steven Pinker – The Stuff of Thought: Language as a window into human nature». Royal Society of Arts (4-fevral 2010-jıl). Qaraldı: 2-iyun 2024-jıl.
  8. Nunberg. «Humanities research with the Google Books corpus» (16-dekabr 2010-jıl). 10-mart 2016-jılda túp nusqadan arxivlendi. Qaraldı: 19-aprel 2015-jıl.
  9. Zhang, Sarah. „The Pitfalls of Using Google Ngram to Study Language“. WIRED (American English). Qaraldı: 2017-05-24.
  10. «Google n-grams and pre-modern Chinese». digitalsinology.org. Qaraldı: 19-aprel 2015-jıl.
  11. «When n-grams go bad». digitalsinology.org. Qaraldı: 19-aprel 2015-jıl.
  12. Younes, Nadja; Reips, Ulf-Dietrich (2019-03-22). "Guideline for improving the reliability of Google Ngram studies: Evidence from religious terms" (in en). PLOS One 14 (3): e0213554. doi:10.1371/journal.pone.0213554. ISSN 1932-6203. PMC 6430395. PMID 30901329.