x닫기

​​UCL 바카라사이트 뱃무브

메뉴

DCPSE 바카라사이트 뱃무브 프로젝트

오늘날의 구어체의 구문 분석 및 검색 가능한 디아 크로닉 바카라사이트 뱃무브 만들기.

ESRC (Old Logo)
ESRC의 자금 지원

참조: R 000 239 643
Institution: University College London
부서: 바카라사이트 뱃무브 부서 (바카라사이트 뱃무브 사용 설문 조사)
7416_7440: Bas Aarts 교수
선임 바카라사이트 뱃무브원: Sean Wallis
바카라사이트 뱃무브 조교: Drk Bury, Lesley Kirk, Yordanka Kostadinova-Kavalova, Dr Ann Law, Gabriel Ozón
기간: 2002 년 8 월 1 일 ~ 2004 년 8 월 31 일 (1 개월 연장)

이것은 DCPSE의 프로젝트 페이지입니다.

오늘날의 언어의 대명사 바카라사이트 뱃무브
소개

이 제안의 핵심에는 University College London의 바카라사이트 뱃무브 사용 (SEU)에 설립 된 현대 영국 바카라사이트 뱃무브의 두 가지 회사 : 1960 년대 런던-런드 코퍼스 (LLC), 1990 년대에 컴파일 된 국제 코퍼스 (ICE-GB)의 영국 호수. 이 프로젝트는 LLC 및 Ice-GB Corpora의 신중하고 직접적으로 비슷한 텍스트를 포함하는 자발적으로 자발적으로 사용되는 자발적인 바카라사이트 뱃무브의 완전히 구문 분석 가능한 디아크론 코퍼스를 건설하는 것을 목표로합니다. 아래의 목표 및 목표 섹션에서 논의 될 바와 같이, 언어학에는 최근 어휘와 문법의 변화와 관련된 새로운 연구 자극이 있습니다. 이 코퍼스는 25-30 년에 걸친 기간의 바카라사이트 뱃무브를 연구하는 언어 학자들에게 독특한 자료가 될 것입니다. 현재 비슷한 자원이 없으며, 코퍼스는 말한 언어의 현재 변화에 대한 연구를 가능하게하는 최초의 소식이 될 것입니다.

기존 Corpora

9725_11191

Ice-GB는 32 개의 텍스트 범주에 배포 된 구어 및 서면 텍스트로 구성됩니다. 이 자료는 1990 년대 초반부터 시작됩니다. 바카라사이트 뱃무브에는 텍스트 마크 업, 워드 클래스 태그가 포함되어 있으며, 비정상적으로, 그것은 완전히 문법적으로 주석이 달린 (태그 및 구문 분석) 몇 안되는 코퍼라 중 하나입니다. 바카라사이트 뱃무브의 모든 문장/발언에는 아래 그림 1과 같이 트리 구조가 할당되었습니다..

바카라사이트 뱃무브

그림 1 : Ice-GB 바카라사이트 뱃무브의 트리 다이어그램.

주석은 언어 학자들에 의해 철저하고 광범위하게 점검되었습니다. Ice-GB는 어디에서나 최대 규모의 완전한 구문 분석 및 확인 된 영국 바카라사이트 뱃무브 컬렉션을 통합합니다. 최근 사운드 파일을 사용할 수있게되었으며 새로운 코퍼스 패키지로 제공됩니다.

ICE-GB는 언어 학자들이 문법 구조를 검색 할 수있는 SEU에서 개발 된 혁신적인 IceCup 소프트웨어와 같은 전용 바카라사이트 뱃무브 도구로 악용 될 수 있습니다. 이 소프트웨어는 현재 Ice-GB 코퍼스 및 웹 위에 (샘플 코퍼스와 함께) 배포됩니다. 네트워크 또는 독립형 PC에서 실행됩니다. 아이스 up의 중심에는 퍼지 트리 조각 (FTFS) 시설이있어 사용자가 컴퓨터에서 검색 할 수있는 트리 구조의 근사 (따라서 '퍼지') 모델을 구성 할 수 있습니다. 그림 2는 동사 문구 (vp)의 모든 인스턴스와 직접 객체 (OD)와 일치하는 FTF의 예를 보여줍니다.

바카라사이트 뱃무브

13267_13311

13355_13725

목표와 목표

전통적으로 언어학에 대한 diachronic과 동기식 접근 방식 사이에 차이가 있습니다. 첫 번째는 시간이 지남에 따라 언어가 발전하는 것으로 간주되는 반면, 후자는 현재에서 볼 수있는 언어를 '스냅 샷'시청합니다. 이 오래된 소스 소무원 이분법은 최근의 의문을 제기했으며 일부 언어 학자들은 그 차이가 인공적인 것이라고 주장했다. 이 언어 학자들은 언어가 동기식 단계 내에서도 항상 변화한다고 주장 할 것입니다. 언어 개발에 대한 이러한 새로운 태도의 결과로 최근 변화와 관련된 언어학에는 새로운 바카라사이트 뱃무브 자극이 있습니다 (Mair 1995, 1997; Mair and Hundt 1995, 1997, Denison 1998, Leech 2000, Smith and Leech 2001 참조).

14504_15672

현재 변화에 대한 연구를 지원하기 위해 Freiburg University의 Christian Mair 교수는 1990 년대 바카라사이트 뱃무브로 된 두 개의 Corpora : Flob (Freiburg-Lancaster-Oslo-Bergen) 및 Frown (Freiburg-Brown)을 건설했습니다. 이 Corpora는 1960 년대부터 LOB (Lancaster-Oslo-Bergen)와 Brown Corpora와 일치합니다. 이들은 언어 학자들이 30 년 동안 서면 바카라사이트 뱃무브의 변화를 연구 할 수있는 훌륭한 자료입니다. 그러나 이러한 Corpora는 구문 분석되지 않았기 때문에 수동 검색은 여전히 ​​피할 수 없습니다. 우리는 Mair의 이니셔티브를 더 나아가고 싶습니다. 우리는 LLC와 Ice-GB에서 자발적인 바카라사이트 뱃무브를 선택하는 영국 바카라사이트 뱃무브 코퍼스를 건설 할 것을 제안합니다. 새로운 코퍼스는 언어 학자들에게 최근 바카라사이트 뱃무브 변화에 관심이있는 새로운 변화에 관심이있는 새로운 혁신적인 데이터베이스를 제공 할 것입니다.

16575_16734

결과 자원은 오늘날의 워진 바카라사이트 뱃무브 (DCPSE)의 diachronic corpus라고 부를 것입니다. 연구원들은 30 년 동안 문법의 변화와 PDE 사용을 조사 할 수 있습니다. DCPSE는 플로브와 다르고 여러 가지 중요한 방식으로 눈살을 찌푸립니다. 첫째, 코퍼스는 독점적으로 자발적으로 말하는 바카라사이트 뱃무브를 포함하는 데 독특합니다. 우리는 언어 학자들이 원래 녹음을들을 수 있도록 재생 시설을 제공 할 것입니다. 둘째, 코퍼스는 구문 분석되어 동기 및 디아 크로닉 문법 변화에 대한 연구를 허용 할 것입니다. 셋째, Ice-GB 용 IceCup 소프트웨어를 사용하여 코퍼스를 완전히 검색 할 수 있습니다. 이 소프트웨어는 새로운 데이터에서 작동하도록 수정됩니다. 우리는 DCPSE가 Freiburg Corpora를 보완하는 주요 새로운 자원이 될 것으로 예상하여, 지금까지 설문 조사 구내에서만들을 수있는 녹음에 처음으로 액세스 할 수 있습니다..

프로젝트에는 다음과 같은 목표가 있습니다.

  • LLC와 ICE-GB (각 코퍼스에서 40 만 단어)로 총 80 만 단어의 음성 바카라사이트 뱃무브 단어를 선택하십시오. 이 Corpora의 디자인은 비슷하므로 동일한 범주의 음성 바카라사이트 뱃무브를 선택할 수 있습니다. 각각의 경우 우리는 일치하는 텍스트 쌍을 선택하고 LLC에서 구조 마크 업 및 태깅을 교차 확인합니다. 텍스트는 Bas Aarts가 선택합니다. 여기에는 대면 대화, 전화 대화, 라디오 토론, 수업 토론, 의회 토론, 법적 교차 시험, 비즈니스 거래, 자발적인 연설 및 인터뷰가 포함됩니다. 바카라사이트 뱃무브의 변화가 스스로 전파되는 방식을 감안할 때 자발적인 바카라사이트 뱃무브 범주 만 선택할 것임을 강조하는 것이 중요합니다. 따라서 우리는 준비된 독백, 방송 뉴스 등을 제외 할 것입니다.
  • LLC 및 ICE-GB 재료 통합. · 결합 된 데이터를 처리하도록 아이스 ucup을 수정하십시오. Icecup은 원래 Ice-GB에서 작동하도록 개발되었습니다. 제안 된 '2 인원'바카라사이트 뱃무브를 처리하려면 수정해야합니다.
  • LLC 자료를 구문 분석합니다. 언어의 '지저분한'특성을 감안할 때 이것은 기술 부록에 자세히 설명 된 주요 작업이 될 것입니다.
  • 두 하위 코르포라에서 '분석적 일관성'을 확인하십시오. 추가 소프트웨어의 글쓰기가 필요합니다.
  • 구문 분석 결과를 수동으로 확인하십시오.
  • 디지털화 된 LLC 사운드 녹음을 준비하고 향상시켜 바카라사이트 뱃무브원이 사용할 수 있습니다. LLC 녹음은 지금까지 전파되지 않았습니다. Randolph Quirk는 우리가 사운드 녹음의 이름을 '비워' '할 것을 제안했습니다.
  • IceCup 소프트웨어를 사용하여 문서를 작성하고 완전히 검색 가능한 새로운 디아크닉 바카라사이트 뱃무브를 전파합니다.

방법론

LLC 자료는 네덜란드의 Nijmegen 대학에서 개발 된 Tosca 파서를 사용하여 자동으로 구문 분석됩니다. 이 프로세스는 오류가 없으며 상당한 수동 개입이 필요합니다. 이를 위해 우리는 횡단면 보정 (Wallis, 1999)을 구현할 것입니다 (Wallis, 1999). 이것은 기존의 문장 별 검사보다 더 효율적이고 일관성이 있습니다.

결과

1960-1976 년과 1990 년대 초반부터 동일한 양의 직접 비교 가능한 자료를 포함하는 자발적인 영국 바카라사이트 뱃무브의 80 만 단어 코퍼스. 코퍼스는 텍스트로 주석이 달린 (문장 경계, 스피커, 겹침 등) 문법적으로 주석이 달린 (태그 및 구문 분석), 인덱스 및 ICECUP을 사용하여 완전히 검색 할 수 있으며, 퍼지 트리 조각 및 기타 쿼리 시스템을 사용합니다. 새로운 리소스에는 Lexicon (코퍼스의 Word-Tag Combinations 데이터베이스)과 Grammaticon (노드 조합의 데이터베이스)도 특징입니다. 이를 통해 사용자는 LLC 및 ICE에서 어휘 및 문법 분포를 대조 할 수 있습니다.

제안 된 자원은 오늘날의 바카라사이트 뱃무브 문법에 관심이있는 언어 학자들 과이 영역의 현재 변화에 관심이있는 사람들에게 귀중한 연구 도구가 될 것입니다. 우리는 기사 및 회의 프레젠테이션의 새로운 코퍼스를 설명 할 것이며, 새 패키지에 대한 매뉴얼 (튜토리얼 통합)을 작성하고 주석, FTF 시설 및 사용자 인터페이스를 설명합니다..

보급

디지털화 된 사운드 레코딩을 포함한 새로운 바카라사이트 뱃무브는 소프트웨어가있는 전자 데이터베이스로 CD-ROM에서 전파됩니다. 샘플 바카라사이트 뱃무브와 문서가 포함 된 소프트웨어의 무료 다운로드는 전용 웹 사이트에서 인터넷을 통해 제공됩니다. (여기에서 Ice-GB 샘플 바카라사이트 뱃무브를 다운로드 할 수 있습니다.)

바카라사이트 뱃무브 및 녹음은 프로젝트 종료 후 3 개월 이내에 옥스포드 텍스트 아카이브로 입금됩니다.

직원

  • 21655_21847
  • 두 바카라사이트 뱃무브 보조원은 코퍼스의 문법 주석을 점검하고 수정할 책임이 있습니다. 또한 RAS는 Wallis가 코퍼스 문서를 작성하는 데 도움이됩니다.
  • DR. Bas Aarts는 프로젝트를 감독 할 것입니다.

참조

Aarts, B., Nelson, G. 및 Wallis, S.A. (1998) 퍼지 트리 조각을 사용하여 바카라사이트 뱃무브 문법을 탐색합니다.바카라사이트 뱃무브 오늘 14, 52-56.

Aarts, F. and B. Aarts (2002) 친척 : '장난 꾸러기 제작자'. 에서 : Fischer와 G. Tottie (eds.).텍스트 유형 및 Corpora. Tübingen : Narr. 123-130.

Denison, D. (1998) 구문. 에서 : S. Romaine (ed.).바카라사이트 뱃무브의 캠브리지 역사. IV : 1776-1997. 케임브리지. 92-329.

Kennedy, G. (1998)바카라사이트 뱃무브 언어학 소개. 런던.

22679_22803문법 및 Lexis. University College London Institute of English Study.

Ljung, M. (1997) (ed.)바카라사이트 뱃무브로 된 코퍼스 기반 연구. 암스테르담.

Mair, C. (1995) 현재 바카라사이트 뱃무브에서 동사의 도움의 보완 패턴과 동사의 문법의 변화. 에서 : B. Aarts 및 C.F Meyer (eds.).현대 바카라사이트 뱃무브 동사, 케임브리지. 258-272.

Mair, C. (1997) Parallel Corpora : 진행중인 언어 변화 바카라사이트 뱃무브에 대한 실시간 접근. 에서 : M. Ljung, M. (ed.). 195-209.

Mair, C. and Hundt, M. (1995) 왜 진보적 인 바카라사이트 뱃무브가 더 빈번 해지고 있습니까? 진행중인 언어 변화에 대한 코퍼스 기반 조사.23499_23547.2. 111-122.

Mair, C. 및 M. Hundt (1997) 진행중인 언어 변화에 대한 바카라사이트 뱃무브 기반 접근. 에서 : U. Böker 및 H. Sauer, H. (Eds.).Anglistentag 1996. 드레스덴. 71-82.

Nelson, G., Wallis, S.A. 및 Aarts, B. (2002).자연 언어 탐색. 암스테르담.

Quirk, R., Greenbaum, S., Leech G. 및 Svartvik, J. 1972.현대 바카라사이트 뱃무브의 문법. 런던.

———— 1985.바카라사이트 뱃무브의 포괄적 인 문법. 런던.

Smith, N. and Leech, G. (2001) Flob and Lob Corpora를 기반으로 한 최근 서면 바카라사이트 뱃무브의 문법 변화. 논문에서 읽은icame회의. 벨기에 루바 인 라노브.

24237_24264The London-Lund 바카라사이트 뱃무브 바카라사이트 뱃무브 : 설명 및 연구. 바카라사이트 뱃무브 82. Lund. 룬드 연구

Svartvik, J. 및 Quirk, R. 1980.바카라사이트 뱃무브 대화의 코퍼스. 룬드.

Wallis, S.A. (1999) Parsed Corpora 완료 : 교정에서 진화로. 에서 : A. Abeillé (ed.).Journées Atala Sur Les Corpus annotés pour la syntaxe - TreeBanks Workshop. 7-12.