677_684닫기

UCL English

메뉴

퍼지 트리 조각 : 바카라사이트 순위 2 부

FTFS를 사용하여 Ice-GB 및 DCPSE와 같은 구문 분석 된 코퍼스를 사용하여 자연 바카라사이트 순위을 수행하는 방법.

파트 2. 사회 언어학으로부터 문법 변수 예측

우발 사태 테이블 구성

사회-언어 변수 여부를 찾는 임무를 고려하십시오 (텍스트 범주) 사용의 문법적 '선택'에 영향을 미칩니다바카라사이트 순위보다는바카라사이트 순위.

먼저 기본 접근 방식을 설명합니다. 바카라사이트 순위은 가설을 테스트한다는 것을 상기하십시오.IV는 DV에 영향을 미칩니다(독립 변수는 종속 변수에 영향을 미칩니다).

  1. 바카라사이트 순위 a를 구성합니다.7496_7515다음과 같이, 코퍼스를 검색하여 녹색으로 채색 한 세포를 채우십시오. 사용iCecup, 각 문법 결과마다 하나씩 일련의 FTF 쿼리를 수행 할 수 있습니다 (DV =엑스,y, ...). 그런 다음 각 FTF 쿼리와 사회-언어 변수의 각 값 사이의 중첩 또는 '교차'를 계산합니다 (IV =a, 비, ...). 안에iCecup, 당신은 고용 할 수 있습니다드래그 앤 드롭 논리교차로를 계산하려면

    바카라사이트 순위 다음과 같이 대수적으로 일반적인 비상 테이블을 표현할 수 있습니다. 당연히 각 총계는 이전 행 또는 열의 합입니다.a그리고x8352_8388a‘DV =x'.

일반 비상 테이블 (DV X IV)

  종속 변수 (문법 선택)
  DV=xDV=y...Total
독립 변수
(사회 언어 적 맥락)
IV =aa그리고xa그리고y a그리고 (x또는y또는...)
IV =BB그리고xB그리고y B그리고 (x또는y또는...)
...   
 Total(a또는B또는 ...) 및x(a또는B또는 ...) 및y (a또는B또는 ...) 및 (x또는y또는...)
  1. 바카라사이트 순위 독립 변수가 종속 변수의 값, 즉 문법 구성의 선택에 영향을 미치는지 여부를 알고 싶습니다. 이를 위해 각 문법 선택의 분포를 대조 할 수 있습니다.IV.

  2. 바카라사이트 순위 간단한 것을 설정할 수 있습니다적합 테스트의 Chi-Square Goodness(결과에 대한 χ²)DV=x. 이 카이 제곱이 중요하다면 독립 변수의 값이 결과 선택에 영향을 미친다는 것을 의미합니다.x. (엄격히, 귀무 가설은 영향을받지 않습니다-지원되지 않습니다.) Chi-Square는 AN을 비교합니다.관찰 된 배포을 위한DV=x와 함께예상 분배 총계를 기준으로(DV= <Any).

중요한 알림:총계를 가정하지 마십시오 (처음에 선택의 가능성)는 반드시 코퍼스의 해당 섹션에서 재료의 양에 비례합니다. 이것은 완전히 공동 실수입니다. 이에 대한 자세한 내용은에 대한 토론을 참조하십시오.상대 주파수 1 부12219_12277아래.

DV =에 대한 관찰 및 예상 분포x비상 테이블에서
  종속 변수 (문법 선택)
  DV=xTotal
독립 변수
(사회 언어 적 맥락)
IV =aa그리고xa그리고 (x또는y또는...)
IV =BB그리고xB그리고 (x또는y또는...)
...  
13825_13828 관찰예상
  1. 테스트를 수행하기 전에 예상 분포가 있어야합니다스케일링관찰 된 분포와 동일하게 합산하십시오. 스케일 계수를 계산하려면 열계를 서로 나누십시오 : Sf = Total (OBS)/ Total (Exp). 예상 열을 확장하려면 모든 값에 sf를 곱하십시오.

바카라사이트 순위 다른 선택을 위해 Chi-Square를 수행 할 수 있습니다 : DV =y등 및 전체 테이블 (참조아래). 관찰 된 모든 분포는 단일 카이 제곱의 모든 예상 분포와 비교됩니다.


예 :누가/누구ICE-GB

우리의 가정IV이다음성또는서면, 즉, 가장 간단한 세분화텍스트 범주, 그리고 바카라사이트 순위 문법 선택에 관심이 있습니다 :바카라사이트 순위vs.바카라사이트 순위. 이제 테이블은 다음과 같습니다.

예제 바카라사이트 순위을위한 테이블 구성
  종속 변수 (바카라사이트 순위vs.바카라사이트 순위)
  DV=바카라사이트 순위DV=바카라사이트 순위Total
독립 변수
(연설 대 작문)
IV =음성바카라사이트 순위 in음성바카라사이트 순위 in음성(바카라사이트 순위+바카라사이트 순위) in음성
IV =서면바카라사이트 순위안에서면바카라사이트 순위안에서면(바카라사이트 순위+바카라사이트 순위) in서면
 Total바카라사이트 순위안에 (음성또는서면)바카라사이트 순위안에 (음성또는서면)(바카라사이트 순위+바카라사이트 순위) in (음성또는서면)

이것은 간단한 2 × 2 비상 테이블입니다. 즉, 두 변수 모두 두 가지 가능성이 있습니다. 필요한 검색을 수행함으로써 바카라사이트 순위 4 개의 중앙 그림을 얻은 다음 행과 열을 합산합니다. 그런 다음이 데이터를 카이 제곱 테스트에 적용합니다.

바카라사이트 순위 객관적인 대명사 사례를 원합니다.Wallis (2021 : 39)다음 데이터를보고합니다.Ice-GB, FTFS를 사용하고 주관적인 사례를 빼서 획득.

우발 사태 테이블의 간단한 예 (Wallis 2021의 데이터).
  종속 변수 (바카라사이트 순위vs.바카라사이트 순위)
  DV=바카라사이트 순위DV=바카라사이트 순위Total
독립 변수
(연설 대 작문)
IV18768_18773음성13541176
IV =서면224163
 Total15782239

분포를 시각화하기 위해 간단한 막대 차트 (히스토그램) 형식으로 플롯 할 수 있습니다. 수직은를 나타냅니다.주파수, 즉 각 범주에서 사례 수.

예 2x2 히스토그램

이 데이터에 대한 가장 인상적인 관찰은 큰 '스파이크'입니다.바카라사이트 순위음성 데이터에서. 그러나 두 가지 예가 더 있습니다바카라사이트 순위 또는바카라사이트 순위 코퍼스의 구어체 부분에서.

데이터를 수집 한 후 이제 바카라사이트 순위적인 질문을 제기 할 수 있습니다.


질문 1. 2 × 1 글쓰기에 적합한 선량 (모든 데이터에 비해)

다음 질문을 고려하십시오.

  • 서면으로 '누가'더 많이 사용하는 경향이 있다는 증거가 있습니까?

위의 그래프와 표를 보면 거의 볼 수 있습니다2/3서면 사건 중바카라사이트 순위.

이 질문은이 비율이 샘플과 일치하는지 여부를 묻습니다. 테스트,라고합니다.21163_21197서면컬럼, 주어진 총 사례 수를 취합니다. 양방향 (Binomial) 종속 변수, 이것은 a로 간주 될 수 있습니다.단일 전문가 테스트 (Wallis 2021 : 140).

적합 테스트의 선함

χ² 테스트는 관찰 된 데이터의 두 분포의 차이를 비교합니다.분배 관찰(‘O’라는 레이블) 및 an예상 분배21782_22099

다음은 작업을 보여줍니다.

관찰 된 o = 22, 41,
스케일 팩터 SF = 63/239 = 0.26,
예상 e = 157x0.26, 82x0.26 = 41.38, 21.62..
Chi-Square χ² = σ (e-o) ²/e = (-19.38) ²/41.38 + 19.38²/21.62 = 9.08 + 17.38 = 26.46.

바카라사이트 순위 a를 선택합니다.임계 가치평가 된 χ²가 능가 해야하는 χ²의 경우. 여기에서 χ²에 대한 임계 값 표를 찾을 수 있습니다. 분포에는 두 개의 셀이 있으므로 자유도 수,df =r22599_22711

관찰 된 χ² 점수는 χ² (0.05, 1) = 3.841의 임계 값을 초과하므로 귀무 가설을 거부 할 수 있습니다. 바카라사이트 순위 그 귀무 가설을 주장하는 것으로 표현할 수 있습니다.쓰기는 전반적인 경향과 다르지 않습니다사용하려면바카라사이트 순위Over바카라사이트 순위객관적인 위치.


질문 2. 2 × 2 독립성 테스트

다음 질문을 고려하십시오

  • ‘바카라사이트 순위’vs.‘누가’의 선택은 텍스트 범주에 크게 영향을 받는가?

이 질문은바카라사이트 순위비율은 각 텍스트 범주에서 일관됩니다. 테스트,라고합니다.균질성 χ² 테스트, 단순히 서면 및 음성 칼럼 데이터가 샘플링된다고 가정합니다. 이것은입니다.2- 독립적 인 프로모션 테스트 (Wallis 2021 : 149).

동질성 테스트

이전과 같이 χ² 테스트는라고 불리는 관찰 된 데이터의 두 분포의 차이를 비교합니다.관찰 된 배포(‘O’라는 레이블) 및 an예상 분배,‘E’. 균질성 테스트에서 관찰 된 분포는 전체 테이블이며, 예상 분포는 행 및 열계를 곱하여 계산 된 예상 테이블입니다. 바카라사이트 순위 이제 각 셀 로우와 칼럼의 총계를 곱하고 그랜드 총으로 나누어 e를 계산합니다. 그런 다음 이전과 같이 각 셀 쌍에 대해 χ²를 계산합니다.

관찰 된 o = 135, 41; 22, 41,
예상 e = 115.62, 60.38; 41.38, 21.62,
Chi-Square χ² = σ (e-o) ²/e = 19.38²/115.62 + (-19.38) ²/60.38 + (-19.38) ²/41.38 + 19.38²/21.62 = 3.25 + 6.22 + 9.08 + 17.38 = 35.94.

자유도 수,df= (r-1) × (C-1) = 1. 임계 값은 여전히 ​​3.841입니다.

관찰 된 χ² 점수는 χ² (0.05, 1) = 3.841의 임계 값을 초과하므로 귀무 가설을 거부 할 수 있습니다. 바카라사이트 순위 그 귀무 가설을 주장하는 것으로 표현할 수 있습니다.텍스트 범주는 경향에 영향을 미치지 않습니다사용하려면바카라사이트 순위Over바카라사이트 순위객관적인 위치에서.


이 두 가지 질문과 테스트는 어떻게 다릅니 까?

이 두 가지 유형의 질문과 테스트에 대해 생각하는 가장 좋은 방법은입니다.신뢰 구간으로 이러한 비율을 시각화. Wallis (2013a; 2021)그리고 그의 Corp.ling.stats 블로그이것을 자세히 다룹니다. 이것을 참조하십시오통계 자원페이지.

아래 그래프에서, 바카라사이트 순위의 사례의 비율을 플로팅합니다.바카라사이트 순위선택에서바카라사이트 순위, 바카라사이트 순위25635_25704바카라사이트 순위, 바카라사이트 순위 단순히 거꾸로 뒤집을 것입니다.)

‘바카라사이트 순위’대‘바카라사이트 순위’(객관적인 경우)에 대한 이항 비율 차이 그래프

질문 1비교서면 데이터 비율평균(빨간색 점선). 이 서면 비율은 샘플에서 관찰되었습니다.

  • 바카라사이트 순위 우리의라고 가정했습니다.관찰 된 비율서면 데이터는불확실한. 이 불확실성은 무작위 샘플링의 단순한 사실에서 비롯됩니다. 우리는 바카라사이트 순위을 반복해야했을 때, 우리는 정확히 같은 숫자를 다시 얻지 못할 것입니다. 우리는 평균에서 관찰 된 차이가 너무 커서 맹인 운에 의해 설명하기에는 알고 싶습니다.
  • 적합성 테스트의 장점은 A와 불확실한 비율을 비교했습니다고정 평균

질문 2다른 일을합니다.그것은 요율에 대한 샘플링 불확실성을 결합합니다둘 다음성 및 서면 열.27166_27332

  • 균질성 χ² 검정은 평균을 중심으로 한 정상적인 간격을 추정하고 관찰 된 두 지점이 평균에서 충분히 멀리 떨어져 있는지 묻습니다..
  • 다른 테스트,27576_27611, 해석하기가 조금 더 쉽습니다. 이 메소드는 간격을 계산합니다.차이 d=P(바카라사이트 순위, 서면) -P(바카라사이트 순위, spoken), 반대쪽의 간격 폭을 결합하여 (바카라사이트 순위 두 제곱 너비의 제곱근을 취 함). 보다27931_27958.
  • 어느 쪽이든, 위의 그림에서비율 간의 차이는 간격 폭보다 크다. (간단한 바로 가기는 간격 사이에 간격이있는 경우 발견하는 것입니다.이 경우 두 점필수서로 크게 다릅니다.)

이 그래프는 어떻게 계산 되었습니까? 대답은 우리가를 사용했다는 것입니다.윌슨 점수 간격메소드

윌슨 점수 간격

모든 비율에 대한 신뢰 구간을 계산하는 간단한 방법P28673_28683n:P(바카라사이트 순위|바카라사이트 순위, 바카라사이트 순위)) 서면 데이터의 경우 고용윌슨 점수 간격, 우리가 쓸 수있는P∈ (W⁻,W⁺). 이것은 이항 선택에 대한 χ²의 착용감을 반전합니다 (예 :바카라사이트 순위vs.바카라사이트 순위).

29000_29069W29077_29089W⁺ ~ 1--P29149_29183P= 0 또는 1, 간격은 단면이됩니다 (예 : 0 ∈ [0, W⁺).)

29278_29396Z는 1 도의 자유에 대한 χ² 임계 값의 제곱근, 약 1.96입니다. 바카라사이트 순위 이것을 '이라고합니다.Z' 아래에.

서면 열의 간격을 계산하겠습니다. 사례의 비율바카라사이트 순위isF= 41 Out Outn= 63. 조정 계수를 계산합니다Z²/n, 우리가 신청하는P조정 중간을 얻으려면P '및 조정 된 오류,e '29850_29889

P =F/n= 41/63 = 0.6508,
Z²/n= 0.0218,
P '= (P+Z²/2n) / (1 +Z²/n) = 0.6421,
e '=z√ (P(1 -P) +Z²/4n) /n/ (1 +Z²/n) = 0.1146,
(W⁻,W⁺) = 0.6421 ± 0.1146 = (0.5275, 0.7567)..

예상 평균 속도는 0.3431 (빨간색 점선)입니다. 이것은 간격을 벗어난 것이므로 관찰 된 비율이 그것과 크게 다르다고 말할 수 있습니다. 우리가 보았 듯이, 동등한 χ² 테스트도 중요합니다.

바카라사이트 순위 음성 데이터에 대한 방법을 반복합니다. 이것은 (의 간격을 산출합니다.W⁻,w⁺) = (0.1766, 0.3007). 다시 말해, 우리는 동일한 바카라사이트 순위을 20 번 반복해야했을 때, 우리는이 범위 이외의 비율을 한 번도 이상 볼 수있을 것입니다..


중요한 결과는 무엇을 의미합니까?

중요한 결과는 인식 된 것을 의미차이관찰 된 데이터와 예상 데이터 사이는 우연히 발생할 가능성이 높습니다. (종종“바카라사이트 순위 사이의 상당한 차이를 관찰했습니다.x31144_31147,“우리의 테스트가 중요했습니다.”))

그러나 모든 통계 결과는 a를 나타냅니다.상관 관계, 그들은 증명할 수 없습니다원인.

중요한 결과는 재현 될 데이터에서 체계적인 일이 진행되고 있음을 시사합니다. (같은 기간, 저자, 장르 등의 모든 텍스트 중 비슷한 샘플) (텍스트의 텍스트)를 가져 와서 같은 방식으로 주석을 달았습니다). 원인이 무엇인지 알려주지 않습니다. 이것은의 결론입니다.우리가 이전에 한 주장가설을 증명하거나 반증하는 데 어려움이 있습니다.

연구자들이 통계 사용에있어 더욱 정교 해짐에 따라 데이터를 특정 모델에 맞추는 경향이 있었으며 때로는 결과가 데이터를 "설명"하는 것으로보고됩니다. 그러나 이것은 여전히 ​​상관 관계이므로 수학적으로 의미하는 것은“우리입니다.can이 변수가있는 데이터 에서이 패턴을이 정도까지 설명하지만이 설명이 올바른지 여부는 여전히 알 수 없습니다!”

실제로, 처음에는 단순한 양방향 선택과 두 가지 변수에 초점을 맞추고 언어 적 의미를 가진 중추적 변화에 초점을 맞추는 것이 더 현명합니다. 모델이 복잡할수록 신뢰에 대한 방법을 더 많이 사용하고 있습니다. 통계는 그대로 올바르게 얻기에 충분히 어렵습니다.

유의 한 차이에 대한 또 다른 측면이 있습니다. 표본 크기가 매우 크면 거의 모든 명백한 차이가 유의미할 것입니다 (즉, 관찰 된 차이 방향은 모집단에 존재할 수 있습니다). 문제는 중요 할 수 있지만 그 효과는 얼마나 큰가요? 바카라사이트 순위 3 부에서 효과 크기 측정을 고려합니다.

중요한 결과는 바카라사이트 순위 가설을 증명합니까? 반드시 ...

주석의 인공물?

결과가 될 수 있습니다주석의 인공물. 여기에는 적어도 세 가지 종류의 문제가 있습니다.

  1. 원형.33300_33531
  2. 부정확 한 샘플링.처음에는 부정확 한 FTF 정의, 잘못된 주석 또는 열악한 샘플링으로 인한 것일 수 있습니다 (주석 약점의 예는 참조여기). 당신의 모든 경우가 실제로 같은 언어 현상을 표현하고 있습니까? 코퍼스에 포함되어야 할 다른 사례가 있습니까? 또 다른 가능성은 사건이 엄격하지 않다는 것입니다독립.
  3. 열악한 디자인.변수의 모든 가능한 값이 나열되어 있습니까? 언어 적으로 다른 것을 표현하는 결과 중 일부는 다른 결과가 다른 것과 매우 뚜렷합니까? 당신은 원할 수도 있습니다구조 조정두 개의 별개의 하위 그룹을 다루는 바카라사이트 순위 (아래 예제 참조).

당신을 결정하려면케이스 검사그리고디자인을 이론과 관련시킵니다.

세 번째 요소?

상관 관계는 a의 결과 일 수 있습니다.세 번째 요소둘 다 영향DV그리고IV갈라져. 이 더 가능성이 높습니다.DV그리고IV둘 다 문법입니다. (이것은 우리의 오랜 친구입니다근본 원인.)

아마도 A와 B는 둘 다 다른 변수 C?에 영향을받습니다.
Stephen Jay굴드가솔린 펌프 승무원의 연령과 상관 관계가있는 가솔린 가격의 예를 제공합니다. 휘발유 가격이 시간이 지남에 따라 상승 할 수 있기 때문에 승무원이 나이가 들기 때문에 승무원의 나이를 의미하지는 않습니다.원인상승하는 가격, 또는 그 반대도!

중심점은를 확인하는 것입니다.이유상관 관계는 더 많은 작업이 필요합니다. 코퍼스를 검사해야합니다.argue당신의 경우. 당신의 결과를 문헌에보고 된 사람들과 관련시킵니다. 왜냐하면 그들이 다른 경우, 왜 그렇게합니까? ‘악마의 옹호자’를 플레이하고 자신의 결과에 대해 논쟁하십시오. 더 깊이 파고 - 예를 들어 각 FTF의 하위 범주를보고 반대 의견을 기대하십시오.

공개 코퍼스와 쿼리 시스템의 아름다움은 바카라사이트 순위을 명확하게보고한다면 모든 사람이 결과를 재현 할 기회가 있고 (대체 설명을 제기 할 가능성이 있음)..

코퍼스는 토론의 초점입니다.

유의 한 차이를 감지하고 설명 할뿐만 아니라 효과가 얼마나 큰 영향을 측정 할 수있는 것이 유용합니다. 작은 변형은 매우 흥미롭지 않고 중요 할 수 있지만, 큰 변형은 더 근본적인 일이 있음을 나타낼 수 있습니다..


참조

Gould, S.J. (1984),인간의 잘못 관리, 런던 : 펭귄.

Wallis, S.A. (2013a), 이항 신뢰 구간 및 비상 테스트 : 수학 기초 및 대체 방법의 평가.정량적 언어학 저널20 : 3, 178-208.» Corp.ling.stats 

Wallis, S.A. (2013b),Z-Squared : χ²의 원점과 적용.정량적 언어학 저널20 : 4. 350-378.» Corp.ling.stats 

Wallis, S.A. (2021),코퍼스 언어학 연구의 통계 - 새로운 접근법, 뉴욕, 런던 : Routledge. »Order