5. Utterance segmentation process


In this folder you will find the Instructions and tools for utterance segmentation and coding - Enter the Transcription Protocol folder, then open the C-unit summary pdf. This document contains specific instructions for utterance segmentation and examples. 

    1. For Bilingual Speakers of Spanish-English or Castellano-Catalan, the following utterance segmentation should be used- see item b and figure below.
    2. See this description on modified C-Units


Utterance Segmentation: Modified Communication Units (MC-units)
ISSUE: The basic unit for segmenting utterances used in SALT is the communication unit (C-unit; an independent clause and its modifiers, including subordinate clauses). Thus, a sentence like, the boy went running and grabbed the frog, would be segmented as one utterance. Although the equivalent of this sentence in Spanish, el niño estaba corriendo y agarró la rana, could also be segmented as one utterance, doing so would ignore the pro-drop nature of Spanish. Whereas omitting subject nouns or pronouns is ungrammatical in English, these can be grammatically dropped in Spanish as the null subject information is encoded in the verb (Bedore, 1999). For instance, the English phrase he jumped, can be grammatically stated in Spanish as: (a) él brincó ("he jumped") including the pronoun él ("he"); or (b) as brincó ("[he] jumped") since gender is implied by context and the Spanish verb encodes for person.
SOLUTION: Modified C-units (MC-units), based on rules originally proposed by Gutiérrez-Clellen and Hofstetter (1994) for Terminable Units in Spanish, were used to segment the language transcripts contained in the Bilingual Spanish/English Reference databases in order to (a) account for the pro-drop nature of Spanish, and (b) facilitate consistency when transcribing language samples in Spanish and English from the same bilingual speaker. Therefore, segmenting utterances as MC-units is recommended in SALT for bilingual (Spanish-English) samples.
MC-units follow two rules. The first rule, like standard C-unit segmentation, states that an utterance consists of an independent clause and its modifiers, including subordinated clauses. The second rule states that independent clauses joined by a coordinating conjunction are segmented as two separate utterances when there is co-referential subject deletion in the second clause. MC-unit segmentation is illustrated in Figure 7-3. The first row illustrates subordinated clauses in Spanish and English, which are not segmented as two separate utterances. The subordinating conjunction cuando, is used in Spanish; the subordinating conjunction when, is used in English. The second row illustrates coordinated clauses in Spanish and English, which are therefore segmented into two utterances in each language. The coordinating conjunction y, is used in Spanish; the coordinating conjunction and, is used in English. Further, pro-drop in used in the segmented utterance in Spanish, y olvidó sus llaves ("and [he] forgot his keys").

Understanding utterance segmentation in Spanish:

What is an Utterance? An utterance is a complete thought expressed by an independent clause and its modifiers. For example:

  • English: “The boy went running and grabbed the frog.”
  • Spanish: “El niño estaba corriendo y agarró la rana.”

In this case, both are single utterances because they contain one independent clause with modifiers.

Understanding MC-units: When working with bilingual (Spanish-English) samples, you should use Modified Communication Units (MC-units) for segmentation to consider the differences in how the two languages handle subject pronouns.

Key Rules:

  1. Basic Rule: An utterance is an independent clause with its modifiers, including subordinate clauses.

    • Example:
      • English: “She was happy when she saw the dog.”
      • Spanish: “Ella estaba feliz cuando vio al perro.”
    • In both languages, this is one utterance because the subordinate clause is part of the same thought.
  2. Special Rule for Spanish (Pro-Drop): In Spanish, the subject pronoun can be dropped if it’s implied by the verb.

    • Example:
      • Spanish: “Él brincó y agarró la rana.”
      • If we drop the subject in the second clause: “Brincó y agarró la rana.”
    • MC-unit: If the second clause has a dropped subject but is joined by a coordinating conjunction (like “y” or “and”), segment it as two separate utterances:
      • “Brincó. Y agarró la rana.” (Two utterances)

Why Use MC-units? MC-units ensure consistent and accurate segmentation of bilingual language samples by accounting for the grammatical differences between Spanish and English, especially when dealing with subject pronouns.

Examples:

  • English: “He jumped and grabbed his keys.” (One utterance)
  • Spanish without subject pronoun: “Brincó y agarró sus llaves.” (Segment as two utterances)
    • “Brincó.”
    • “Y agarró sus llaves.”


  1. For Monolingual English speakers, reference the following file (under item d.) for rules regarding C-Unit segmentation which differs from the modified C-Units described above
  2. https://saltsoftware.com/media/wysiwyg/tranaids/CunitSummary.pdf


Reglas Adicionales para Transcripciones en Español

(Decisiones tomadas el día 8/28/2024; 9/2/2024)

  • Nota importante para comprender las instrucciones de transcripción = Un enunciado es igual a un utterance


  1. Regla del Verbo Auxiliar + Verboide (Gerundio, Participio, Infinitivo)

Cuando falte el verbo auxiliar en el enunciado, pero haya un verboide (como un gerundio, participio, o infinitivo), podemos aplicar el criterio de omisión. Esto significa que podemos separar los enunciados como si el verbo auxiliar estuviera presente, ya que se encuentra implícito en la oración.

Ejemplo:

*PAR: están de picnic una pareja merendando.
*PAR: él ø leyendo.
*PAR: y ella ø haciendo algo.

Si estuviera explícito:

*PAR: están de picnic una pareja merendando.
*PAR: él está leyendo.
*PAR: y ella está haciendo algo.

En este caso, aunque el hablante no mencionó el verbo auxiliar, entendemos que está implícito. Por lo tanto, es seguro separar los enunciados como si el verbo auxiliar estuviera presente.


2. Regla de Entonación y Pausas:

Al segmentar los enunciados, es fundamental centrarse en la sintaxis. Sin embargo, si la muestra de lenguaje no contiene verbos (como ocurre en algunos pacientes con afasia no fluente), podemos guiarnos por la entonación y las pausas que hace el hablante.

Veamos el siguiente ejemplo de muestra de lenguaje: https://utexas.box.com/shared/static/zwxcszwk3m1s32w30d0mgd7nvco469pe.wav

Ejemplo:

*PAR: una bandera.
*PAR: un barco.
*PAR: están haciendo señas.
*PAR: un hombre que pesca.
*PAR: &+u un cubo y una pala.
*PAR: y un &+n niño mm jugando con las olas.

En la muestra, hay una pausa significativa entre "una bandera" y "un barco," lo que nos permite segmentarlos como dos enunciados separados. Por otro lado, "un cubo y una pala" no se separa, ya que fue dicho de manera continua. Esto nos indica que deben considerarse como un solo enunciado.


Esta regla nos ayuda a segmentar correctamente cuando la sintaxis no es suficiente, aprovechando las señales que nos da la entonación y las pausas del hablante.


3. Regla de Listas de Objetos Cuando No Hay Verbos y Existen Pausas Muy Marcadas y/o Entonación Muy Marcada

Cuando el hablante describe una lista de objetos sin usar verbos y existen pausas muy marcadas o entonación muy marcada, podemos separar cada objeto como un enunciado independiente. Veamos esta muestra de lenguaje:  https://utexas.box.com/s/18rkfd8bzwtc8mzn5pln801dktvitp71

Ejemplo:

*PAR: un árbol con muchas hojas.
*PAR: un perro.
*PAR: un [/] un niño &+baya eh bañándose.

En este caso, el hablante comenzó con una lista de objetos sin utilizar ningún verbo. Como hay un "cambio de tema" entre cada objeto, podemos separar cada uno como un enunciado distinto. Sin embargo, si el hablante hubiera comenzado su descripción con un verbo como "ver" o "haber," podríamos mantener toda la lista como un solo enunciado en lugar de separarlos. Por ejemplo:

*PAR: veo un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.
*PAR: hay un árbol con muchas hojas, un perro, un [/] un niño &+baya eh bañándose.

4. Regla de la Frase "O Sea"

La frase "o sea" actúa como un conector explicativo o aclarativo dentro de una oración. Su función es introducir una reformulación, aclaración, o explicación de lo que se acaba de decir. Por esta razón, no se debe separar de la idea principal que le precede, ya que forma parte de un solo enunciado.

Ejemplo:

*PAR: eh se ve la carrera, o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA CORRECTA)

En lugar de:

*PAR: eh se ve la carrera. (FORMA INCORRECTA)
*PAR: o sea, el [/] el [/] el coche a la entrada del garaje. (FORMA INCORRECTA)


4. Regla de la Palabra "Pero" (decisión añadida el 2 de septiembre, 2024)

La palabra "pero" es una conjunción coordinante que se usa para introducir una idea que contrasta o contradice la información previa. En segmentación de enunciados, la presencia de "pero" indica que se está introduciendo un nuevo pensamiento o una cláusula independiente que se opone o difiere de la primera parte de la oración. Veamos este ejemplo: https://utexas.box.com/s/g4h3jvr3iz3souztoikifb5ejy48w6pn

Ejemplo:

*PAR:  vale, en este lugar hay una [/] una [/] una [//] un árbol muy grande. (FORMA CORRECTA)
*PAR:        pero hoy es de [/] de muchos años. (FORMA CORRECTA)

En lugar de:

*PAR:  vale, en este lugar hay una [/] una [/] una [//] un árbol muy grande, pero hoy es de [/] de muchos años. (FORMA INCORRECTA)

"Pero" marca un cambio en el sentido del discurso, lo que justifica la segmentación en dos enunciados. La información después de "pero" es independiente y está contrastando con la información anterior, lo que lo convierte en un nuevo enunciado completo y separado en la mayoría de las veces. Es necesario tener en cuenta que hay ocasiones en las que el enunciado no se separa, aunque exista la palabra "pero" en el mensaje. Por ejemplo:

*PAR: el pequeño está cogiendo agua, pero más entrado en la arena. (1 solo enunciado)

Como podemos ver, el ejemplo anterior sólo muestra 1 enunciado a pesar de tener la palabra "pero." Esta decisión se tomó porque la segunda parte del enunciado no cuenta con un verbo ("...pero más entrado en la arena"), lo cual la convierte en un solo enunciado (no dos). 


5. Regla de Abandono de Enunciados vs Revisiones (decisión añadida el 2 de septiembre, 2024)

En el contexto de la segmentación de muestras de lenguaje, es crucial identificar cuándo un hablante abandona un enunciado y comienza uno nuevo, en lugar de simplemente revisarlo. Revisemos esta muestra (min 0:41 - 1:09): https://utexas.box.com/s/xx9n1aja4t52vlz4v5fnp0v1cx3kfl65

Ejemplo:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] ay el &+ca. (FORMA CORRECTA)
*PAR: no [/] no camión no es eso. (FORMA CORRECTA)

En lugar de:

*PAR: uh veo también el [/] el [/] <el &+tra> [//] el [/] <ay el &+ca> [//] no [/] no camión no es eso. (FORMA INCORRECTA)

Podemos ver que el hablante intenta formular un enunciado, pero lo abandona después de múltiples revisiones ("el [/] el [/] <el &+tra> [//] el [/] ay el &+ca."). El abandono del enunciado se marca por la interrupción abrupta y la incapacidad del hablante para completar la idea inicial. Luego, el hablante inicia un nuevo enunciado con "no [/] no camión no es eso," lo cual refleja un cambio de enfoque para comunicar una idea. Por lo tanto, estos dos enunciados se segmentan como enunciados separados.


El siguiente ejemplo explica la misma idea a pesar de que no contiene un verbo principal en la segunda utterance (se encuentra implícito):

*PAR: detrás hays [: hay] [//] <hay un monte> [//] hay un. (FORMA CORRECTA)
*PAR: no, monte no. (FORMA CORRECTA)


6. Regla de Enunciados Largos (decisión añadida el 2 de septiembre, 2024)

En la segmentación de enunciados, es crucial aplicar las reglas de forma rigurosa, especialmente cuando nos enfrentamos a enunciados largos que podrían llevar a confusiones. Tomemos el siguiente ejemplo (Min 2:10): https://utexas.box.com/s/xx9n1aja4t52vlz4v5fnp0v1cx3kfl65

Ejemplo:

*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA CORRECTA)

Aunque este enunciado es extenso y presenta varias revisiones, no debe ser dividido en dos enunciados separados. La razón es que el hablante está construyendo un único enunciado donde menciona una lista de objetos (una bandera y un perro) con descriptores adicionales ("con el señor que tiene el cometa..."). A pesar de que es un enunciado largo y tiene la palabra "y" en la mitad, todo se refiere a un solo objeto directo. Qué es lo que veo? "una bandera y un perro con el señor..."


*PAR: <una &+ca> [//] un [//] también veo un [//] una bandera. (FORMA INCORRECTA)

*PAR:  y un perro con el señor que tiene el cometa mm en sus manos &+l liado <con un> [/] mm con un cable. (FORMA INCORRECTA)

Separar el enunciado podría dar la impresión de que el hablante está cambiando de tema o comenzando un nuevo enunciado, cuando en realidad, es una descripción continua de una escena con múltiples elementos.


7. Regla de "que" o "uno de los cuales(decisión añadida el 2 de septiembre, 2024)

Cuando segmentamos enunciados, es importante mantener juntas las partes que explican o añaden información al enunciado anterior.

Ejemplo:

*PAR: y en el mar se ve una barca o sí con una pareja, uno de los cuales nos está saludando. (FORMA CORRECTA)


*PAR: y en el mar se ve una barca o sí con una pareja. (FORMA INCORRECTA)

*PAR: uno de los cuales nos está saludando. (FORMA INCORRECTA)

La parte "uno de los cuales nos está saludando" está proporcionando una explicación o un detalle adicional sobre "una pareja". Esta información es una aclaración directa del enunciado anterior, y por lo tanto, debe permanecer unida para mantener la coherencia del mensaje. También aplicaríamos la misma regla si el mensaje tuviera la palabra "que":

*PAR: y en el mar se ve una barca o sí con una pareja que nos está saludando. (FORMA CORRECTA)


8. Regla de la Frase "Por lo Tanto" (decisión tomada el 29 de Julio, 2024)

La expresión "por lo tanto" indica consecuencia y hace parte de las oraciones consecutivas. Por esta razón, este tipo de oraciones siempre serán expresiones subordinadas. Esto significa que una oración que empiece con "por lo tanto" debe ser parte de una conjunción coordinante (coordinating conjunction) y no puede segmentarse aparte de su idea principal.  

Ejemplo:

*PAR: se ve agua, por lo tanto, es el mar. (FORMA CORRECTA)

En lugar de:

*PAR: se ve agua. (FORMA INCORRECTA)
*PAR: por lo tanto, es el mar. (FORMA INCORRECTA)


9. Regla de la Palabra "Además" (decisión añadida el 2 de septiembre, 2024)

Cuando segmentamos enunciados, es importante distinguir entre las partes que forman una lista continua de objetos directos y las partes que introducen una idea nueva. Considere los siguientes ejemplos:

Ejemplo:

 *PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella, además, unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA CORRECTA)


*PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella. (FORMA INCORRECTA)

*PAR: además, unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA INCORRECTA)

A pesar de que la palabra "además" nos hace pensar que es una idea nueva que debería separarse, este enunciado sólo cuenta con un sólo verbo "hay..." Por lo tanto, a palabra "además" en este caso, no inicia un enunciado nuevo, sino que continúa la lista de objetos directos. Sin embargo, si después de la palabra "además" hubiera un nuevo verbo (como en el siguiente ejemplo), entonces se separaría en dos enunciados:

 *PAR: y detrás de ellos hay una casa eh de dos cuerpos con eh una puerta de garaje abierta y un coche delante de ella. (FORMA CORRECTA)

*PAR: además, hay unas ventanas y unos árboles de jardín o arbustos de jardín. (FORMA CORRECTA)