3.2.1.5.4 Ventajas e inconvenientes de los índices permutados
3.2.1.5.4.1 Ventajas
1- Son producidos rápidamente. La preparación requiere que el documento a indizar sea convertido a forma legible por máquina, de manera que el ordenador pueda procesar los datos.
2- El vocabulario de indización es siempre actual, se usan las palabras del autor
3- Se proporcionan más puntos de acceso que en otros índices impresos.
2- Los KWIC plantean 2 problemas:
1. dificultad en la comprensión del título, debido a que al incluir los títulos en una sola línea puede ser necesario truncar u omitir el principio o el final del título.
2. dificultad de lectura, y más en el caso de los títulos largos, ya que es normal que la palabra-clave esté al principio o final del título. Esto provoca que el título se divida y el final del título aparezca al principio de la línea o el principio del título al final.
3.3 La indización libre
3.3.1 Introducción: analogías y diferencias de la indización libre con la indización por extracción y la indización por asignación
Es un tipo de indización intermedio, situado entre la indización por extracción y la indización por asignación.
b) – no se controla la forma
c) – no se controlan las relaciones semánticas
d) – la incorporación de términos de indización es ilimitada
b) – la forma está controlada.
c) – se produce un control semántico
d)- se produce un control sintáctico
e) – la incorporación de términos de indización es limitada: se usan los que permita el vocabulario usado.
b) – la forma de los términos de indización debe estar controlada de acuerdo con las normas del país del centro de indización.
c) – Respecto al control del significado, puede desarrollarse un control semántico.
d) – la incorporación de términos de indización no tiene límite: siempre se pueden almacenar conceptos para los que todavía no existen descriptores en el lenguaje de indización.
El sistema de indización libre es el de descriptores libres.
3.3.2 Sistemas de indización libre: los descriptores libres
3.3.2.1 Definición y características generales
Son términos de indización que representan conceptos destacados, por un proceso intelectual, a partir de los documentos almacenados en un sistema documental dado. Pueden ser extraídos de los documentos o asignados por los indizadores sin verificar si existen previamente en una lista establecida de antemano. Pueden expresar los conceptos por medio de palabras o por expresiones.
Tanto si son extraídos como si son asignados, se someten a un control mínimo de forma.
El resultado es una lista de descriptores libres, creada a partir de la acumulación de descriptores asignados o extraídos libremente por los indizadores a medida que almacenan los documentos.
Es posible establecer a priori una estructura de equivalencia con el fin de eliminar los problemas semánticos. Si el control morfológico y semántico es muy fuerte, la lista puede dar lugar a un tesauro.
1.- Establecimiento de unas reglas básicas de control de forma
2.- Indización de los documentos siguiendo las pautas establecidas
3.- Análisis de la lista provisional de descriptores libres resultante de la indización y corrección de errores
4.- Posible control semántico
5.- Edición de la lista definitiva
El centro de indización deberá marcar unas pautas para la normalización de la forma de los descriptores libres.
En cada país se aprecian unas tendencias de indización generales que el centro de indización debe tener en cuenta a la hora de marcar las pautas de indización.
– En España es conveniente seguir las normas siguientes:
– Norma UNE 50-106-90. Directrices para el establecimiento y desarrollo de tesauros monolingües. Es recomendable para los descriptores formados por nombres comunes.
– Encabezamientos de materia: normativa para su redacción.
– Reglas de Catalogación.
Estas dos últimas obras son apropiadas para los nombres propios.
El uso de estas normas no es obligatorio, si es aconsejable su seguimiento para lograr una unidad de criterios de indización nacionales. Deben indicarse las normas utilizadas, y las pautas de indización acordadas:
– en la introducción, cuando se trate de un sistema manual
– en la presentación, cuando sea un sistema automatizado
Cuantos más aspectos se normalicen mayor eficacia lograremos en la indización.
Características de las 4 categorías:
1.- Control de forma
1.1- Lengua
Los descriptores libres se deben usar en la lengua del centro de indización, siempre que exista en ese idioma un término que corresponda con el concepto que se quiera expresar. Esta regla también se aplica a los nombres propios.
Se pueden usar palabras extranjeras siempre que no tengan una traducción exacta o sea el término más conocido.
En los países anglosajones se usa el empleo del singular o plural dependiendo del tipo de nombre.
Los franceses y alemanes, son partidarios del uso del singular, con las excepciones necesarias. En Francia las excepciones al empleo del singular son:
– los términos que sólo existan en plural
– los términos que tienen un sentido distinto en singular que en plural
– los términos de las clasificaciones botánicas y zoológicas
En España la norma es clara: el número de los descriptores libres depende del tipo de nombre:
a)
partes u órganos del cuerpo únicos.
b) Los entes concretos no cuantificables:
Son nombres de materiales o sustancias que pueden someterse a la pregunta ¿Cuánto, Cuánta? Van en singular.
c) Los entes abstractos:
son conceptos abstractos las entidades o fenómenos abstractos, las propiedades, los sistemas de creencia, las actividades y las disciplinas. Van en singular.
concepto abstracto representante de una clase con más de un miembro, el término que representa la clase se debe representar en plural.
d) Un término puede ser expresado en singular y en plural:
d-1) cuando, cada una de estas formas, designe un concepto diferente
d-2) cuando sea necesario diferenciar una técnica de sus productos
Los casos más comunes son:
•ortografía doble o variante ortográfica
•Jerga o argot:
– si el concepto dispone de un término, se debe elegir el término
– se elegirá el argot si no existe un término alternativo de aceptación general
•Nombre común y denominaciones comerciales:
si existiese un nombre común apropiado, éste debe ser el elegido.
•nombre popular y nombre científico:
cuando un mismo concepto se puede designar por medio de un nombre popular y un término científico, se debe preferir la forma utilizada normalmente por los usuarios.
•topónimos:
el nombre de un lugar puede aparecer expresado de diferentes formas por dos causas:
– por uso de la denominación oficial y de la popular
– coexistencia de la forma original y vernácula
Debe prevalecer la forma oficial o, en su caso, la forma más utilizada por los usuarios.
En los centros de documentación los nombres propios son indizados en el campo específico denominado “identificadores”. La normalización de los nombres propios debe seguir los principios o normas establecidas en dicho país
4.- Categoría o forma de los términos
4.1.- Uso de formas nominales
Es conveniente usar sólo formas nominales o sustantivas y no verbales y adjetivas. Se recomienda nominalizar los verbos y adjetivos.
Las formas nominales o substantivas pueden estar constituidas por:
a) términos simples o sustantivos
b) términos compuestos o frases sustantivadas, y estas, a su vez, pueden ser:
b.1) frases adjetivadas
b.2) frases preposicionales
Todo concepto que pueda ser representado por un término simple, esta forma es la que deberá ser elegida.
Para la representación de un concepto, es necesario el uso de dos o más términos. En este caso se usará la frase preposicional. Se utilizarán términos compuestos en el caso de los términos que contengan sustantivos sincategoremáticos.
Se utilizarán términos compuestos de nombre más adjetivo para indicar: a) clase o propiedad y, b) origen.
Este aspecto merece atención debido a que no existe ninguna lista que sirva de referencia para indizar. Por esta razón la terminología adquiere una importancia decisiva.
Van Slype considera que para conseguir un control más potente del vocabulario es conveniente comparar los descriptores libres con los descriptores ya existentes, con el fin de usar la misma forma que la empleada con anterioridad.
Dependiendo del número de descriptores libres esta lista puede editarse:
– como una lista general
– si los descriptores son muchos en listas parciales de descriptores ordenadas por grupos en función:
1.- de la clasificación dada a los documentos
2.- del esquema de identificación de conceptos
El sistema de listas parciales es adecuado cuando el volumen de descriptores es elevado. Presenta el problema de que descriptores de formas distintas, pero de contenido semejante, pueden aparecer en listas distintas.
El examen de esta lista provisional tiene por objetivo detectar y corregir:
1) Variantes ortográficas o de puntuación de los descriptores libres.
2) Faltas de ortografía y mecanografía.
3) Variantes flexionadas y derivadas que no hayan sido eliminadas.
3) Casos de equivalencia semántica entre los descriptores libres: sinónimos o conceptos relacionados.
3.2.1.5.4.1 Ventajas
1- Son producidos rápidamente. La preparación requiere que el documento a indizar sea convertido a forma legible por máquina, de manera que el ordenador pueda procesar los datos.
2- El vocabulario de indización es siempre actual, se usan las palabras del autor
3- Se proporcionan más puntos de acceso que en otros índices impresos.
3.2.1.5.4.2 Inconvenientes
1- La falta de relación entre el título y el contenido2- Los KWIC plantean 2 problemas:
1. dificultad en la comprensión del título, debido a que al incluir los títulos en una sola línea puede ser necesario truncar u omitir el principio o el final del título.
2. dificultad de lectura, y más en el caso de los títulos largos, ya que es normal que la palabra-clave esté al principio o final del título. Esto provoca que el título se divida y el final del título aparezca al principio de la línea o el principio del título al final.
3.3 La indización libre
3.3.1 Introducción: analogías y diferencias de la indización libre con la indización por extracción y la indización por asignación
Es un tipo de indización intermedio, situado entre la indización por extracción y la indización por asignación.
– En la indización por extracción:
a) – no se parte de ningún vocabulario preestablecido, los términos se extraen del documentob) – no se controla la forma
c) – no se controlan las relaciones semánticas
d) – la incorporación de términos de indización es ilimitada
– En la indización por asignación:
a) – se parte de un vocabulario dado, a partir del cual se asignan los términos de indizaciónb) – la forma está controlada.
c) – se produce un control semántico
d)- se produce un control sintáctico
e) – la incorporación de términos de indización es limitada: se usan los que permita el vocabulario usado.
– En la indización libre:
a) – no se usa ningún vocabulario determinado, el indizador tiene libertad absoluta para extraer los términos del documento o para asignar al documento términos de indización que puedan representar conceptos implícitos o explícitos.b) – la forma de los términos de indización debe estar controlada de acuerdo con las normas del país del centro de indización.
c) – Respecto al control del significado, puede desarrollarse un control semántico.
d) – la incorporación de términos de indización no tiene límite: siempre se pueden almacenar conceptos para los que todavía no existen descriptores en el lenguaje de indización.
El sistema de indización libre es el de descriptores libres.
3.3.2 Sistemas de indización libre: los descriptores libres
3.3.2.1 Definición y características generales
Son términos de indización que representan conceptos destacados, por un proceso intelectual, a partir de los documentos almacenados en un sistema documental dado. Pueden ser extraídos de los documentos o asignados por los indizadores sin verificar si existen previamente en una lista establecida de antemano. Pueden expresar los conceptos por medio de palabras o por expresiones.
Tanto si son extraídos como si son asignados, se someten a un control mínimo de forma.
El resultado es una lista de descriptores libres, creada a partir de la acumulación de descriptores asignados o extraídos libremente por los indizadores a medida que almacenan los documentos.
Es posible establecer a priori una estructura de equivalencia con el fin de eliminar los problemas semánticos. Si el control morfológico y semántico es muy fuerte, la lista puede dar lugar a un tesauro.
3.3.2.2 Etapas del método de indización con descriptores libres
El método de indización con descriptores libres se compone de varias etapas:1.- Establecimiento de unas reglas básicas de control de forma
2.- Indización de los documentos siguiendo las pautas establecidas
3.- Análisis de la lista provisional de descriptores libres resultante de la indización y corrección de errores
4.- Posible control semántico
5.- Edición de la lista definitiva
3.3.2.2.1 Primera etapa: establecimiento de las reglas básicas de control de forma
Los descriptores libres se pueden extraer del documento o ser asignados por el indizador. Deben establecerse unas reglas básicas de control morfológico. El control morfológico de los descriptores libres no está sujeto a ninguna normativa.El centro de indización deberá marcar unas pautas para la normalización de la forma de los descriptores libres.
En cada país se aprecian unas tendencias de indización generales que el centro de indización debe tener en cuenta a la hora de marcar las pautas de indización.
– En España es conveniente seguir las normas siguientes:
– Norma UNE 50-106-90. Directrices para el establecimiento y desarrollo de tesauros monolingües. Es recomendable para los descriptores formados por nombres comunes.
– Encabezamientos de materia: normativa para su redacción.
– Reglas de Catalogación.
Estas dos últimas obras son apropiadas para los nombres propios.
El uso de estas normas no es obligatorio, si es aconsejable su seguimiento para lograr una unidad de criterios de indización nacionales. Deben indicarse las normas utilizadas, y las pautas de indización acordadas:
– en la introducción, cuando se trate de un sistema manual
– en la presentación, cuando sea un sistema automatizado
Cuantos más aspectos se normalicen mayor eficacia lograremos en la indización.
Características de las 4 categorías:
1.- Control de forma
1.1- Lengua
Los descriptores libres se deben usar en la lengua del centro de indización, siempre que exista en ese idioma un término que corresponda con el concepto que se quiera expresar. Esta regla también se aplica a los nombres propios.
Se pueden usar palabras extranjeras siempre que no tengan una traducción exacta o sea el término más conocido.
1.2.- Género
Se tiende al empleo del masculino, porque tiene un valor genérico. Puede usarse el género femenino cuando el contenido haga referencia explícita a las mujeres.1.3.- Número
Es uno de los aspectos en que se aprecian mayores diferencias entre unos países y otros:En los países anglosajones se usa el empleo del singular o plural dependiendo del tipo de nombre.
Los franceses y alemanes, son partidarios del uso del singular, con las excepciones necesarias. En Francia las excepciones al empleo del singular son:
– los términos que sólo existan en plural
– los términos que tienen un sentido distinto en singular que en plural
– los términos de las clasificaciones botánicas y zoológicas
En España la norma es clara: el número de los descriptores libres depende del tipo de nombre:
a)
Entes concretos y cuantificables
Son objetos susceptibles de cuantificación. Responden a la pregunta ¿Cuántos, Cuántas? Van en plural.Excepción:
partes u órganos del cuerpo únicos.
b) Los entes concretos no cuantificables:
Son nombres de materiales o sustancias que pueden someterse a la pregunta ¿Cuánto, Cuánta? Van en singular.
c) Los entes abstractos:
son conceptos abstractos las entidades o fenómenos abstractos, las propiedades, los sistemas de creencia, las actividades y las disciplinas. Van en singular.
Excepción:
concepto abstracto representante de una clase con más de un miembro, el término que representa la clase se debe representar en plural.
d) Un término puede ser expresado en singular y en plural:
d-1) cuando, cada una de estas formas, designe un concepto diferente
d-2) cuando sea necesario diferenciar una técnica de sus productos
2.- Elección de un término entre varios, o variantes / Control Semántico
En ocasiones se usan diferentes nombres para designar una realidad, en estos casos se debe hacer una elección de uno de los términos utilizados en las diferentes variantes.Los casos más comunes son:
•ortografía doble o variante ortográfica
•Jerga o argot:
– si el concepto dispone de un término, se debe elegir el término
– se elegirá el argot si no existe un término alternativo de aceptación general
•Nombre común y denominaciones comerciales:
si existiese un nombre común apropiado, éste debe ser el elegido.
•nombre popular y nombre científico:
cuando un mismo concepto se puede designar por medio de un nombre popular y un término científico, se debe preferir la forma utilizada normalmente por los usuarios.
•topónimos:
el nombre de un lugar puede aparecer expresado de diferentes formas por dos causas:
– por uso de la denominación oficial y de la popular
– coexistencia de la forma original y vernácula
Debe prevalecer la forma oficial o, en su caso, la forma más utilizada por los usuarios.
•nombres propios de entidades y personas
En los centros de documentación los nombres propios son indizados en el campo específico denominado “identificadores”. La normalización de los nombres propios debe seguir los principios o normas establecidas en dicho país
3.- Homógrafos o términos polisémicos /Control Semántico
En el caso de detectar términos homógrafos, cada término debe de ir acompañado de una palabra, entre paréntesis, denominado calificador.4.- Categoría o forma de los términos
4.1.- Uso de formas nominales
Es conveniente usar sólo formas nominales o sustantivas y no verbales y adjetivas. Se recomienda nominalizar los verbos y adjetivos.
Las formas nominales o substantivas pueden estar constituidas por:
a) términos simples o sustantivos
b) términos compuestos o frases sustantivadas, y estas, a su vez, pueden ser:
b.1) frases adjetivadas
b.2) frases preposicionales
Todo concepto que pueda ser representado por un término simple, esta forma es la que deberá ser elegida.
Para la representación de un concepto, es necesario el uso de dos o más términos. En este caso se usará la frase preposicional. Se utilizarán términos compuestos en el caso de los términos que contengan sustantivos sincategoremáticos.
Se utilizarán términos compuestos de nombre más adjetivo para indicar: a) clase o propiedad y, b) origen.
3.3.2.2.2 Segunda etapa: indización de los documentos
En la indización de los documentos mediante descriptores libres hay que cuidar la forma, hay que intentar usar siempre el mismo descriptor para los mismos conceptos y representarlos morfológicamente también igual.Este aspecto merece atención debido a que no existe ninguna lista que sirva de referencia para indizar. Por esta razón la terminología adquiere una importancia decisiva.
Van Slype considera que para conseguir un control más potente del vocabulario es conveniente comparar los descriptores libres con los descriptores ya existentes, con el fin de usar la misma forma que la empleada con anterioridad.
3.3.2.2.3 Tercera etapa: análisis de la lista de descriptores y corrección de errores
Una vez extraídos o asignados los descriptores a cada documento se elabora una lista provisional. Se incluirá el descriptor, su frecuencia de aparición en los documentos y las referencias de localización de los documentos. La lista puede elaborarse con cualquier programa de bases de datos, en la que se seleccionen esos tres campos.Dependiendo del número de descriptores libres esta lista puede editarse:
– como una lista general
– si los descriptores son muchos en listas parciales de descriptores ordenadas por grupos en función:
1.- de la clasificación dada a los documentos
2.- del esquema de identificación de conceptos
El sistema de listas parciales es adecuado cuando el volumen de descriptores es elevado. Presenta el problema de que descriptores de formas distintas, pero de contenido semejante, pueden aparecer en listas distintas.
El examen de esta lista provisional tiene por objetivo detectar y corregir:
1) Variantes ortográficas o de puntuación de los descriptores libres.
2) Faltas de ortografía y mecanografía.
3) Variantes flexionadas y derivadas que no hayan sido eliminadas.
3) Casos de equivalencia semántica entre los descriptores libres: sinónimos o conceptos relacionados.