Procesando texto

En estos últimos días he estado trabajando en reunir suficientes datos para crear un diccionario relativamente decente al momento de intentar alguna traducción. Y es que de plano crear un diccionario por cuenta propia toma demasiado tiempo, tiempo que por desgracia no tengo y que debo recuperar tan rápido como sea posible.

Arnoldo me pasó una dirección donde hay un mini diccionario japonés-español, muy simple y pequeño (unas 4000 palabras). Pensé que no me serviría del todo, pero analizándolo bien e ideando algunos programitas, he podido sacarle algo de provecho:

* Necesitaba sacar el tipo de palabra de cada entrada. Para eso, usé el diccionario español-inglés en línea de Merriam-Webster.
* Necesitaba sacar el género de cada sustantivo. También usé el diccionario arriba mencionado.
* La conjugación de los verbos la estoy sacando de la página de la RAE.
* Necesito encontrar una lista de los verbos transitivos e intransitivos.

Todo lo arriba mencionado obviamente tiene que ser parseado para sacar solo la información que necesito, lo que significa que hay que parsear los tags html, tarea que ciertamente no es tan complicada, y además buscar cadenas específicas para identificar dónde está lo que realmente voy a usar.

Obtener los datos automáticamente por internet toma tiempo (hacer 4000 peticiones html una tras otra ciertamente no es algo que se pueda hacer en un par de segundos), pero, una vez que termine todo esto, tengo fe en que muchas tareas se facilitarán. Me falta todavía cierta información, pero de menos un diccionario de 4000 palabras es mucho mejor que uno de 250.

Y esto es solo el principio. Lo verdaderamente complicado comenzará una vez que los datos estén listos.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.