Objetivos:
- Registrar FAQs
- Buscar FAQ más parecida utilizando cálculo de similitud coseno.
Para ejecución:
- Clonar repositorio.
- ejecutar docker compose up --build.
- acceder a http://localhost:3000/ desde un web browser.
- Se concatenan pregunta + respuesta.
- Se normalizan textos (se descartan carácteres no alfabéticos)
- Se tokeniza el texto y se hashea la tabla de tokens.
- los índices de la tabla hash corresponden a las posiciones en un vector de 128 elementos.
La similitud coseno se calculó dividiendo el producto punto de los vectores a comparar entre el producto de las magnitudes de los vectores.
Las características a favor de este programa como prototipo:
-
Las preguntas y respuestas se concatenan incorporando información de la respuesta (siendo que ambas están estrechamente relacionadas).
-
HashTrick es eficiente (complejidad O(n))
-
Similitud Coseno es un cálculo liviano.
-
HashTrick resuelve el problema de dimensionalidad.
-
Se puede ajustar la longitud del vector. Esta afecta la relación Costo/Presición
-
Procesamiento general liviano.
Tiempo invertido bruto: 32 horas.