Procesamiento del lenguaje natural para sinónimos: comprensión de la creatividad
A todos nos gusta ser creativos y únicos, tener nuestra propia opinion siendo diferentes al resto y reaccionamos de manera diferente a eventos similares, es un hecho, las maneras únicas de expresarnos son tan naturales para las personas que tenemos muchas maneras de nombrar lo mismo, por poner un ejemplo en el idioma ingles hay 534 formas de decir que algo es hermoso y unas 1261 de describir algo como fuerte.
Con tantas maneras de describir una misma cosa que surgen desafios como: ¿es posible combinar las consultas de búsqueda únicas y creativas de los compradores en línea con los productos que vende su empresa de comercio electrónico? según un informe de usabilidad hecho por Baymard Institute, muy pocos sitios de comercio electronico pueden hacerlo de manera exitosa, el resto, el 70 por ciento de los sitios web, requieren que los usuarios busquen por el nombre exacto del producto que usa el sitio web. Por ejemplo, en un sitio que vende "mantas de lana", escribir "manta" en el cuadro de búsqueda le proporcionará lo que necesita. Escribir "cobija" o "colcha" no lo haría.
Uno podría argumentar que "manta" y "colcha", o "bicicleta de montaña" y "bicicleta cuesta abajo", o "maletín de computadora portátil" y "funda para computadora portátil" de hecho describen productos ligeramente diferentes. Pero estos productos están tan relacionados que a la mayoría de los compradores en línea generalmente no les importa. En el mundo del comercio electrónico, estas frases son sinónimos o frases que se pueden usar para describir productos similares o relacionados.
Se ve mal si su sitio lleva "máquinas de espresso", pero cuando un visitante en línea escribe "cafetera", obtiene una página "sin resultados". Es aún peor si el comprador en línea pone mal la marca de su máquina de café más vendida como "Keurick" en lugar de "Keurig" y vuelve a obtener la página "sin resultados". Desafortunadamente, el 18 por ciento de los sitios web de comercio electrónico no ofrecen resultados útiles si sus visitantes escriben mal una sola letra en el nombre del producto.
Hay muchas más dificultades en el camino hacia una comprensión fluida del idioma de su cliente. Tome formas gramaticales como "top" y "tops". Para nosotros, es obvio que estas palabras significan lo mismo, solo en cantidades diferentes. No es tan obvio para un algoritmo de búsqueda de sitios. O considere variaciones de ortografía. ¿Es "fitbit", "bit de ajuste" o "fit-bit"? O abreviaciones ¿Los "Gigantes de SF" se equiparan con los "Gigantes de San Francisco"? La búsqueda del sitio tiene que saber cómo lidiar con todas estas cosas para que los compradores en línea tengan una agradable experiencia de compra en línea.
Desde un punto de vista técnico, hay varios enfoques para tratar con sinónimos. Los tradicionales incluyen derivación, uso de diccionarios y edición manual. Los enfoques más innovadores se basan en el aprendizaje automático y las técnicas estadísticas de procesamiento del lenguaje natural.
Stemming ayuda a resolver casos como "top" vs. "tops". El algoritmo de stemming identifica el "stem", o raíz, de las formas gramaticales de la misma palabra ("top-" para "top" y "tops") cortando terminaciones del extremo derecho de la palabra. El problema con la derivación es que no es lo suficientemente flexible y no comprende el significado de las palabras. Por esta razón, tratará erróneamente "piernas" y "calzas" teniendo el mismo tallo "pierna" y, por lo tanto, siendo la misma palabra.
Los diccionarios tradicionales como https://sinonimosya.com, disponible en línea, proporcionan un buen punto de partida para tratar las variaciones ortográficas, abreviaturas y sinónimos comunes como "niños" y "niños". Sin embargo, los modelos de idiomas basados en diccionarios son incompletos y no reflejan cómo la gente realmente usa el lenguaje en consultas de búsqueda. Los diccionarios pueden no ser útiles para los pares de sinónimos emergentes como "fitbit" vs. "bit de ajuste" o "manga" vs. "caso" en el contexto de los accesorios para laptops.
La edición manual es la salida más fácil, pero requiere mucho tiempo y esfuerzo. El procedimiento es autoexplicativo. Permite a los administradores de búsqueda de sitios crear manualmente reglas de coincidencia para pares de palabras que deben tratarse como sinónimos. Basado en el análisis de BloomReach de los principales proveedores de búsqueda de sitios, este es el enfoque más común para lidiar con frases conceptualmente relacionadas como "zapatillas para correr" y "zapatillas", o "sudaderas" y "sudaderas". Pero imagínese hacerlo a mano por miles ¡de productos! Y luego volver a hacerlo una vez que cambien las tendencias de búsqueda, como a menudo lo hacen.
El enfoque de vanguardia para los sinónimos se basa en analizar volúmenes de datos de múltiples fuentes, incluidas consultas de búsqueda de sitios, descripciones de productos de los minoristas, así como colecciones de datos de texto en toda la Web. Usando la variedad de datos, cualquier frase se puede representar en una forma matemática (por ejemplo, como una serie de contextos
La edición manual es la salida más fácil, pero requiere mucho tiempo y esfuerzo. El procedimiento es autoexplicativo. Permite a los administradores de búsqueda de sitios crear manualmente reglas de coincidencia para pares de palabras que deben tratarse como sinónimos. Basado en el análisis de BloomReach de los principales proveedores de búsqueda de sitios, este es el enfoque más común para lidiar con frases conceptualmente relacionadas como "zapatillas para correr" y "zapatillas", o "sudaderas" y "sudaderas". Pero imagínese hacerlo a mano por miles ¡de productos! Y luego volver a hacerlo una vez que cambien las tendencias de búsqueda, como a menudo lo hacen.
El enfoque de vanguardia para los sinónimos se basa en analizar volúmenes de datos de múltiples fuentes, incluidas consultas de búsqueda de sitios, descripciones de productos de los minoristas, así como colecciones de datos de texto en toda la Web. Usando la variedad de datos, cualquier frase se puede representar en forma matemática (por ejemplo, como un número de contextos en los que ocurre). Después de que los datos de texto se convirtieron en esta forma cuantitativa estructurada, los algoritmos de aprendizaje automático se aplican para probar pares de frases para la relación y calcular sus "vectores de similitud". Cuanto mayor sea el puntaje de similitud, más seguros podemos estar de que las dos frases signifiquen mismo o relacionado cosas. Este enfoque ayuda a identificar sinónimos de cualquier tipo (variaciones de ortografía, abreviaturas, conceptos relacionados) y lo hace automáticamente, con velocidad y escala. Además, este enfoque detecta automáticamente cualquier cambio en la forma en que los compradores en línea usan el idioma. Por ejemplo, detectará que las personas comenzaron a utilizar cada vez más "iPad" para buscar cualquier tableta. O que los "juguetes congelados" ahora significan lo mismo que "juguetes de la película" Frozen "y no" juguetes que se pusieron en el congelador ".
Las tecnologías emergentes de aprendizaje automático y procesamiento de lenguaje natural son increíblemente liberadoras. Si usted es un minorista en línea, estas tecnologías se aseguran de que sus productos se encuentren en línea. Si usted es un comprador en línea, las mismas tecnologías le permiten navegar fácilmente por el mar de la información en línea y encontrar lo que está buscando, incluso si lo describe por su propia cuenta, solo que usted lo sepa. La tecnología nos permite seguir siendo creativos en la manera en que nos expresamos al hacer compras en línea y ser únicos, lo que, después de todo, significa ser humano.