Intag Classified Documents
Classified Document Number 3
Number: 003
Date: June 2002
Author/s: Juan Chamero

E-mail: jach@aunmas.com


Subject: Systems

Genesis of the Human Knowledge Maps idea

Reflexions about How To Improve The Web Use

This document was initially written in Spanish, the author's native language, in order to document properly how the Human Knowledge Map idea come to his mind as a corollary of the major "dot com" mistakes, that make the Web extremely inefficient for that domain. These reflections were written ex post the Human Knowledge Maps presentation at the University of Madrid in June 2001.

Génesis de la idea del Mapa del Conocimiento en la Web

Génesis de la idea del Mapa del Conocimiento en la Web

Reflexiones sobre caminos alternativos para optimizar el uso de la Web

Juan Chamero, CEO Intelligent Agents Internet Corp

 

 

 

Optimización del aprovechamiento de la Web

 

Presentamos aquí el análisis comparativo de dos caminos alternativos, tendientes a optimizar el aprovechamiento de la Web, mediante Sistemas Semi Autómatas o mediante Sistemas Autómatas. Los primeros, cierran el ciclo de decisión y de control a través del ser humano y parten generalmente de soluciones iniciales realizadas también por seres humanos con o sin mediación de autómatas, mientras que en los segundos, todo es realizado por autómatas, describiendo, idealmente sin intervención humana, el orden implícito de la red.

 

 

Sistemas Semi Autómatas

 

Antecedentes

 

Árboles versus Grafos

 

Todo comenzó hace dos años en ocasión de construir un Portal de B2B que fuera al mismo tiempo un “Facilitador” de negocios para las Pymes, Pequeñas y Medianas Empresas, de Latinoamérica. Las primeras discrepancias en cuanto a su arquitectura aparecieron discutiendo con nuestro Web Developer y con nuestro Programador Jefe acerca de la dualidad árboles - grafos en la cual opino que tienen mucho que ver las creencias, que son al fin y al cabo las que predeterminan nuestros juicios de valor y nuestros prejuicios. El primero era una persona de pensamiento muy estructurado, lo que denominaríamos una persona relativamente rígida, el segundo, una persona de pensamiento científico muy con los pies sobre la tierra y yo una persona relativamente imaginativa y proclive a innovar.

 

Mi deseo era construir un sitio Web capaz de aprender de los usuarios y para atraerlos y mantenerlos leales pensaba en brindarles una colección de  guías y tutores interrelacionados entre sí y con los recursos de la Web que facilitaran la interacción sitio_usuarios, lo que se denomina en la jerga Internet Americana un “Facilitador”. El acceso a las facilidades debería ser a través de “puentes” o “gateways” que se expresaban en “keywords” o palabras significativas. Por otra parte, deseábamos ofrecer a los usuarios mecanismos de búsqueda convencionales basados en “categorías”, que se parecían más a árboles que a conjuntos de keywords más o menos arbitrarios (tesauros).

 

Nuestro Web Developer insistía en programar todo mediante árboles, cosa que no me convencía demasiado vistas las incongruencias de los mejores buscadores de categorías en ese entonces, por ejemplo Yahoo, en el cual aparecen los conceptos clasificados en categorías pero como serpientes que se muerden la cola, es decir, de tanto en tanto aparecen ramas y hasta hojas que deberían estar más alto en la jerarquía e incluso ser raíces de nuevos árboles o arbustos. El argumento fuerte del Web Developer era que los árboles se adaptaban muy bien al volumen creciente de sitios en la Web y en eso tenía razón. El estructurar todo sobre la base de keywords obliga a indexar a cada documento en todos sus posibles keywords y si el volumen de los documentos esenciales fuera grande el asunto se complicaría.

 

 

 

 

Documentos Básicos o Esenciales

 

He aquí donde surge la primera clave: documentos básicos o esenciales. Como el propósito era facilitar a los usuarios las gestiones a través del sitio debíamos detectar en la Web esos documentos. Si fueran tantos como los clásicos “links” de categorías mi idea no podía prosperar. A partir de allí comenzamos a darnos cuenta que los documentos esenciales para cada tema no eran realmente muchos. Es decir, fuimos a la Web a buscar documentos esenciales, en nuestro caso particular de Economía y Finanzas, y “descubrimos” algo trivial: los documentos esenciales que cubrían ese tema específico en forma completa, con una nivel de redundancia cercano a dos, eran relativamente pocos, alrededor de 1.300.

 

Este hallazgo trivial, casi diríamos de Perogrullo, fortalecía la idea de indexar los “pointers” a esos documentos esenciales por todos los keywords de un Tesauro básico presentes en esos documentos. Así, por el lado de implementar una sección del tipo “Páginas Amarillas”,  brindábamos acceso a un universo de cientos de miles de links mientras por el lado más selectivo de los keywords brindábamos acceso a un conjunto de no más de 1.400 documentos esenciales.

 

 

Portales Duales

 

Luego nuestro primer Portal era dual, en parte con una sección de búsqueda por categorías y por otra parte una sección de búsqueda sobre la base de un Tesauro pero donde ¡siempre el usuario iba a encontrar al menos un documento!. Estábamos pues cerca de la idea de lograr una interfase YGWYW, You Get What You Want, Usted Obtiene Lo Que Busca,  en un solo clic.

 

 

Resúmenes más Inteligentes

 

A su vez, al ser pocos los documentos esenciales era posible hacer de cada uno de esos documentos_sitios un análisis exhaustivo mediante expertos humanos, especialmente entrenados para evaluar sitios complejos y de esos análisis elaborar resúmenes mucho más útiles que los entregados por los robots de los principales buscadores.

 

 

Cómo medir el desencuentro entre un sitio y sus usuarios

 

Otra idea que rondaba nuestra mente era poder medir en todo momento el desencuentro entre sitio y usuarios. Es decir, poder medir la demanda insatisfecha y la oferta ociosa, no usada. De aquí surgió la idea de la base de datos de i- URL’s o URL’s inteligentes, resúmenes elaborados por expertos a partir de los documentos esenciales de cada disciplina pero con una serie de “tags” estratégicos y tácticos que permitieran medir, en todo momento, la popularidad de esos resúmenes en cuanto a su requerimiento por parte de los usuarios.

 

Esto nos permitía entonces diferenciar y medir:

 

  • lo que los usuarios buscan y no encuentran;

 

  • lo que los propietarios del sitio ofrecen pero nadie o pocos usan;

 

  • la trayectoria de búsqueda de cada usuario a fin de ayudarlo y al mismo tiempo conocer sus necesidades.

 

 

 

La evolución del mapa del sitio, de sus menús

 

Finalmente y como corolario de todo esto nos dimos cuenta que del grafo de las interacciones de los usuarios con el sitio un conjunto de agentes inteligentes podía sugerir modificaciones evolutivas del propio menú del sitio, es decir, estábamos cerca de la raíz del problema planteado por la dualidad intrínseca árbol_grafo dentro del Ciberespacio.

 

 

La razón de ser del Sistema Experto

 

Partíamos entonces de una primera solución “mediocre” ofrecida por el sitio, brindando a los usuarios una primera aproximación a un determinado conocimiento, concretado en una base de i-URL’s que apuntan a sendos documentos esenciales y que permite que obtengan algo razonablemente bueno en materia de información con un solo clic. Luego, podíamos mediante un Sistema Experto ir hacia la utopía de Internet:  ¡Construir una “verdad” acordada entre sitios y usuarios!.

 

Corolario: Los sitios piensan y hablan de una forma estructurada mientras que los usuarios piensan y hablan en una forma más libre y caótica pero enriquecedora y de la interacción entre un primer orden arbitrario y los usuarios puede irse hacia un orden mejor, compartido.

 

 

 

Sistemas Autómatas

 

El otro camino sería tomar a la Web como es y que la “verdad” surja de lo que la gente expone, ya sea como usuario o como propietario de un sitio dejando librado a autómatas la concreción de la verdad global, la cual podría o no ser aceptada como acordada. En éste camino marcha la mayor parte de los actuales desarrollos de herramientas inteligentes. En contra de la aplicación práctica de éste camino atentan los siguientes hechos.

 

Problemas inherentes a la naturaleza Humana

 

  • El engaño: A fin de lograr un lugar de privilegio en los listados jerárquicos de los robots el ser humano apela a toda clase de argucias, éticas y no éticas, legales e ilegales. Estas argucias dependen en parte de la inteligencia de los propietarios y administradores de los sitios y en parte de los recursos económicos asignados a éste propósito de engaño.

 

  • La ambición desmedida: La seriedad no está generalmente relacionada con el ansia de trascender. Para un autómata sería prácticamente imposible detectar estas sutiles diferencias y los que incluso legal y éticamente quieran trascender se destacarán de los serios que no se preocupan desesperadamente por trascender. Luego, a la larga, el conocimiento iluminado será el de los ambiciosos y de los audaces.

 

 

 

 

 

 

Problemas inherentes a los autómatas

 

  • Desorientación en contextos “desconocidos”: Los autómatas son muy eficientes si operan a partir de soluciones iniciales relativamente buenas. Si los autómatas deben operar a partir de cero, es decir sin ayuda humana de orientación inicial, costos y tiempos pueden llegar a hacer impracticables sus aplicaciones.

 

  • Distinción de la complejidad: A los autómatas les cuesta mucho evaluar calidades e importancias de documentos y son muy ineficientes para evaluar “patterns” complejos, conducentes a elaborar cuadros de situación y juicios de valor sobre determinados documentos. Preparar a un agente inteligente para que distinga si un documento breve es o no superior a un documento extenso es actualmente una tarea prácticamente imposible.

 

  • Ignorancia de lo atípico: A lo sumo programas muy avanzados como el PageRank de Google pueden evaluar la popularidad de un determinado sitio pero pueden ignorar a sitios impopulares o poco populares pero altamente significativos para una determinada disciplina.

 

  • Áreas de eficiencia asegurada: Los autómatas son en cambio muy eficientes como ayudantes y controladores así como para sintonizaciones finas una vez realizada por humanos la sintonización gruesa. En nuestro enfoque usamos agentes inteligentes como ayudas de búsqueda, como calculadores y como controladores de omisiones básicas y particularmente, como sintonizadores finos ajustando el desencuentro entre oferta y demanda.

 

 

Breve Historia de la Crisis del Dominio “Punto com

 

 

Proliferación de sitios literalmente vacíos, sin contenido, sin “back-end” y sin “front-end

 

Es ésta la historia relatada por un pensador, trabajando como Consultor de Internet en el seno del dominio "dot com", en su etapa quizá más “light”, en USA, y en plena efervescencia de la segunda “fiebre del oro” Americana: años 1998/2000. Dentro de ese ambiente, uno se veía forzado al juego del "no pensar", del “pop art” de soluciones de hardware y de software, tratando de presentar, en el más breve plazo, escenarios vistosos que daban la sensación de que cada Portal tenía tanto “back-end” cuanto “front-end” y queriendo transmitir el mensaje de que las bases de datos de los Portales y de sitios dedicadas al Comercio Electrónico, estaban plenas de contenido.

 

Una verdadera crisis de pensamiento

Desdichadamente, solo pude abstraerme de una euforia sin demasiado sustento al producirse la crisis del dominio “punto com”. Es importante aclarar esto ante la pregunta natural: ¿Porqué no se le ocurrió antes a alguien una solución trivial al problema del desencuentro en Internet?. Al respecto, los académicos e investigadores saben de esto: Sólo las tecnologías que marchan en la dirección de la deriva económico financiera del momento son las que disponen de audiencia y de lo qué es fundamental: de presupuesto.

 

La loca carrera, La Ley de la Experiencia

 

La deriva imponía un no parar, un no dudar, un resolver todo a fuerza de dinero a raudales, prácticamente infinito, volcado a emprendimientos nuevos y sin experiencia (esto no es una frase hecha sino una expresión común de muchos emprendimientos del año 1999 con el que los ejecutivos azuzaban a sus equipos técnicos). El “motto” era: ¡Tráfico más atractivos iban a la larga a generar un “back-end” y un “front-end”, a la larga a establecer nuevos canales de negocios  e incluso iban a llenar rápidamente las bases de datos inicialmente vacías!. Justamente, las grandes consultoras, que a lo largo de décadas crecieron basándose en crear esas infraestructuras en las empresas, estuvieron misteriosamente silenciadas durante ese breve período. Quizá pensaran como muchos: ¿Y si después de todo tienen razón?.

 

Todo era una loca carrera en lograr impactantes “primeras impresiones”, que realimentadas con ingentes cantidades de atracciones y mucha publicidad, producirían masas críticas estables y cautivas de clientes. Nada se consideraba pérdida sino inversión. El modelo no era del todo disparatado pues ya los famosos “Tigres del Asia” habían triunfado en su momento aplicando exitosamente la “Ley de la Experiencia”, que establecía que como los costos de producción de productos de alta tecnología decrecían en un factor constante a medida que aumentaba la “experiencia” de una determinada “marca”, todo era cuestión de “aguantar” hasta que el costo fuera inferior al que el mercado potencial estuviera dispuesto a pagar. La experiencia se medía en unidades vendidas.

 

Esta ley vale si se cuenta con capacidad de financiación de pérdidas iniciales prácticamente infinitas y para mercados prácticamente ilimitados e Internet es justamente eso, un mercado prácticamente ilimitado. El problema es que lo que el usuario está dispuesto a pagar los servicios Internet es CERO. Aún así, muchos continuaron con la idea de resolver la ecuación monetaria mediante transacciones comerciales, es decir, primero atraer usuarios y luego introducirlos progresivamente en el Comercio Electrónico.

 

 

Hacia donde apuntaba el crecimiento tecnológico

 

Durante ese período se creció mucho en tecnologías Web, en herramientas, en robots, en agentes inteligentes que intentaban optimizar el encuentro entre ofertas a través de los sitios Web y las demandas de los usuarios. Por ejemplo, en las subastas, los motores de encuentro se basan en agentes inteligentes que tratan de facilitar las gestiones tanto hacia el back-end cuanto al front-end, pero..... a nadie se le ocurría pensar que en la mayoría de los sitios Web no existían en realidad ninguna de esas infraestructuras.

 

Es decir, se experimentaba un vacío de pensamiento esencial, trivial podríamos agregar. Algo similar ocurría con los servicios de búsqueda. La tendencia era y continúa siendo la creación de metodologías y de herramientas de optimización de búsqueda, de minimización del "tracking", sin pensar demasiado si vale o no la pena buscar entre tanto ruido, conformado principalmente por tácticas de engaño y de camuflaje por parte de los autores de los documentos lanzados al Ciberespacio.

 

Ocurría algo similar a las investigaciones con altos rangos de incertidumbre, como por ejemplo, en la determinaciones de las secciones eficaces nucleares: ¿Qué puede decirse de un resultado igual a 5 más / menos 10.000?. Sólo podemos arriesgar que la medición estaba cerca de 5, o por la intuición de los investigadores o por un factor de suerte en la medición, pero como resultado es científicamente poco creíble.

 

 

 

 

 

Otro tanto ocurría con las bases de datos. Poco importaba si estaban vacías o si estaban llenas pero con datos difíciles de encontrar por parte de los usuarios. Como en Internet sí_o_sí hay que estar, se especulaba con que el usuario creyera que si no encontraba algo era porque o desconocía la jerga adecuada o porque sencillamente no sabía buscar. En todos los casos, el usuario es invitado a formar parte de la base que se va llenando rápidamente de información genuina basándose en el intenso tráfico. Así se formaron de la nada muchos sitios hoy importantes aunque la mayoría desapareció del mercado.

 

 

El “background” o sustento del repensar los problemas de la Web

 

En mi juventud había trabajado bastante con arborescencias a las que siempre asocié con el orden establecido, la ley, los programas y a la larga, con la paz de los cementerios. Por otro lado, siempre me atrajeron los grafos, las aparentemente caóticas redes neuronales, los juicios de valor "gestalticos", intuitivos, no necesariamente racionales.

 

 

Qué es en esencia la Web

El Comercio Electrónico hoy

 

Dentro de éste escenario de ciencia-ficción, sin bases sólidas, se me ocurrió pensar un poco al estilo clásico de sistemas. Retornar a los fundamentos. La Web como mercado mundial de información, de propietarios que intentan vender sus verdades (o sus mentiras) sus productos, sus servicios y los usuarios, por primera vez proveniente de todas partes del mundo, de todas las culturas, edades y de todas las clases sociales.

 

Hay que tener en cuenta que construir un entendimiento entre  "vendedores" y "compradores" en mercados "físicos" reales, constituye un fenómeno socio económico cultural que toma años de ajuste. No-solo es necesario poseer stocks sino precisas reglas de juego, canales de distribución, canales de facilitación de las operaciones, precisas jergas (tesauros) logradas  a través del paso de los años mediante acuerdos implícitos entre compradores y vendedores y todo, estructurado en reales, legales y confiables “back-ends” y “front-ends”.

 

 

¡Todo eso está recién en proceso de formación en la Web!. Y tomará años estructurarlo. No cabe duda que, siguiendo globalmente y aproximadamente las pautas del Informe de Forrester,  el comercio electrónico va a ir hacia la Web, pero tomará el tiempo que deba tomar sobre la base de la inercia cultural de la gente y de sus organizaciones.

 

Más allá de éste mercado global, la gente quiere trascender y para ello crea documentos. En la Web se generan documentos a un ritmo enloquecedor de triplicación anual, desde páginas generadas "al vuelo", que documentan vivencias y pensamientos humanos, desde tonterías a genialidades, hasta documentos textuales y mensajes con objetos de todo tipo, que son expresiones energéticas del paso del ser humano por el planeta.

 

Dentro de los tres recursos básicos de Internet: información, conocimiento y entretenimiento tenemos la expresión mental humana actualizada.

 

 

 

 

 

 

 

El Conocimiento en la Web

El gran interrogante

 

Dentro de ese espacio ilimitado y sutil está lo que denominamos "Conocimiento", a la larga una convención para medir de alguna manera nuestro estadio evolutivo, un enorme grafo vivo de nodos y relatas. Ahora bien, en una analogía física podemos preguntarnos cuál será entonces la "masa crítica" de ese grafo. ¿Consideramos absolutamente todo lo producido, todo lo emitido por mensajes y señas por todos los seres humanos que han existido hasta el presente o nos conformamos solo con una selección arbitraria, con un grafo parcial, mucho más operable, extraído del total?.

 

 

El concepto Biblioteca

 

A lo largo de los tiempos el ser humano ha operado con el concepto de biblioteca que no es sino un grafo parcial arbitrario y limitado de nodos ( a los que podríamos asociar cono documentos o libros básicos). El conocimiento que se obtiene de ese grafo dependerá, sin lugar a dudas, de los que seleccionaron los nodos y establecieron las relatas entre ellos, es decir, es arbitrario. No obstante, lo aceptamos en función del "prestigio" y de la "credibilidad" asignados a cada uno de los dueños, administradores y actores principales de esa institución a la que denominamos biblioteca.

 

Las distintas culturas imponían el conocimiento deseado mediante sus propias bibliotecas, destruyendo literalmente a las bibliotecas de los desplazados o vencidos. No obstante, el contenido de estas bibliotecas eran cosas vivas en el sentido que sus contenidos sufrían cambios que de alguna forma expresaban la lucha continua entre los poseedores de la verdad y los que pretendían modificarla.

 

Hasta el advenimiento de Internet, el proceso de edición de documentos merecedores de figurar en las bibliotecas era relativamente pesado y costoso, en términos de esfuerzos y a veces hasta de la propia vida. Hasta no hace mucho, los libros eran conocidos, se hacían famosos, mediante la comunicación de boca en boca. Luego fueron los medios los que "iluminaban" a aquellos libros o documentos que de alguna manera convenían a los distintos polos de orden establecido.

 

Con Internet la cosa cambia cualitativamente. Cualquier persona puede trascender enviando documentos al Ciberespacio. El único problema es cómo obtener "iluminación" para ser ubicado y como adquirir popularidad, y a la larga prestigio, para figurar en las bibliotecas, mereciendo de ese modo formar parte del conocimiento de ese momento.

 

 

 

Aspectos Éticos y Grado de Automatismo Viable en la Web

Reflexiones surgidas de una serie de encuentros técnico científicos realizada en Madrid durante la última semana del mes de Mayo del año 2001, con Profesores de la Universidad de Madrid.

 

Aspectos Éticos y Automatismo Pleno versus Semi Automatismo fue uno de los temas discutidos en Madrid. Nuestra metodología FIRST, pese a trabajar con Sistemas Expertos y Agentes Inteligentes, está encuadrada dentro de los que hemos denominado Sistemas Semi Autómatas, en los cuales el circuito de las decisiones finales es siempre cerrado por el ser humano.

 

Al respecto, es importante analizar los puntos a favor y en contra de ambas corrientes de pensamiento orientadas al diseño de soluciones Internet: los que confían en la superioridad final de los autómatas y los que como nosotros, confiamos en soluciones mixtas, subordinando a los autómatas a las decisiones del ser humano. 

 

Dentro de ésta línea argumental discutimos con el Dr. Ernesto García Camarero el problema de la “netiquette”, es decir, de la Ética Internet y del futuro del Ciberespacio como utopía anárquica y democrática.

 

En particular el espacio Web puede llegar a triplicar su volumen anualmente mientras que el volumen de lo que sería el Conocimiento Básico se mantendría aproximadamente constante aunque experimentando continuos cambios en su contenido. Todo ocurriría como si en la “noosfera”, neologismo por esfera del conocimiento en nuestro planeta, existieran tres coronas: una la global, creciendo al ritmo de creación de información, desde genialidades hasta trivialidades y tonterías, una segunda, con el conocimiento básico y una tercera con las contribuciones tendientes a cambiar ese conocimiento básico, bajo la forma de artículos y ensayos científicos y técnicos en seminarios, congresos, “journals” y “proceedings”.

 

A nuestro entender, pretender definir en forma continua y precisa esas tres regiones del Ciberespacio mediante autómatas sería como pretender crear un autómata imbatible al ajedrez mediante el estudio analítico de todas las partidas jugadas. Lo que los autores de la Big Blue II de IBM hicieron fue comenzar por construir una “máquina” que jugara razonablemente bien al ajedrez y con capacidad para “aprender” de fracasos y éxitos, más de los primeros que de los segundos. A su vez, para jugar razonablemente bien no recurrieron al análisis de todas las partidas posibles sino a partidas seleccionadas por un conjunto de expertos y a alimentarla con ciertas reglas de táctica y estrategia y con “patterns” de éxitos y fracasos, es decir, a alimentarla con lo que consideraban lo mejor del “orden establecido” en el arte_ciencia” del ajedrez hasta ese momento. En cierto modo actuaron inicialmente imponiendo su mejor aproximación al problema, pero luego el sistema comienza a aprender de la realidad externa.

 

Esto se corresponde con un dualismo continuo entre orden y caos fructífero. El orden está generalmente representado por “árboles” o listados lógicos, siendo el equivalente de las “leyes” u “órdenes establecidos” hasta ese momento. Una sociedad evolutiva debe tener siempre un orden de base pero estar siempre abierta al caos fructífero, representado por los deseos de la gente, los cuales pueden ser representados por grafos de palabras, conceptos, pulsiones. Nuestra propuesta es partir de un orden definido por un conjunto de expertos y luego abrir ese orden con mente “proactiva” a las necesidades de la gente en materia de información.

 

De esa interacción surgen ordenamientos supuestamente más “democráticos”, sugeridos por los autómatas, quedando la aceptación de esos nuevos ordenamientos librados a la decisión de humanos. A la larga, esto configura un mercado global de oferta y demanda de información: si los “propietarios” de los sitios Web hacen oídos sordos a lo que la gente pide la gente los abandonará. Si por otra parte, hacen caso absoluto a lo que la gente pide el sistema perderá inercia y comenzará, a la larga, un proceso degenerativo.

 



    Class  back to Index
  Send a comment to our CEO